日記

検索エンジニアになりたい

Google I/O 2016 - Keynoteの検索に関する部分について

www.youtube.com 先日行われたGoogle I/O 2016でGoogleの検索に関する話があった。 メモとして残しておく。動画の17:30〜18:00あたり "In fact today, over 50% of our querise come from mobile phones. ... In the US, on our mobile app in android one i…

言語処理100本ノック 2015 8日目

言語処理100本ノックを見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,02,03,04,05,06,07,08,09,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24 まだ解けてないやつ たくさん …

論文読みました

検索エンジニアになりたいので論文も読んでみようと思って読んだ。 論文のまとめ方とか管理の仕方に悩んでいる。感想:つべこべいわず英語の論文を読もう 今回読んだのはCiniiやGoogle Scholarで「Web検索」「検索エンジン」などのキーワード検索をかけてでて…

Google Spacesを使いました

Googleが新しくソーシャルサービスのSpacesをリリースしました。iOS/Andoroid/Webアプリで公開していますが、今回の記事ではWebアプリバージョンを使ってみました。 まずGoogle Spacesと検索すると公式サイト(https://spaces.google.com/)がでてくるので、青…

言語処理100本ノック 2015 7日目

[言語処理100本ノック](http://www.cl.ecei.tohoku.ac.jp/nlp100/)を見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いしますもう解けてるやつ 00,01,02,03,04,05,06,07,08,09,10,11,12,13,14,15,16,17,18,19,20…

言語処理100本ノック 2015 6日目

言語処理100本ノックを見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,02,03,04,05,06,07,08,09,10,11,12,13,14,15,17,18,20,21,22,24 まだ解けてないやつ たくさん 第2章: UNI…

言語処理100本ノック 2015 5日目

言語処理100本ノックを見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,02,03,04,05,06,07,08,10,11,12,13,14,15,17,18,20,21,22,24 まだ解けてないやつ たくさん 第1章: 準備運…

言語処理100本ノック 2015 4日目

[言語処理100本ノック](http://www.cl.ecei.tohoku.ac.jp/nlp100/)を見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いしますもう解けてるやつ 00,01,02,03,04,05,06,07,08,10,11,12,13,14,15 まだ解けてないや…

言語処理100本ノック 2015 3日目

言語処理100本ノックを見つけたのでやる。使用した言語はPython2.7 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,02,03,04,05,06,07,08,10,11,12,13,14 まだ解けてないやつ たくさん 第1章: 準備運動 09. Typoglycemia スペースで区…

言語処理100本ノック 2015 2日目

言語処理100本ノックを見つけたのでやる。使用した言語はPython2.7 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,03,07,08,10 まだ解けてないやつ たくさん 第1章: 準備運動 02.「パトカー」+「タクシー」=「パタトクカシーー」 「…

言語処理100本ノック 2015 1日目

言語処理100本ノック(言語処理100本ノック 2015)を見つけたのでやる。使用した言語はPython2.7 途中上手くはてな記法が働いていないところがある第1章: 準備運動00. 文字列の逆順 文字列"stressed"の文字を逆に(末尾から先頭に向かって)並べた文字列を得よ…

Google A/B test

Googleが最近A/Bテストを行っている。theguardianのこの記事( Google tests black links in searches | Technology | The Guardian )が詳しい。A/Bテストの内容は、検索結果ページのタイトルの部分の色を青にするか黒にするかである。 いままでは青色を使用…

typo

typoには色々な種類がある。 Yahoo!検索スタッフブログのこの記事(あなたの知らないタイピングミスの世界 - Yahoo!検索 スタッフブログ)がとても詳しい。 記事ではタイピングミスパターンを16種類+αに分けている。 すかし…キーを打てたつもりが打ててなかっ…

タブ多すぎ問題

普通にインターネットを使用しているとこんなことになる。 6こだとほどよい 12こだとまあまだ常識の範疇 18こだと多少苦しいがアイコンとタイトルの1文字目が見えるのでまだなんとかなる 24こはクリックしたいタブにマウスをもってくのがたるくなる 30こはも…

いろんな検索エンジン

検索エンジンといったらGoogleやYahooが有名だがそれ以外にもたくさんある。Google 説明が必要がない。検索エンジン界の王様。 Yahoo 2009年にMicrosoftと提携し(ニュース - Yahoo!とMicrosoftが検索事業で10年にわたる提携を正式発表:ITpro)、さらには20…

検索技術の動向を知るのにいいかんじの3つのサイト

検索技術の動向を知るのにいいかんじの3つのサイトを紹介する。1つめ Google Research Blog(http://googleresearch.blogspot.jp/) Google公式のGoogleの検索技術を中心に取り扱ったサイト。 2つめ Yahoo!検索スタッフブログ(http://searchblog.yahoo.co.jp/…

クローラのコードを読む

クローラをつくるにあたってサンプルコード(https://github.com/REMitchell/python-scraping/blob/master/chapter3/3-crawlSite.py)を読んでみる。サンプルコードの出典は最後に明記してある。 以下がサンプルコードの全体。 from urllib.request import url…

groongaのチュートリアル4.1

groongaのチュートリアル4.1( 4.1. 基本的な操作 — Groonga v6.0.2ドキュメント )を行った。基本的にはSQLのような操作。offset関数は指定した次の値から表示されるのに注意。わからなかったこと 4.1.1.5検索結果の並び替えでのselect --table Site --quer…

はてなブログでPythonのコードを貼り付ける方法

Pythonのコードを貼り付けるためにまず編集方法を見たまま記法からはてな記法に変更する。見たまま記法からはてな記法に変更するときは本文の内容が消去されるので注意。 タイトル上部にある[編集]の下矢印を押す。はてな記法を選択する。 Pythonのコードを…

スクレイピングしてスニペットを取得する

検索結果を表示するときにそのページのスニペットが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のスニペットに該当する部分をスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 im…

スクレイピングしてURLを取得する

検索結果を表示するときにそのページのURLが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のURLをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 import BeautifulSoup from urll…

スクレイピングしてタイトルを取得する

検索結果を表示するときにそのページのタイトルが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のタイトルをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 import BeautifulSoup…

検索エンジンのしくみ

全文検索エンジンにはgrep型とインデックス型の2種類がある。 grep型とはコマンドのgrepと同じで文字列を最初から順番に検索していく方法。逐次検索型ともいう。 インデックス型とはあらかじめインデックスを作成しておきそこから検索していく方法。大規模の…

オープンソースの検索エンジン

オープンソースの(全文)検索エンジンには以下のようなものがある。 Elasticsearch(https://www.elastic.co/jp/products/elasticsearch) Javaで実装されている。検索結果の集計やGeoなど様々な機能があり、また、ログをkibanaで収集したり可視化することが…

20160329 Groonga新リリース自慢会6.0.1に参加した

概要 20160329に行われたGroonga新リリース自慢会6.0.1の内容と感想 この勉強会に行ったきっかけ 20160324くらいに検索を作る側にまわってみたいと思ったから 20160327-20160330の間に行われるSolr,Groonga,Elasticsearch,AmazonCloudSearchの勉強会をconnpa…