www.youtube.com 先日行われたGoogle I/O 2016でGoogleの検索に関する話があった。 メモとして残しておく。動画の17:30〜18:00あたり "In fact today, over 50% of our querise come from mobile phones. ... In the US, on our mobile app in android one i…
言語処理100本ノックを見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,02,03,04,05,06,07,08,09,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24 まだ解けてないやつ たくさん …
検索エンジニアになりたいので論文も読んでみようと思って読んだ。 論文のまとめ方とか管理の仕方に悩んでいる。感想:つべこべいわず英語の論文を読もう 今回読んだのはCiniiやGoogle Scholarで「Web検索」「検索エンジン」などのキーワード検索をかけてでて…
Googleが新しくソーシャルサービスのSpacesをリリースしました。iOS/Andoroid/Webアプリで公開していますが、今回の記事ではWebアプリバージョンを使ってみました。 まずGoogle Spacesと検索すると公式サイト(https://spaces.google.com/)がでてくるので、青…
[言語処理100本ノック](http://www.cl.ecei.tohoku.ac.jp/nlp100/)を見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いしますもう解けてるやつ 00,01,02,03,04,05,06,07,08,09,10,11,12,13,14,15,16,17,18,19,20…
言語処理100本ノックを見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,02,03,04,05,06,07,08,09,10,11,12,13,14,15,17,18,20,21,22,24 まだ解けてないやつ たくさん 第2章: UNI…
言語処理100本ノックを見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,02,03,04,05,06,07,08,10,11,12,13,14,15,17,18,20,21,22,24 まだ解けてないやつ たくさん 第1章: 準備運…
[言語処理100本ノック](http://www.cl.ecei.tohoku.ac.jp/nlp100/)を見つけたのでやる。環境はPython2.7 + Ubuntu15.10です。 いたらぬ点もありますがよろしくお願いしますもう解けてるやつ 00,01,02,03,04,05,06,07,08,10,11,12,13,14,15 まだ解けてないや…
言語処理100本ノックを見つけたのでやる。使用した言語はPython2.7 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,02,03,04,05,06,07,08,10,11,12,13,14 まだ解けてないやつ たくさん 第1章: 準備運動 09. Typoglycemia スペースで区…
言語処理100本ノックを見つけたのでやる。使用した言語はPython2.7 いたらぬ点もありますがよろしくお願いします もう解けてるやつ 00,01,03,07,08,10 まだ解けてないやつ たくさん 第1章: 準備運動 02.「パトカー」+「タクシー」=「パタトクカシーー」 「…
言語処理100本ノック(言語処理100本ノック 2015)を見つけたのでやる。使用した言語はPython2.7 途中上手くはてな記法が働いていないところがある第1章: 準備運動00. 文字列の逆順 文字列"stressed"の文字を逆に(末尾から先頭に向かって)並べた文字列を得よ…
Googleが最近A/Bテストを行っている。theguardianのこの記事( Google tests black links in searches | Technology | The Guardian )が詳しい。A/Bテストの内容は、検索結果ページのタイトルの部分の色を青にするか黒にするかである。 いままでは青色を使用…
typoには色々な種類がある。 Yahoo!検索スタッフブログのこの記事(あなたの知らないタイピングミスの世界 - Yahoo!検索 スタッフブログ)がとても詳しい。 記事ではタイピングミスパターンを16種類+αに分けている。 すかし…キーを打てたつもりが打ててなかっ…
普通にインターネットを使用しているとこんなことになる。 6こだとほどよい 12こだとまあまだ常識の範疇 18こだと多少苦しいがアイコンとタイトルの1文字目が見えるのでまだなんとかなる 24こはクリックしたいタブにマウスをもってくのがたるくなる 30こはも…
検索エンジンといったらGoogleやYahooが有名だがそれ以外にもたくさんある。Google 説明が必要がない。検索エンジン界の王様。 Yahoo 2009年にMicrosoftと提携し(ニュース - Yahoo!とMicrosoftが検索事業で10年にわたる提携を正式発表:ITpro)、さらには20…
検索技術の動向を知るのにいいかんじの3つのサイトを紹介する。1つめ Google Research Blog(http://googleresearch.blogspot.jp/) Google公式のGoogleの検索技術を中心に取り扱ったサイト。 2つめ Yahoo!検索スタッフブログ(http://searchblog.yahoo.co.jp/…
クローラをつくるにあたってサンプルコード(https://github.com/REMitchell/python-scraping/blob/master/chapter3/3-crawlSite.py)を読んでみる。サンプルコードの出典は最後に明記してある。 以下がサンプルコードの全体。 from urllib.request import url…
groongaのチュートリアル4.1( 4.1. 基本的な操作 — Groonga v6.0.2ドキュメント )を行った。基本的にはSQLのような操作。offset関数は指定した次の値から表示されるのに注意。わからなかったこと 4.1.1.5検索結果の並び替えでのselect --table Site --quer…
Pythonのコードを貼り付けるためにまず編集方法を見たまま記法からはてな記法に変更する。見たまま記法からはてな記法に変更するときは本文の内容が消去されるので注意。 タイトル上部にある[編集]の下矢印を押す。はてな記法を選択する。 Pythonのコードを…
検索結果を表示するときにそのページのスニペットが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のスニペットに該当する部分をスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 im…
検索結果を表示するときにそのページのURLが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のURLをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 import BeautifulSoup from urll…
検索結果を表示するときにそのページのタイトルが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のタイトルをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 import BeautifulSoup…
全文検索エンジンにはgrep型とインデックス型の2種類がある。 grep型とはコマンドのgrepと同じで文字列を最初から順番に検索していく方法。逐次検索型ともいう。 インデックス型とはあらかじめインデックスを作成しておきそこから検索していく方法。大規模の…
オープンソースの(全文)検索エンジンには以下のようなものがある。 Elasticsearch(https://www.elastic.co/jp/products/elasticsearch) Javaで実装されている。検索結果の集計やGeoなど様々な機能があり、また、ログをkibanaで収集したり可視化することが…
概要 20160329に行われたGroonga新リリース自慢会6.0.1の内容と感想 この勉強会に行ったきっかけ 20160324くらいに検索を作る側にまわってみたいと思ったから 20160327-20160330の間に行われるSolr,Groonga,Elasticsearch,AmazonCloudSearchの勉強会をconnpa…