日記

検索エンジニアになりたい

検索

Google A/B test

Googleが最近A/Bテストを行っている。theguardianのこの記事( Google tests black links in searches | Technology | The Guardian )が詳しい。A/Bテストの内容は、検索結果ページのタイトルの部分の色を青にするか黒にするかである。 いままでは青色を使用…

typo

typoには色々な種類がある。 Yahoo!検索スタッフブログのこの記事(あなたの知らないタイピングミスの世界 - Yahoo!検索 スタッフブログ)がとても詳しい。 記事ではタイピングミスパターンを16種類+αに分けている。 すかし…キーを打てたつもりが打ててなかっ…

いろんな検索エンジン

検索エンジンといったらGoogleやYahooが有名だがそれ以外にもたくさんある。Google 説明が必要がない。検索エンジン界の王様。 Yahoo 2009年にMicrosoftと提携し(ニュース - Yahoo!とMicrosoftが検索事業で10年にわたる提携を正式発表:ITpro)、さらには20…

検索技術の動向を知るのにいいかんじの3つのサイト

検索技術の動向を知るのにいいかんじの3つのサイトを紹介する。1つめ Google Research Blog(http://googleresearch.blogspot.jp/) Google公式のGoogleの検索技術を中心に取り扱ったサイト。 2つめ Yahoo!検索スタッフブログ(http://searchblog.yahoo.co.jp/…

クローラのコードを読む

クローラをつくるにあたってサンプルコード(https://github.com/REMitchell/python-scraping/blob/master/chapter3/3-crawlSite.py)を読んでみる。サンプルコードの出典は最後に明記してある。 以下がサンプルコードの全体。 from urllib.request import url…

groongaのチュートリアル4.1

groongaのチュートリアル4.1( 4.1. 基本的な操作 — Groonga v6.0.2ドキュメント )を行った。基本的にはSQLのような操作。offset関数は指定した次の値から表示されるのに注意。わからなかったこと 4.1.1.5検索結果の並び替えでのselect --table Site --quer…

スクレイピングしてスニペットを取得する

検索結果を表示するときにそのページのスニペットが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のスニペットに該当する部分をスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 im…

スクレイピングしてURLを取得する

検索結果を表示するときにそのページのURLが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のURLをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 import BeautifulSoup from urll…

スクレイピングしてタイトルを取得する

検索結果を表示するときにそのページのタイトルが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のタイトルをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 import BeautifulSoup…

検索エンジンのしくみ

全文検索エンジンにはgrep型とインデックス型の2種類がある。 grep型とはコマンドのgrepと同じで文字列を最初から順番に検索していく方法。逐次検索型ともいう。 インデックス型とはあらかじめインデックスを作成しておきそこから検索していく方法。大規模の…

オープンソースの検索エンジン

オープンソースの(全文)検索エンジンには以下のようなものがある。 Elasticsearch(https://www.elastic.co/jp/products/elasticsearch) Javaで実装されている。検索結果の集計やGeoなど様々な機能があり、また、ログをkibanaで収集したり可視化することが…

20160329 Groonga新リリース自慢会6.0.1に参加した

概要 20160329に行われたGroonga新リリース自慢会6.0.1の内容と感想 この勉強会に行ったきっかけ 20160324くらいに検索を作る側にまわってみたいと思ったから 20160327-20160330の間に行われるSolr,Groonga,Elasticsearch,AmazonCloudSearchの勉強会をconnpa…