日記

検索エンジニアになりたい

2016-05-08から1日間の記事一覧

はてなブログでPythonのコードを貼り付ける方法

Pythonのコードを貼り付けるためにまず編集方法を見たまま記法からはてな記法に変更する。見たまま記法からはてな記法に変更するときは本文の内容が消去されるので注意。 タイトル上部にある[編集]の下矢印を押す。はてな記法を選択する。 Pythonのコードを…

スクレイピングしてスニペットを取得する

検索結果を表示するときにそのページのスニペットが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のスニペットに該当する部分をスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 im…

スクレイピングしてURLを取得する

検索結果を表示するときにそのページのURLが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のURLをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 import BeautifulSoup from urll…

スクレイピングしてタイトルを取得する

検索結果を表示するときにそのページのタイトルが必要となる。 ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のタイトルをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。 from bs4 import BeautifulSoup…

検索エンジンのしくみ

全文検索エンジンにはgrep型とインデックス型の2種類がある。 grep型とはコマンドのgrepと同じで文字列を最初から順番に検索していく方法。逐次検索型ともいう。 インデックス型とはあらかじめインデックスを作成しておきそこから検索していく方法。大規模の…