日記

検索エンジニアになりたい

スクレイピングしてスニペットを取得する

検索結果を表示するときにそのページのスニペットが必要となる。

f:id:sakura818uuu:20160508025821p:plain


ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のスニペットに該当する部分をスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。

from bs4 import BeautifulSoup
from urllib.request import urlopen
import re

html = urlopen("https://ja.wikipedia.org/wiki/google")
bsObj = BeautifulSoup(html.read())
print(bsObj.p)

実行すると以下のようになる。
f:id:sakura818uuu:20160508025959p:plain

タグやURLを除去できていないため修正する必要がある。