日記

検索エンジニアになりたい

スクレイピングしてURLを取得する

検索結果を表示するときにそのページのURLが必要となる。
f:id:sakura818uuu:20160508023320p:plain


ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のURLをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。

from bs4 import BeautifulSoup
from urllib.request import urlopen
import re

html = urlopen("https://ja.wikipedia.org/wiki/google")
bsObj = BeautifulSoup(html.read())

for link in bsObj.findAll("link",rel="canonical"):
  if 'href' in link.attrs:
    print(link.attrs['href'])

実行すると以下のようになる。
f:id:sakura818uuu:20160508023713p:plain