スクレイピングしてURLを取得する
検索結果を表示するときにそのページのURLが必要となる。
ここではWikipediaのグーグル紹介ページ(Google - Wikipedia)のURLをスクレイピングして取得した。言語はPython3,ライブラリはbeautifulsoupを使用した。
from bs4 import BeautifulSoup from urllib.request import urlopen import re html = urlopen("https://ja.wikipedia.org/wiki/google") bsObj = BeautifulSoup(html.read()) for link in bsObj.findAll("link",rel="canonical"): if 'href' in link.attrs: print(link.attrs['href'])
実行すると以下のようになる。