Pythonでhtmlのファイルを読み込む方法[Python][Beautifulsoup]

12月 23, 20187月 27, 2020

from bs4 import BeautifulSoup
import re
links = []
html_path = "./hoge.html"
with
open(html_path) as f:
html = f.read()
soup = BeautifulSoup(html)
parsed_links = soup.find_all("a")
for link in parsed_links:
TargetLink = link.get("href")
if re.search("http://", TargetLink):
links.append(TargetLink)

linksに所望のリンクが溜まっていく。

コツは、一度 open で html を開いてから、beautifulsoupでパースしていることだ。

re.search の部分は、余計なごみを省くために書いている。

関連記事

Posted by vastee

Linux起動時にunexpected inconsistency run fsck manuallyが出た時の対処法[Linux]

Pythonでテキストファイルから１行づつ読み込んで処理を行う[Python]

ディスカッション

コメント一覧

まだ、コメントがありません

コメントをどうぞコメントをキャンセル

この記事のトラックバックURL