PythonでHTMLページからURLを抽出する方法

Question

PythonでWebクローラーを作成する必要があります。ページを解析してHTMLからURLを抽出する方法がわかりません。そのようなプログラムを書くためにどこへ行って勉強すべきですか？

言い換えれば、一般的なWebクローラーのテンプレートとして使用できる単純なpythonプログラムがありますか？理想的には、比較的簡単に使用できるモジュールを使用し、大量のコメントを含める必要があります。コードの各行が何をしているかを説明します。

Shankar · Answer

以下のサンプルコードを見てください。スクリプトはWebページのHTMLコード（ここではPythonホームページ））を抽出し、そのページのすべてのリンクを抽出します。

#!/usr/bin/env python import requests from bs4 import BeautifulSoup url = "http://www.python.org" response = requests.get(url) # parse html page = str(BeautifulSoup(response.content)) def getURL(page): """ :param page: html of web page (here: Python home page) :return: urls in that page """ start_link = page.find("a href") if start_link == -1: return None, 0 start_quote = page.find('"', start_link) end_quote = page.find('"', start_quote + 1) url = page[start_quote + 1: end_quote] return url, end_quote while True: url, n = getURL(page) page = page[n:] if url: print(url) else: break

出力：

/ #left-hand-navigation #content-body /search /about/ /news/ /doc/ /download/ /getit/ /community/ /psf/ http://docs.python.org/devguide/ /about/help/ http://pypi.python.org/pypi /download/releases/2.7.3/ http://docs.python.org/2/ /ftp/python/2.7.3/python-2.7.3.msi /ftp/python/2.7.3/Python-2.7.3.tar.bz2 /download/releases/3.3.0/ http://docs.python.org/3/ /ftp/python/3.3.0/python-3.3.0.msi /ftp/python/3.3.0/Python-3.3.0.tar.bz2 /community/jobs/ /community/merchandise/ /psf/donations/ http://wiki.python.org/moin/Languages http://wiki.python.org/moin/Languages http://www.google.com/calendar/ical/b6v58qvojllt0i6ql654r1vh00%40group.calendar.google.com/public/basic.ics http://www.google.com/calendar/ical/j7gov1cmnqr9tvg14k621j7t5c%40group.calendar.google.com/public/basic.ics http://pycon.org/#calendar http://www.google.com/calendar/ical/3haig2m9msslkpf2tn1h56nn9g%40group.calendar.google.com/public/basic.ics http://pycon.org/#calendar http://www.psfmember.org

...

pradyunsg · Answer

BeautifulSoup を使用することもできます。 HTML、XMLなどを解析できます。その機能の一部を確認するには、ここを参照してください。

例：

import urllib2 from bs4 import BeautifulSoup url = 'http://www.google.co.in/' conn = urllib2.urlopen(url) html = conn.read() soup = BeautifulSoup(html) links = soup.find_all('a') for tag in links: link = tag.get('href',None) if link is not None: print link

Scy · Answer

import sys import re import urllib2 import urlparse tocrawl = set(["http://www.facebook.com/"]) crawled = set([]) keywordregex = re.compile('<meta\sname=["\']keywords["\']\scontent=["\'](.*?)["\']\s/>') linkregex = re.compile('<a\s*href=[\'|"](.*?)[\'"].*?>') while 1: try: crawling = tocrawl.pop() print crawling except KeyError: raise StopIteration url = urlparse.urlparse(crawling) try: response = urllib2.urlopen(crawling) except: continue msg = response.read() startPos = msg.find('<title>') if startPos != -1: endPos = msg.find('</title>', startPos+7) if endPos != -1: title = msg[startPos+7:endPos] print title keywordlist = keywordregex.findall(msg) if len(keywordlist) > 0: keywordlist = keywordlist[0] keywordlist = keywordlist.split(", ") print keywordlist links = linkregex.findall(msg) crawled.add(crawling) for link in (links.pop(0) for _ in xrange(len(links))): if link.startswith('/'): link = 'http://' + url[1] + link Elif link.startswith('#'): link = 'http://' + url[1] + url[2] + link Elif not link.startswith('http'): link = 'http://' + url[1] + '/' + link if link not in crawled: tocrawl.add(link)

参照先： 50行未満のPython Webクローラー（遅い、または機能しなくなった、ロードされない）

Sushant Gupta · Answer

beautifulsoup を使用できます。ドキュメントに従って、要件に一致するものを確認してください。ドキュメントには、URLを抽出する方法のコードスニペットも含まれています。

from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc) soup.find_all('a') # Finds all hrefs from the html doc.

TerryA · Answer

ページの解析については、 BeautifulSoup モジュールを確認してください。使い方は簡単で、HTMLでページを解析できます。 str.find('a')を実行するだけで、HTMLからURLを抽出できます

HTMLの解析に正規表現を使用しないでください