私の大学の他の学生が自分のスケジュールを作成するのに役立つWebアプリケーションを作成したいと思います。そのためには、マスタースケジュール(1つの巨大なhtmlページ)と、各コースの詳細な説明へのリンクをデータベース(できればPython)にクロールする必要があります。また、データにアクセスするにはログインする必要があります。
requests
ページのダウンロード用。lxml
データのスクレイピング用。強力なスクレイピングフレームワークを使用する場合は、 Scrapy
を使用できます。良いドキュメントもいくつかあります。ただし、タスクによっては、やり過ぎかもしれません。
HTMLデータの抽出に BeatifulSoup を使用するのが好き
それはこれと同じくらい簡単です:
from BeautifulSoup import BeautifulSoup
import urllib
ur = urllib.urlopen("http://pragprog.com/podcasts/feed.rss")
soup = BeautifulSoup(ur.read())
items = soup.findAll('item')
urls = [item.Enclosure['url'] for item in items]
この目的のために、web-harvestというウェブサイトへのリンクという非常に便利なツールがあります http://web-harvest.sourceforge.net/ これを使用して、Webページをクロールします