最初にパスワードでログインする必要があるWebサイトをスクレイピングしたい場合、beautifulsoup4ライブラリを使用してpythonでスクレイピングを開始するにはどうすればよいですか?.
from bs4 import BeautifulSoup
import urllib2
url = urllib2.urlopen("http://www.python.org")
content = url.read()
soup = BeautifulSoup(content)
ログインに対応するために、どのようにコードを変更する必要がありますか?スクレイピングしたいWebサイトがログインが必要なフォーラムであると仮定します。例は http://forum.arduino.cc/index.php です
Mechanizeを使用できます:
import mechanize
from bs4 import BeautifulSoup
import urllib2
import cookielib
cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_cookiejar(cj)
br.open("https://id.arduino.cc/auth/login/")
br.select_form(nr=0)
br.form['username'] = 'username'
br.form['password'] = 'password.'
br.submit()
print br.response().read()
またはurllib- rllib2を使用してWebサイトにログイン
Seleniumを使用してログインし、ページソースを取得してから、Beautiful Soupに渡して必要なデータを抽出できます。