web-dev-qa-db-ja.com

python and beautifulsoupを使用してログインが必要なWebサイトをスクレイピングする方法は?

最初にパスワードでログインする必要があるWebサイトをスクレイピングしたい場合、beautifulsoup4ライブラリを使用してpythonでスクレイピングを開始するにはどうすればよいですか?.

from bs4 import BeautifulSoup    
import urllib2 
url = urllib2.urlopen("http://www.python.org")    
content = url.read()    
soup = BeautifulSoup(content)

ログインに対応するために、どのようにコードを変更する必要がありますか?スクレイピングしたいWebサイトがログインが必要なフォーラムであると仮定します。例は http://forum.arduino.cc/index.php です

42
user781486

Mechanizeを使用できます:

import mechanize
from bs4 import BeautifulSoup
import urllib2 
import cookielib

cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_cookiejar(cj)
br.open("https://id.arduino.cc/auth/login/")

br.select_form(nr=0)
br.form['username'] = 'username'
br.form['password'] = 'password.'
br.submit()

print br.response().read()

またはurllib- rllib2を使用してWebサイトにログイン

50
4d4c

Seleniumを使用してログインし、ページソースを取得してから、Beautiful Soupに渡して必要なデータを抽出できます。

3
user8495890