web-dev-qa-db-ja.com

ウェブページがChromedriverをボットとして使用してSelenium Webdriverを検出しています

私は https://www.controller.com/ をpythonでスクレイピングしようとしています、そしてページがpandas.get_htmlを使用してボットを検出し、ユーザーエージェントとローテーションプロキシを使用してリクエストしているため、私はSelenium webdriverを使用することに頼りました。ただし、これは次のメッセージでボットとしても検出されています。誰かがこれをどうやって乗り越えることができるか説明できますか?:

私たちの邪魔を許してください... www.controller.comを閲覧していたとき、ブラウザーについての何かがあなたをボットだと私たちに思わせました。これが発生する理由はいくつかあります。あなたは超人的な速度でこのWebサイトを移動するパワーユーザーです。 WebブラウザーでJavaScriptを無効にしました。 GhosteryやNoScriptなどのサードパーティのブラウザプラグインが、JavaScriptの実行を妨げています。追加情報は、このサポート記事で入手できます。ブロック解除をリクエストするには、下のフォームに記入してください。できるだけ早く確認します。」

これが私のコードです:

from Selenium import webdriver
import requests
from Selenium.webdriver.common.action_chains import ActionChains
from Selenium.webdriver.common.keys import Keys
options = webdriver.ChromeOptions()
options = webdriver.ChromeOptions()
options.add_argument("start-maximized")
options.add_argument("disable-infobars")
options.add_argument("--disable-extensions")
#options.add_argument('headless')
driver = webdriver.Chrome(chrome_options=options)
driver.get('https://www.controller.com/')
driver.implicitly_wait(30)
4
Alex

ローテーションユーザーエージェントまたはIPで変更を試みましたか?時にはそれが役立ちます。

0
Hayk Eminyan