pythonで、CookieとPOST/GETを使用するスクリプトを作成しました。スクリプトにプロキシサポートも含めました。ただし、デッドプロキシプロキシを入力すると、スクリプトがクラッシュします。何かありますか?スクリプトの残りの部分を実行する前に、プロキシが停止しているかどうかを確認する方法はありますか?
さらに、一部のプロキシがCookie/POSTヘッダーを適切に処理しないことに気付きました。これを修正する方法はありますか?
最も簡単なのは、urllibからIOError例外をキャッチすることです。
try:
urllib.urlopen(
"http://example.com",
proxies={'http':'http://example.com:8080'}
)
except IOError:
print "Connection error! (Check proxy)"
else:
print "All was fine"
また、 このブログ投稿-"ステータスプロキシアドレスの確認" (若干の改善あり)から:
for python 2
import urllib2
import socket
def is_bad_proxy(pip):
try:
proxy_handler = urllib2.ProxyHandler({'http': pip})
opener = urllib2.build_opener(proxy_handler)
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
urllib2.install_opener(opener)
req=urllib2.Request('http://www.example.com') # change the URL to test here
sock=urllib2.urlopen(req)
except urllib2.HTTPError, e:
print 'Error code: ', e.code
return e.code
except Exception, detail:
print "ERROR:", detail
return True
return False
def main():
socket.setdefaulttimeout(120)
# two sample proxy IPs
proxyList = ['125.76.226.9:80', '213.55.87.162:6588']
for currentProxy in proxyList:
if is_bad_proxy(currentProxy):
print "Bad Proxy %s" % (currentProxy)
else:
print "%s is working" % (currentProxy)
if __name__ == '__main__':
main()
for python 3
import urllib.request
import socket
import urllib.error
def is_bad_proxy(pip):
try:
proxy_handler = urllib.request.ProxyHandler({'http': pip})
opener = urllib.request.build_opener(proxy_handler)
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
urllib.request.install_opener(opener)
req=urllib.request.Request('http://www.example.com') # change the URL to test here
sock=urllib.request.urlopen(req)
except urllib.error.HTTPError as e:
print('Error code: ', e.code)
return e.code
except Exception as detail:
print("ERROR:", detail)
return True
return False
def main():
socket.setdefaulttimeout(120)
# two sample proxy IPs
proxyList = ['125.76.226.9:80', '25.176.126.9:80']
for currentProxy in proxyList:
if is_bad_proxy(currentProxy):
print("Bad Proxy %s" % (currentProxy))
else:
print("%s is working" % (currentProxy))
if __name__ == '__main__':
main()
プロキシがダウンしている場合、これによりスクリプトにかかる時間が2倍になる可能性があることに注意してください(2つの接続タイムアウトを待つ必要があるため)。プロキシに障害があることを特に知る必要がない限り、IOErrorの処理ははるかにクリーンで簡単です。そしてより速く..
より良いアプローチは、dbrが言ったように、例外を処理することだと思います。
場合によってはより良い別の解決策は、外部オンラインプロキシチェッカーツールを使用してプロキシサーバーかどうかをチェックすることです。が生きていて、変更せずにスクリプトを使い続けます。
素敵なパッケージが1つあります Grab したがって、問題がなければ、次のように記述できます(単純な有効なプロキシチェッカージェネレーター)。
from grab import Grab, GrabError
def get_valid_proxy(proxy_list): #format of items e.g. '128.2.198.188:3124'
g = Grab()
for proxy in proxy_list:
g.setup(proxy=proxy, proxy_type='http', connect_timeout=5, timeout=5)
try:
g.go('google.com')
except GrabError:
#logging.info("Test error")
pass
else:
yield proxy