urllib.urlretrieveが成功したかどうかを知る方法は？

Question

urllib.urlretrieveは、ファイルがリモートhttpサーバー上に存在しない場合でもサイレントに戻り、指定されたファイルにhtmlページを保存するだけです。例えば：

urllib.urlretrieve('http://google.com/abc.jpg', 'abc.jpg')

黙って戻るだけで、abc.jpgがgoogle.comサーバーに存在しない場合でも、生成されたabc.jpgは有効なjpgファイルではなく、実際はhtmlページです。返されたヘッダー（httplib.HTTPMessageインスタンス）を使用して、取得が成功したかどうかを実際に判断できると思いますが、httplib.HTTPMessageのドキュメントが見つかりません。

誰でもこの問題に関する情報を提供できますか？

Alexander Lebedev · Accepted Answer

可能であれば、urllib2の使用を検討してください。 urllibよりも高度で使いやすいです。

HTTPエラーは簡単に検出できます。

>>> import urllib2 >>> resp = urllib2.urlopen("http://google.com/abc.jpg") Traceback (most recent call last): <<MANY LINES SKIPPED>> urllib2.HTTPError: HTTP Error 404: Not Found

respは実際にはHTTPResponseオブジェクトであり、多くの便利なことができます：

>>> resp = urllib2.urlopen("http://google.com/") >>> resp.code 200 >>> resp.headers["content-type"] 'text/html; charset=windows-1251' >>> resp.read() "<<ACTUAL HTML>>"

Cees Timmerman · Answer

私はそれをシンプルに保ちます：

# Simple downloading with progress indicator, by Cees Timmerman, 16mar12. import urllib2 remote = r"http://some.big.file" local = r"c:\downloads\bigfile.dat" u = urllib2.urlopen(remote) h = u.info() totalSize = int(h["Content-Length"]) print "Downloading %s bytes..." % totalSize, fp = open(local, 'wb') blockSize = 8192 #100000 # urllib.urlretrieve uses 8192 count = 0 while True: chunk = u.read(blockSize) if not chunk: break fp.write(chunk) count += 1 if totalSize > 0: percent = int(count * blockSize * 100 / totalSize) if percent > 100: percent = 100 print "%2d%%" % percent, if percent < 100: print "\b\b\b\b\b", # Erase "NN% " else: print "Done." fp.flush() fp.close() if not totalSize: print

PyNEwbie · Answer

ドキュメントによると、ドキュメント化されていない

メッセージにアクセスするには、次のようなことをしているように見えます。

a, b=urllib.urlretrieve('http://google.com/abc.jpg', r'c:\abc.jpg')

bはメッセージインスタンスです

Pythonということを学んだので、入力するときに内省的なPythonの機能を使用することは常に役立ちます

dir(b)

たくさんのメソッドや関数を見ることができます

そして、私はbで物事を始めました

例えば

b.items()

多くの興味深いものがリストされていますが、これらのものをいじると、操作したい属性を取得できると思います。

申し訳ありませんが、これはこのような初心者の答えですが、イントロスペクション機能を使用して学習を改善する方法を習得しようとしています。質問がポップアップ表示されます。

さて、これに関連する興味深いことを試してみました-パラメータを必要としないディレクトリに表示されたもののそれぞれから自動的に出力を取得できるかどうか疑問に思っていたので、書きました：

needparam=[] for each in dir(b): x='b.'+each+'()' try: eval(x) print x except: needparam.append(x)

Christian Dav&#233;n · Answer

新しいURLopenerを作成し（FancyURLopenerから継承）、任意の方法で例外をスローしたり、エラーを処理したりできます。残念ながら、FancyURLopenerは404およびその他のエラーを無視します。この質問をご覧ください：

rllib.urlretrieveで404エラーをキャッチする方法

btw0 · Answer

私はretrieveの助けを借りてurl [lib/urllib2よりも多くのプロトコルをサポートする独自のpycurl実装になりました。

import tempfile import pycurl import os def get_filename_parts_from_url(url): fullname = url.split('/')[-1].split('#')[0].split('?')[0] t = list(os.path.splitext(fullname)) if t[1]: t[1] = t[1][1:] return t def retrieve(url, filename=None): if not filename: garbage, suffix = get_filename_parts_from_url(url) f = tempfile.NamedTemporaryFile(suffix = '.' + suffix, delete=False) filename = f.name else: f = open(filename, 'wb') c = pycurl.Curl() c.setopt(pycurl.URL, str(url)) c.setopt(pycurl.WRITEFUNCTION, f.write) try: c.perform() except: filename = None finally: c.close() f.close() return filename

gzliuqingyun · Answer

class MyURLopener(urllib.FancyURLopener): http_error_default = urllib.URLopener.http_error_default url = "http://page404.com" filename = "download.txt" def reporthook(blockcount, blocksize, totalsize): pass ... try: (f,headers)=MyURLopener().retrieve(url, filename, reporthook) except Exception, e: print e

fotonix · Answer

別のサーバー/ウェブサイトに対する結果-「B」に戻るのは少しランダムですが、特定の値をテストできます。

A: get_good.jpg B: Date: Tue, 08 Mar 2016 00:44:19 GMT Server: Apache Last-Modified: Sat, 02 Jan 2016 09:17:21 GMT ETag: "524cf9-18afe-528565aef9ef0" Accept-Ranges: bytes Content-Length: 101118 Connection: close Content-Type: image/jpeg A: get_bad.jpg B: Date: Tue, 08 Mar 2016 00:44:20 GMT Server: Apache Content-Length: 1363 X-Frame-Options: deny Connection: close Content-Type: text/html

「悪い」ケース（存在しない画像ファイル）では、「B」は（Googlebot？）HTMLコードの小さなチャンクを取得し、ターゲットとして保存しました。したがって、Content-Lengthは1363バイトです。

fotonix · Answer

:) StackOverflowに関する私の最初の投稿は、長年にわたって潜んでいます。 :)

悲しいことに、dir（urllib.urlretrieve）には有用な情報が不足しています。だから、これまでこのスレッドからこれを書いてみました：

a,b = urllib.urlretrieve(imgURL, saveTo) print "A:", a print "B:", b

これを生み出した：

A: /home/myuser/targetfile.gif B: Accept-Ranges: bytes Access-Control-Allow-Origin: * Cache-Control: max-age=604800 Content-Type: image/gif Date: Mon, 07 Mar 2016 23:37:34 GMT Etag: "4e1a5d9cc0857184df682518b9b0da33" Last-Modified: Sun, 06 Mar 2016 21:16:48 GMT Server: ECS (hnd/057A) Timing-Allow-Origin: * X-Cache: HIT Content-Length: 27027 Connection: close

私はチェックできると思います：

if b.Content-Length > 0:

次のステップは、取得が失敗するシナリオをテストすることです...