zipファイルをpandas DataFrameとして読み取ります

Question

私はcsvファイルを解凍してpandasに渡そうとしているので、ファイルで作業できます。
これまでに試したコードは次のとおりです。

import requests, zipfile, StringIO r = requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.Zip') z = zipfile.ZipFile(StringIO.StringIO(r.content)) crime2013 = pandas.read_csv(z.read('crime_incidents_2013_CSV.csv'))

最後の行の後、pythonはファイルを取得できますが、エラーの最後に「存在しません」と表示されます。

誰かが私が間違っていることを教えてもらえますか？

Suchit · Answer

Zipファイルまたはtar.gzファイルをpandasデータフレームに読み込む場合、read_csvメソッドにはこの特定の実装が含まれます。

df = pd.read_csv('filename.Zip')

または長い形式：

df = pd.read_csv('filename.Zip', compression='Zip', header=0, sep=',', quotechar='"')

docs の圧縮引数の説明：

compression：{'infer'、 'gzip'、 'bz2'、 'Zip'、 'xz'、None}、デフォルトの 'infer' For onオンザフライデータの解凍。「infer」およびfilepath_or_bufferがパスに似ている場合は、「。gz」、「。bz2」、「。Zip」、または「.xz」（そうでない場合は解凍なし）の拡張子から圧縮を検出します。「Zip」を使用する場合、Zipファイルには読み込むデータファイルが1つだけ含まれている必要があります。解凍しない場合はNoneに設定します。

バージョン0.18.1の新機能：「Zip」および「xz」圧縮のサポート。

Andy Hayden · Answer

open ではなく、ファイルのようなオブジェクトを返すZipファイルを read にしたいと思います。

In [11]: crime2013 = pd.read_csv(z.open('crime_incidents_2013_CSV.csv')) In [12]: crime2013 Out[12]: <class 'pandas.core.frame.DataFrame'> Int64Index: 24567 entries, 0 to 24566 Data columns (total 15 columns): CCN 24567 non-null values REPORTDATETIME 24567 non-null values SHIFT 24567 non-null values OFFENSE 24567 non-null values METHOD 24567 non-null values LASTMODIFIEDDATE 24567 non-null values BLOCKSITEADDRESS 24567 non-null values BLOCKXCOORD 24567 non-null values BLOCKYCOORD 24567 non-null values WARD 24563 non-null values ANC 24567 non-null values DISTRICT 24567 non-null values PSA 24567 non-null values NEIGHBORHOODCLUSTER 24263 non-null values BUSINESSIMPROVEMENTDISTRICT 3613 non-null values dtypes: float64(4), int64(1), object(10)

imanzabet · Answer

"Zip"ファイルの場合、import zipfileを使用できます。コードは次の行で簡単に機能します。

import zipfile import pandas as pd with zipfile.ZipFile("Crime_Incidents_in_2013.Zip") as z: with z.open("Crime_Incidents_in_2013.csv") as f: train = pd.read_csv(f, header=0, delimiter="	") print(train.head()) # print the first 5 rows

結果は次のようになります。

X,Y,CCN,REPORT_DAT,SHIFT,METHOD,OFFENSE,BLOCK,XBLOCK,YBLOCK,WARD,ANC,DISTRICT,PSA,NEIGHBORHOOD_CLUSTER,BLOCK_GROUP,CENSUS_TRACT,VOTING_PRECINCT,XCOORD,YCOORD,LATITUDE,LONGITUDE,BID,START_DATE,END_DATE,OBJECTID 0 -77.054968548763071,38.899775938598317,0925135... 1 -76.967309569035052,38.872119553647011,1003352... 2 -76.996184958456539,38.927921847721443,1101010... 3 -76.943077541353617,38.883686046653935,1104551... 4 -76.939209158039446,38.892278093281632,1125028...

TDS · Answer

圧縮を指定する必要さえないようです。次のスニペットは、filename.Zipからdfにデータをロードします。

import pandas as pd df = pd.read_csv('filename.Zip')

（もちろん、デフォルトと異なる場合は、セパレーター、ヘッダーなどを指定する必要があります。）