web-dev-qa-db-ja.com

「utf-8」コーデックは位置4276のバイト0xa0をデコードできません:開始バイトが無効です

次のファイルを読み取って印刷しようとします:txt.tsv( https://www.sec.gov/files/dera/data/financial-statement-and-notes-data-sets/2017q3_notes.Zip

SECによると、データセットは次のように単一のエンコーディングで提供されます。

タブ区切り値(.txt):utf-8、タブ区切り、\ nで終わる行、最初の行には小文字のフィールド名が含まれます。

私の現在のコード:

import csv

with open('txt.tsv') as tsvfile:
    reader = csv.DictReader(tsvfile, dialect='Excel-tab')
    for row in reader:
        print(row)

すべての試行は次のエラーメッセージで終了しました。

「utf-8」コーデックは位置4276のバイト0xa0をデコードできません:開始バイトが無効です

私は少し迷っています。誰も私を助けることができますか?事前に感謝します。

10
Vital

ファイルのエンコーディングは「windows-1252」です。つかいます:

open('txt.tsv', encoding='windows-1252')
16
koPytok

誰かがトルコ語のデータを扱う場合、次の行をお勧めします。

df = pd.read_csv("text.txt",encoding='windows-1254')
2
Hasim D

私は.csvファイルに同じエラーメッセージがあり、これは私のために働いた:

     df = pd.read_csv('Text.csv',encoding='ANSI')
0
Ghulam Dastgeer
ds = pd.read_csv('/Dataset/test.csv', encoding='windows-1252') 

私にとってはうまくいきます、ありがとう。

0
raj kumar