次のファイルを読み取って印刷しようとします:txt.tsv( https://www.sec.gov/files/dera/data/financial-statement-and-notes-data-sets/2017q3_notes.Zip )
SECによると、データセットは次のように単一のエンコーディングで提供されます。
タブ区切り値(.txt):utf-8、タブ区切り、\ nで終わる行、最初の行には小文字のフィールド名が含まれます。
私の現在のコード:
import csv
with open('txt.tsv') as tsvfile:
reader = csv.DictReader(tsvfile, dialect='Excel-tab')
for row in reader:
print(row)
すべての試行は次のエラーメッセージで終了しました。
「utf-8」コーデックは位置4276のバイト0xa0をデコードできません:開始バイトが無効です
私は少し迷っています。誰も私を助けることができますか?事前に感謝します。
ファイルのエンコーディングは「windows-1252」です。つかいます:
open('txt.tsv', encoding='windows-1252')
誰かがトルコ語のデータを扱う場合、次の行をお勧めします。
df = pd.read_csv("text.txt",encoding='windows-1254')
私は.csvファイルに同じエラーメッセージがあり、これは私のために働いた:
df = pd.read_csv('Text.csv',encoding='ANSI')
ds = pd.read_csv('/Dataset/test.csv', encoding='windows-1252')
私にとってはうまくいきます、ありがとう。