web-dev-qa-db-ja.com

UnicodeDecodeError: 'utf-8'コーデックは位置3のバイト0xccをデコードできません:無効な継続バイト

pd.read_csvを使用してcsvファイルを読み込もうとしていますが、次のUnicodeエラーが発生します。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte
5
Josephine M. Ho

残念ながら、CSVファイルには、文字エンコーディングを通知する組み込みの方法がありません。

read_csvデフォルトでは、CSVファイルのバイトは、UTF-8エンコードでエンコードされたテキストを表すと推測します。これは、ファイルが有効なUTF-8シーケンスではないバイトになる他のエンコードを使用している場合、UnicodeDecodeErrorになります。 (運が良ければUTF-8でも有効であれば、エラーは発生しませんが、ASCII以外の文字の入力が間違っているため、さらに悪い結果になります。)

どのエンコーディングが機能しているかを指定するのはあなた次第であり、それがどこから来たのかについてのある程度の知識(または推測)が必要です。たとえば、Windowsの西部インストールのMS Excelからのものである場合、それはおそらくWindowsコードページ1252であり、次のように読むことができます。

pd.read_csv('../filename.csv', encoding='cp1252')
17
bobince

次のエラーが発生しました

UnicodeDecodeError: 'utf-8'コーデックは51桁目のバイト0xe9をデコードできません:継続バイトが無効です

これは、ファイルとそのエンコーディングに変更を加えたためです。また、ubuntuのコードまたはnqqエディターを使用してファイルのエンコーディングをutf-8に変更しようとすることもできます。これは、エンコーディングを変更するためのディレクトリオプションを提供するためです。問題が解決しない場合は、ファイルに加えたすべての変更を元に戻すか、ディレクトリを変更してください。

お役に立てれば

0
rahul ranjan

コードをコピーし、新しい.pyファイルを開いてコードを入力し、保存します。

0
Happy Happy