pd.read_csv
を使用してcsvファイルを読み込もうとしていますが、次のUnicodeエラーが発生します。
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte
残念ながら、CSVファイルには、文字エンコーディングを通知する組み込みの方法がありません。
read_csv
デフォルトでは、CSVファイルのバイトは、UTF-8エンコードでエンコードされたテキストを表すと推測します。これは、ファイルが有効なUTF-8シーケンスではないバイトになる他のエンコードを使用している場合、UnicodeDecodeError
になります。 (運が良ければUTF-8でも有効であれば、エラーは発生しませんが、ASCII以外の文字の入力が間違っているため、さらに悪い結果になります。)
どのエンコーディングが機能しているかを指定するのはあなた次第であり、それがどこから来たのかについてのある程度の知識(または推測)が必要です。たとえば、Windowsの西部インストールのMS Excelからのものである場合、それはおそらくWindowsコードページ1252であり、次のように読むことができます。
pd.read_csv('../filename.csv', encoding='cp1252')
次のエラーが発生しました
UnicodeDecodeError: 'utf-8'コーデックは51桁目のバイト0xe9をデコードできません:継続バイトが無効です
これは、ファイルとそのエンコーディングに変更を加えたためです。また、ubuntuのコードまたはnqqエディターを使用してファイルのエンコーディングをutf-8に変更しようとすることもできます。これは、エンコーディングを変更するためのディレクトリオプションを提供するためです。問題が解決しない場合は、ファイルに加えたすべての変更を元に戻すか、ディレクトリを変更してください。
お役に立てれば
コードをコピーし、新しい.pyファイルを開いてコードを入力し、保存します。