正規表現を使用して数字を探すためにフォルダからすべてのPDFファイルを読み込もうとしています。検査では、PDFの文字セットは「UTF-8」です。
このエラーをスローします。
'UTF-8'コーデックは10の位置にバイト0xe2をデコードできません:無効な継続バイト
バイナリモードで読み込んだり、Latin-1エンコードを試みましたが、特殊文字はすべて検索に表示されていません。
_import os
import re
import pandas as pd
download_file_path = "C:\\Users\\...\\..\\"
for file_name in os.listdir(download_file_path):
try:
with open(download_file_path + file_name, 'r',encoding="UTF-8") as f:
s = f.read()
re_api = re.compile("API No\.\:\n(.*)")
api = re_api.search(s).group(1).split('"')[0].strip()
print(api)
except Exception as e:
print(e)
_
PDFファイルからAPI番号を見つけることを期待しています
問題はあなたのコンピュータ名が原因であるかもしれません、私はPython Djangoフレームワークでこのエラーを得ました
解決策は "あなたのコンピュータ名に特殊文字を含んではいけません"、手入れをチェックしてあなたのコンピュータ名を変更して変更してください... コンピュータ名の変更