データを見ただけでは文字列形式のデータの文字エンコードを判別できないことを理解しています。これは私の質問ではありません。
私の質問は次のとおりです。PDFファイルには、慣例により、エンコードスキームが指定されているフィールド(例:UTF-8)がありますか?これは、HTMLの<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
に大体類似しています。
よろしくお願いします、Blz
PDF仕様 をざっと見ると、PDFファイル内で異なるエンコーディングを使用できることが示唆されているようです。 86ページをご覧ください。したがって、PDF何らかの低レベルのアクセス権を持つライブラリは、文字列に使用されるエンコーディングを提供できるはずです。しかし、テキストだけが必要で、使用する内部エンコーディングに注意してください。ライブラリに変換の処理を任せることをお勧めします。