web-dev-qa-db-ja.com

PDFファイル内の特殊文字または短い数学記号を検索します

私はPDFリーダーとしてAdobeReader、Okular、DocumentViewerを持っています。私が読んだ論文は、LaTeXによって生成された数式を含むテキストであることがよくあります。

しかし、これらのビューアを使用してPDFファイル内の特殊文字や数学記号を検索することは完全には機能しないようです。私が通常行うことは、ファイルから重要な部分(特殊文字または数式)を選択してから、 Ctrl+C、その後 Ctrl+F、その後 Ctrl+V、残念ながら、視聴者が強調表示する内容が正しくないことがよくあります。

これは視聴者にとって重要な機能であり、単語だけでなく、ドキュメント内の特殊文字も探す必要があると思います。

誰かがこれを回避する方法を教えてもらえますか?より良いPDFリーダーまたは検索するためのスマートな方法はありますか?

7
SoftTimur

たとえあったとしても、問題に対する一般的な解決策はおそらくありません。

問題の核心は、PDFは、印刷時に何かがどのように見えるかを指定するように設計されていることです。PDFはおそらく市長の関心事ではありませんでした。したがって、問題はビューアではありません;問題はPDFには、アクセス可能な方法で探している情報が含まれていません。

たとえば、数式にアルファ(α)がある場合、これをコーディングできます。

  • unicode文字としてU+03B1
  • ギリシャ語フォントの単純なaとして(Windowsフォント記号が思い浮かびます)
  • または、アルファのように見えるが、ASCIIまたはUnicode文字が関連付けられていない適切なベクターグラフィックである可能性があります。

前者の場合、ソリューションはおそらく機能するはずですが、後者の場合、検索はテキスト内のすべての「a」で停止します。 3番目のケースでは、検索するテキストがないため、検索では何も表示されません。

の問題は、インデックスを持つ要素を検索すると、より困難になります。なので $A_B^C。これは特定の方法でタイプセットする必要があります(Aの下のB、その上のC)が、PDF作成者が3つの文字をaに挿入する順序は決まっていません。テキストボックス;3つの別々のテキストボックスを作成するか、数式の上位のインデックスをすべて最初に、下位のインデックスを最後に作成することもできます。

したがって、例として、式$A_B^C = D^E_F$は次のように表すことができます

C E A D B F

または

A B C D E F

または

A C B D F E

または、各文字のposition情報が正しい式を生成するために正しい限り、PDF作成者が喜ぶ)他の方法。言うまでもありません。最初と3番目のケースでは、 `$ A_B $ 'を検索するのに苦労するでしょう...

このすべての説明の後、あなたは何ができますか?

  • あまりない
  • PDFをTIFに出力してから、数学記号を処理できるツールを使用してOCRを実行してみてください
  • 紙の著者がプレプリントを公開するためのロビー arxiv.org LaTexソースと一緒に、より簡単に検索できます
  • 問題に対処するために、次のバージョンのPDF)に一種の「方程式サポート」を追加するAdobeのロビー活動。もちろん、これは、作成および変更に使用されるツールに実装する必要があります。 PDF
4

http://www.bluebeam.com には、PDFで視覚的な記号検索を実行できる製品があります。対象のシンボルまたは数式を強調表示すると、ハイパーリンクされた一致リストが返されます。いいえ、私は会社のサクラではありません-同じ質問がありました!ありがとう

2
user213232