PDFファイル本文だけでなくコメントでもテキスト文字列を検索する必要があるため、Ubuntu 18.04 LTSにAcrobat Readerをインストールしました。その検索機能は正常に機能しますが、そのタスクを達成する別の方法があるかどうか疑問に思っています(pdfgrep?)
PDFソースコード内のコメントの文字列については、これらはエンコードされておらず、プレーンASCIIまたはUTF-8テキストとして表示されると安全に想定できます。
したがって、次のコマンドが機能するはずです。
strings my.pdf | grep -i 'searchstring'
PDFソースコードのコメントは、各コメント行の先頭に%
文字でマークされることを追加する必要があります。
また、Adobe AcrobatもAdobe Readerも、検索時に文字列の結果をコメントに表示しません。
PDF内のテキストをそれほど簡単に見つけることはできません。ただし、特定の文字列を見つけるために次のことができます。
pdftotext -layout my.pdf - | grep -i 'searchstring'
ただし、他にもかなりの数のコマンドラインメソッドがあります(あなた自身がpdfgrep
に言及しました)。 pdfgrep
を取る:
pdfgrep -n -i 'searchstring' my.pdf
(ここでは、-n
は文字列に一致するページ番号を印刷し、-i
は検索で大文字と小文字を区別しません。)