web-dev-qa-db-ja.com

コメント付きPDFファイル内のテキスト文字列を検索します

PDFファイル本文だけでなくコメントでもテキスト文字列を検索する必要があるため、Ubuntu 18.04 LTSにAcrobat Readerをインストールしました。その検索機能は正常に機能しますが、そのタスクを達成する別の方法があるかどうか疑問に思っています(pdfgrep?)

3
Lo Scrondo

1. PDFのソースコード内のコメントの文字列

PDFソースコード内のコメントの文字列については、これらはエンコードされておらず、プレーンASCIIまたはUTF-8テキストとして表示されると安全に想定できます。

したがって、次のコマンドが機能するはずです。

strings my.pdf | grep -i 'searchstring'

PDFソースコードのコメントは、各コメント行の先頭に%文字でマークされることを追加する必要があります。

また、Adobe AcrobatもAdobe Readerも、検索時に文字列の結果をコメントに表示しません。

2. PDFのテキストコンテンツ内の文字列

PDF内のテキストをそれほど簡単に見つけることはできません。ただし、特定の文字列を見つけるために次のことができます。

pdftotext -layout my.pdf - | grep -i 'searchstring'

ただし、他にもかなりの数のコマンドラインメソッドがあります(あなた自身がpdfgrepに言及しました)。 pdfgrepを取る:

pdfgrep -n -i 'searchstring' my.pdf

(ここでは、-nは文字列に一致するページ番号を印刷し、-iは検索で大文字と小文字を区別しません。)

3
Kurt Pfeifle