MSDOSまたはCygwinで.docx
ファイルを検索できるコマンドラインツールはありますか?
Grepを試しましたが、.docx
ファイルで正常に動作しているのに、.txt
では動作しません。
いつでも.docx
を.txt
に変換してから、Grepを使用して検索できることはわかっていますが、疑問に思っています。
コマンドラインから直接検索できるコマンドツールはありますか?
OP編集:後で、grepを実現する最も簡単な方法は、実際にはそれらのdocxをtxtに変換してから、それらをgrepすることであることがわかりました。
DOCXファイルを読み取ったり操作したりできるライブラリはたくさんあります。たとえば、 Apache POI 、または python-docx を考えます。 DOCXをgrepできるラッパーがすでにあるかどうかはわかりませんが、POIを使用して行うのはそれほど難しいことではありません(私はpython-docxの経験がありません。それでもより高速なソリューションである可能性があります。)。
編集:
また、もっと簡単に言えば、DOCXを解凍して(実際には単なるZipファイルであるため)、提案されているようにコンテンツをgrepすることもできます ここ 。
私はこの目的のためにantiword/catdocを使用していました。 docxファイルも含めるように機能を拡張する作業が明らかに行われています。 :-) http://blog.kiddaland.net/2009/07/antiword-for-office-2007/