LinuxですべてのMS Officeドキュメントタイプ(Word、Excel、PowerPoint)からテキストを抽出する方法が必要です。これを実現するには、BashやPythonスクリプト、またはPDFに変換してから、 pdftotextなどのツール。
これは、ありふれた要件である可能性があるようです。これを簡単に達成するための確立された手順またはツールはありますか?
私はようやく、ドキュメント解析のスクリプトを作成するのに最適なツールを見つけました。これはApache-tikaであり、膨大な数の非テキスト形式をテキストに解析して非常に優れたテキストにすることができます。
ここでApache Tikaを入手してください:
(Mac Homebrewユーザー:brew install tika
)
コマンドラインインターフェイスは次のように機能します。
tika --text something.docx > something.txt
Catdoc は、doc、xls、pptをテキストに変換できます。 2番目のオプションは wvWare です。
その他のutilsのチェックをチェック http://www.linux.com/archive/articles/52385 Wordからテキストへの変換と
Abiword は、コマンドラインから既知の任意のファイル形式に変換できます。
Wordからプレーンテキストに変換します。
abiword --to=txt myfile.doc
WordファイルからPDFを作成します。
abiword --to=pdf myfile.doc
等々。これらの場合の結果は、myfile.txtまたはmyfile.pdfになります。出力名を指定したい場合は、次のようにすることもできます。
abiword --to=txt --to-name=output.txt myfile.doc
ODTをWordに変換します。
abiword --to=doc myfile.odt
WordをODTに変換します。
abiword --to=odt myfile.doc
他の回答との公平を期して、AbiWordはwvWareを使用してWord文書を処理することに注意してください。ただし、 wvWareホームページ でも、ほとんどの変換ではAbiWordを使用することを推奨しています。
ワープロは嫌いです。これが、AbiWordがインストールされている主な理由です。
unoconv にも興味があるかもしれません。これは、OpenOfficeが知っているフォーマット(スプレッドシートなどが含まれます)をサポートする類似のツールですが、私は個人的には経験がありません。
LibreOfficeでできること:
libreoffice --invisible --convert-to pdf file1.ppt file2.ppt
1.doc変換するdocファイルのcatdocまたはantiword次のコマンドを使用できますcatdoc file.doc> fileまたはantiword file.doc> file
docx docx2txt
pdf emacsファイル.pdf ctrl-x ctrl-sファイル
[〜#〜] cups [〜#〜] (仮想プリンター)とldを使用できます。
wv は1つのオプションであり、コマンドラインからIIRC OpenOfficeにPDFとしてエクスポートして終了するように指示できます。
PythonプロジェクトでApache Tikaを使用する場合は、チェックアウトしてください このブログ投稿 。