私は一日中、いくつかを変換しようとしています。 MS Office ExcelやUbuntuのLibreOffice Calcなどのスプレッドシートへのサンパウロのトラフィックフローを含むPDFファイル。 LibreOffice Calcで.pdfファイルを開くと、LibreOffice Drawが開き、スプレッドシートを取得できません。
私が見つけた最も有望な方法は、pdftotextを使用した here でした。それは正常に動作し、LibreOffice Calcでテーブルを取得できますが、手動で列を調整します。
私の問題は、たくさんの.pdfファイルがあり、時間がかかることです。
誰かがより良い方法を知っていますか?
別のオプションはOkular( http://okular.kde.org )を使用することです。テーブル選択ツール(Ctrl + 5)があります。テーブルを選択し、行と列の行を追加して、結果のテーブルをクリップボードにコピーできます。それは私にとってはうまくいきます。
Tabula は非常にうまく機能します。 PDFは、構造化された情報を簡単に抽出できる形式ではないため、常に可能であるとは限りません。
多分-layout
が役に立ちます。このオプションを設定すると、pdftotext
は結果のテキストファイルに列のレイアウトを保持しようとします。
これで、適切なインポート設定でテキストファイルをLibreOffice Calcにインポートできます。 Calcでtxt
ファイルを開くと、ファイルの内容を解析する方法を尋ねられます(下のスクリーンショットを参照)。下 Separator Options
、両方のオプションを選択[separated by] Space
およびMerge Delimiters
。このようにして、Calcは列構造を復元できます(セルデータにスペースが含まれていない場合)。
Able2Extract と呼ばれるツールは、最小限のエラーで正確に実行できるオプションです