テーブルの識別と抽出をサポートするオープンソースライブラリはありますか?
これは私が意味する:
このトピックに関する同様の質問を調べたところ、次のことがわかりました。
現在、PDFからテーブル構造を識別するための機械学習ソリューションの開発に多くの時間を費やさなければならないと考えています。したがって、他のアプローチも歓迎です!
OCRライブラリ、バウンディングボックス、クラスタリングアルゴリズムを何時間も探索した後、私はあなたが泣きたいほど簡単な解決策を見つけました!
Linuxを使用していることを願っています。
pdftotext -layout NAME_OF_PDF.pdf
すごい!!
これで、すべての情報がNice列に並んだNiceテキストファイルが作成されました。csvなどにフォーマットするのは簡単です。
私がLinuxを愛しているのはこのような時代であり、これらの人たちはすべてに対するすばらしいソリューションを思いつき、それを無料で提供しています!
Kurt Pfeifleからの非常に有用な回答に加えたいと思います-TabulaのPythonラッパーがあり、これはこれまでのところ非常にうまくいくようです: https:// github .com/chezou/tabula-py
これにより、PDFテーブルがPandasデータフレームに変換されます。また、不規則なデータに非常に便利なX、Y座標で領域を設定することもできます。