PythonでPDFMinerを使用してPDFファイルからテキストを抽出しますか？

Question

Pythonバージョン2.7

PythonでPDFMinerを使用してPDFファイルからテキストを抽出する方法に関するドキュメントまたはの例を探しています。

PDFMinerがAPIを更新し、関連するすべての例に古いコードが含まれているようです（クラスとメソッドが変更されています）。 PDFファイルからテキストを抽出するタスクを簡単にするライブラリは、古いPDFMiner構文を使用しているため、これを行う方法がわかりません。

現状では、ソースコードを見て、理解できるかどうかを確認しています。

DuckPuncher · Accepted Answer

以下は、現在のバージョンのPDFMinerを使用してPDFファイルからテキストを抽出する実際の例です（2016年9月）

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text

PDFMinerの構造は最近変更されたため、PDFファイルからテキストを抽出するために機能するはずです。

編集：2018年6月7日現在でも動作しています。Pythonバージョン3.xで検証済み

juan Isaza · Answer

duckPuncherからのすばらしい回答です。Python3の場合は、pdfminer2をインストールして以下を実行してください。

import io from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = io.StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos = set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text