Pdfminer python 3.5

Question

私はいくつかのチュートリアルに従っていましたが、このコードブロックを実行することができません。必要なStringIOからBytesIOへの切り替えを行いました（私は信じますか？）

「バナナ」が何も印刷しないのはなぜかわかりません。エラーはニシンだと思いますか？ python2.7チュートリアルに従ってそれをpython3に変換しようとしていますか？

errors: File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 28, in <module> banana = convert("A1.pdf") File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 19, in convert infile = file(fname, 'rb') NameError: name 'file' is not defined

スクリプト

from io import BytesIO from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage def convert(fname, pages=None): if not pages: pagenums = set() else: pagenums = set(pages) output = BytesIO() manager = PDFResourceManager() converter = TextConverter(manager, output, laparams=LAParams()) interpreter = PDFPageInterpreter(manager, converter) infile = file(fname, 'rb') for page in PDFPage.get_pages(infile, pagenums): interpreter.process_page(page) infile.close() converter.close() text = output.getvalue() output.close return text banana = convert("A1.pdf") print(banana)

同じことがこのバリアントでも発生します。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import BytesIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = BytesIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = file(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text Banana = convert_pdf_to_txt("A1.pdf") print(Banana)

私はこれを検索しようとしました（ほとんどのpdfminerコードは this または this からのものです）が、運がありません。

どんな洞察も大歓迎です。

乾杯

pyano · Accepted Answer

そこにisPython 3.5の解決策：が必要ですpdfminer.six 。 win10で簡単にインストールできました

pip install pdfminer.six

インストールされたバージョンを確認するには

pdfminer.__version__

私はまだ集中的にテストしていません。しかし、変換のために次のコードを実行できますpdf→textおよびpdf→html

pyano · Answer

ソリューションの改善（Dez 2016）

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import HTMLConverter,TextConverter,XMLConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage import io def convert(case,fname, pages=None): if not pages: pagenums = set(); else: pagenums = set(pages); manager = PDFResourceManager() codec = 'utf-8' caching = True if case == 'text' : output = io.StringIO() converter = TextConverter(manager, output, codec=codec, laparams=LAParams()) if case == 'HTML' : output = io.BytesIO() converter = HTMLConverter(manager, output, codec=codec, laparams=LAParams()) interpreter = PDFPageInterpreter(manager, converter) infile = open(fname, 'rb') for page in PDFPage.get_pages(infile, pagenums,caching=caching, check_extractable=True): interpreter.process_page(page) convertedPDF = output.getvalue() infile.close(); converter.close(); output.close() return convertedPDF #//////////// main /////////////////////// filePDF = 'myDir//myPDF.pdf' # input fileHTML = 'myDir//myHTML.html' # output fileTXT = 'myDir//myTXT.txt' # output case = "HTML" if case == 'HTML' : convertedPDF = convert('HTML', filePDF, pages=[0,1]) fileConverted = open(fileHTML, "wb") if case == 'text' : convertedPDF = convert('text', filePDF, pages=[0,1]) fileConverted = open(fileTXT, "w") fileConverted.write(convertedPDF) fileConverted.close() #print(convertedPDF)

Muhammad Haseeb · Answer

私の場合、Python 3.7私はそれを使用してみましたが、それは私にとって魅力のように機能しました！

ここに私が使用したコードがあります：

def convert_pdf_to_txt(path_to_file): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path_to_file, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text

animal · Answer

pdfminerはpythonバージョン3.5をサポートしていません。 Python 2.6以降でのみ機能します。pythonバージョン2.6を使用して同じ問題に直面しました。これは問題を解決します。