web-dev-qa-db-ja.com

.docxファイルを読み取る方法はありますか?python-docxを使用して自動番号付けを含めます

問題の説明:自動番号付けを含む.docxファイルからセクションを抽出します。

Python-docxで.docxファイルからテキストを抽出しようとしましたが、自動番号付けが除外されています。

from docx import Document

document = Document("wadali.docx")


def iter_items(paragraphs):
    for paragraph in document.paragraphs:
        if paragraph.style.name.startswith('Agt'):
            yield paragraph
        if paragraph.style.name.startswith('TOC'):
            yield paragraph
        if paragraph.style.name.startswith('Heading'):
            yield paragraph
        if paragraph.style.name.startswith('Title'):
            yield paragraph
        if paragraph.style.name.startswith('Heading'):
            yield paragraph
        if paragraph.style.name.startswith('Table Normal'):
            yield paragraph
        if paragraph.style.name.startswith('List'):
            yield paragraph


for item in iter_items(document.paragraphs):
    print item.text
16
wadali

現在 python-docx v0.8は番号付けを完全にはサポートしていないようです。あなたはいくつかのハッキングを行う必要があります。

まず、デモでは、ドキュメントの段落を反復処理するために、独自のイテレータを作成する必要があります。これは機能的なものです:

import docx.document
import docx.oxml.table
import docx.oxml.text.paragraph
import docx.table
import docx.text.paragraph


def iter_paragraphs(parent, recursive=True):
    """
    Yield each paragraph and table child within *parent*, in document order.
    Each returned value is an instance of Paragraph. *parent*
    would most commonly be a reference to a main Document object, but
    also works for a _Cell object, which itself can contain paragraphs and tables.
    """
    if isinstance(parent, docx.document.Document):
        parent_Elm = parent.element.body
    Elif isinstance(parent, docx.table._Cell):
        parent_Elm = parent._tc
    else:
        raise TypeError(repr(type(parent)))

    for child in parent_Elm.iterchildren():
        if isinstance(child, docx.oxml.text.paragraph.CT_P):
            yield docx.text.paragraph.Paragraph(child, parent)
        Elif isinstance(child, docx.oxml.table.CT_Tbl):
            if recursive:
                table = docx.table.Table(child, parent)
                for row in table.rows:
                    for cell in row.cells:
                        for child_paragraph in iter_paragraphs(cell):
                            yield child_paragraph

これを使用して、テーブルセル内の段落を含むすべてのドキュメントの段落を検索できます。

例えば:

import docx

document = docx.Document("sample.docx")
for paragraph in iter_paragraphs(document):
    print(paragraph.text)

番号付けプロパティにアクセスするには、「保護された」メンバーを検索する必要がありますparagraph._p.pPr.numPr、 これは docx.oxml.numbering.CT_NumPrオブジェクト:

for paragraph in iter_paragraphs(document):
    num_pr = paragraph._p.pPr.numPr
    if num_pr is not None:
        print(num_pr)  # type: docx.oxml.numbering.CT_NumPr

このオブジェクトはnumbering.xmlファイル(docx内)(存在する場合)。

アクセスするには、docxファイルをパッケージのように読み取る必要があります。例えば:

import docx.package
import docx.parts.document
import docx.parts.numbering

package = docx.package.Package.open("sample.docx")

main_document_part = package.main_document_part
assert isinstance(main_document_part, docx.parts.document.DocumentPart)

numbering_part = main_document_part.numbering_part
assert isinstance(numbering_part, docx.parts.numbering.NumberingPart)

ct_numbering = numbering_part._element
print(ct_numbering)  # CT_Numbering
for num in ct_numbering.num_lst:
    print(num)  # CT_Num
    print(num.abstractNumId)  # CT_DecimalNumber

Morの情報は Office Open XMl のドキュメントにあります。

5
Laurent LAPORTE