web-dev-qa-db-ja.com

PythonのXMLスキーマで検証する

別のファイルにXMLファイルとXMLスキーマがあり、XMLファイルがスキーマに準拠していることを検証したいと思います。 Pythonでこれを行うにはどうすればよいですか?

標準ライブラリを使用したいのですが、必要に応じてサードパーティのパッケージをインストールできます。

92
Eli Courtwright

私はあなたがXSDファイルを使用することを意味すると仮定しています。驚いたことに、pythonこれをサポートするXMLライブラリ。lxmlはサポートします。チェック lxmlでの検証 。スキーマタイプ。

「純粋なpython」ソリューションの場合:パッケージインデックスリスト:

  • pyxsd 、説明では「純粋なpython」ではないxml.etree.cElementTreeを使用しますが(stdlibに含まれています)、ソースコードはxml.etree.ElementTreeにフォールバックすることを示しているため、これは純粋なpythonとしてカウントされます。使用していませんが、ドキュメントによると、スキーマの検証を行います。
  • minixsv :「「純粋な」Pythonで記述された軽量のXMLスキーマ検証ツール」。ただし、説明には「現在、XMLスキーマ標準のサブセットがサポートされています」と記載されているため、これでは十分ではない場合があります。
  • [〜#〜] xsv [〜#〜] 、これはW3Cのオンラインxsdバリデータに使用されると思います(まだ保守されていないと思われる古いpyxmlパッケージを使用しているようです)
25
Steven

人気のあるライブラリ lxml を使用したPython3のシンプルなバリデータの例

インストールlxml

pip install lxml

"libxml2ライブラリに関数xmlCheckVersionが見つかりませんでした。libxml2がインストールされていますか?"のようなエラーが表示された場合は、まずこれを試してください:

# Debian/Ubuntu
apt-get install python-dev python3-dev libxml2-dev libxslt-dev

# Fedora 23+
dnf install python-devel python3-devel libxml2-devel libxslt-devel

最も単純なバリデーター

最も単純なvalidator.pyを作成しましょう

from lxml import etree

def validate(xml_path: str, xsd_path: str) -> bool:

    xmlschema_doc = etree.parse(xsd_path)
    xmlschema = etree.XMLSchema(xmlschema_doc)

    xml_doc = etree.parse(xml_path)
    result = xmlschema.validate(xml_doc)

    return result

書き込み、実行main.py

from validator import validate

if validate("path/to/file.xml", "path/to/scheme.xsd"):
    print('Valid! :)')
else:
    print('Not valid! :(')

ちょっとしたOOP

複数のファイルを検証するために、毎回XMLSchemaオブジェクトを作成する必要はありません。したがって、

validator.py

from lxml import etree

class Validator:

    def __init__(self, xsd_path: str):
        xmlschema_doc = etree.parse(xsd_path)
        self.xmlschema = etree.XMLSchema(xmlschema_doc)

    def validate(self, xml_path: str) -> bool:
        xml_doc = etree.parse(xml_path)
        result = self.xmlschema.validate(xml_doc)

        return result

これで、ディレクトリ内のすべてのファイルを次のように検証できます。

main.py

import os
from validator import Validator

validator = Validator("path/to/scheme.xsd")

# The directory with XML files
XML_DIR = "path/to/directory"

for file_name in os.listdir(XML_DIR):
    print('{}: '.format(file_name), end='')

    file_path = '{}/{}'.format(XML_DIR, file_name)

    if validator.validate(file_path):
        print('Valid! :)')
    else:
        print('Not valid! :(')

その他のオプションについては、こちらをご覧ください。 lxmlによる検証

18
SergO

http://pyxb.sourceforge.net/ のPyXBパッケージは、XMLスキーマドキュメントからPythonの検証バインディングを生成します。ほぼすべてのスキーマ構成を処理し、複数の名前空間をサポートします。

14
pabigot

これを行うには2つの方法があります(実際にはもっとあります)。
1。 lxml を使用
pip install lxml

from lxml import etree, objectify
from lxml.etree import XMLSyntaxError

def xml_validator(some_xml_string, xsd_file='/path/to/my_schema_file.xsd'):
    try:
        schema = etree.XMLSchema(file=xsd_file)
        parser = objectify.makeparser(schema=schema)
        objectify.fromstring(some_xml_string, parser)
        print "YEAH!, my xml file has validated"
    except XMLSyntaxError:
        #handle exception here
        print "Oh NO!, my xml file does not validate"
        pass

xml_file = open('my_xml_file.xml', 'r')
xml_string = xml_file.read()
xml_file.close()

xml_validator(xml_string, '/path/to/my_schema_file.xsd')
  1. コマンドラインから xmllint を使用します。 xmllintは多くのLinuxディストリビューションにインストールされています。

>> xmllint --format --pretty 1 --load-trace --debug --schema /path/to/my_schema_file.xsd /path/to/my_xml_file.xml

8
Komu

lxmlはetree.DTDを提供します

http://lxml.de/api/lxml.tests.test_dtd-pysrc.html のテストから

...
root = etree.XML(_bytes("<b/>")) 
dtd = etree.DTD(BytesIO("<!ELEMENT b EMPTY>")) 
self.assert_(dtd.validate(root)) 
7
altunyurt

xmlschema Python package )を使用すると、XMLファイルまたはツリーをXMLスキーマ(XSD)に対して簡単に検証できます。 PyPi で利用可能な純粋なPython。多くの依存関係はありません。

例-ファイルの検証:

import xmlschema
xmlschema.validate('doc.xml', 'some.xsd')

ファイルがXSDに対して検証されない場合、メソッドは例外を発生させます。その例外には、いくつかの違反の詳細が含まれます。

多くのファイルを検証する場合は、XSDを一度ロードするだけです。

xsd = xmlschema.XMLSchema('some.xsd')
for filename in filenames:
    xsd.validate(filename)

例外が必要ない場合は、次のように検証できます。

if xsd.is_valid('doc.xml'):
    print('do something useful')

または、xmlschemaは、ファイルオブジェクトおよびメモリXMLツリー(xml.etree.ElementTreeまたはlxmlで作成された)で直接機能します。例:

import xml.etree.ElementTree as ET
t = ET.parse('doc.xml')
result = xsd.is_valid(t)
print('Document is valid? {}'.format(result))
5
maxschlepzig