xmlをlxmlで解析します-要素値を抽出します

Question

次のような構造のXMLファイルがあるとします。

<?xml version="1.0" ?> <searchRetrieveResponse xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/zing/srw/ http://www.loc.gov/standards/sru/sru1-1archive/xml-files/srw-types.xsd" xmlns="http://www.loc.gov/zing/srw/"> <records xmlns:ns1="http://www.loc.gov/zing/srw/"> <record> <recordData> <record xmlns=""> <datafield tag="000"> <subfield code="a">123</subfield> <subfield code="b">456</subfield> </datafield> <datafield tag="001"> <subfield code="a">789</subfield> <subfield code="b">987</subfield> </datafield> </record> </recordData> </record> <record> <recordData> <record xmlns=""> <datafield tag="000"> <subfield code="a">123</subfield> <subfield code="b">456</subfield> </datafield> <datafield tag="001"> <subfield code="a">789</subfield> <subfield code="b">987</subfield> </datafield> </record> </recordData> </record> </records> </searchRetrieveResponse>

解析する必要があります：

「サブフィールド」の内容（上記の例では123など）と
属性値（例：000または001）

LxmlとXPathを使用してそれを行う方法を知りたいです。以下に私の最初のコードを貼り付けました。値を解析する方法を誰かに説明してもらいます。

import urllib, urllib2 from lxml import etree url = "https://dl.dropbox.com/u/540963/short_test.xml" fp = urllib2.urlopen(url) doc = etree.parse(fp) fp.close() ns = {'xsi':'http://www.loc.gov/zing/srw/'} for record in doc.xpath('//xsi:record', namespaces=ns): print record.xpath("xsi:recordData/record/datafield[@tag='000']", namespaces=ns)

Zachary Young · Accepted Answer

私はあなたのXPathでより直接的になります：あなたが望む要素、この場合はdatafieldにまっすぐ進んでください。

>>> for df in doc.xpath('//datafield'): # Iterate over attributes of datafield for attrib_name in df.attrib: print '@' + attrib_name + '=' + df.attrib[attrib_name] # subfield is a child of datafield, and iterate subfields = df.getchildren() for subfield in subfields: print 'subfield=' + subfield.text

また、lxmlを使用すると、名前空間を無視できるように見えます。これは、例で1つの名前空間しか使用されていないためでしょうか。

Gilles Quenot · Answer

次の作業コードを試してください。

import urllib2 from lxml import etree url = "https://dl.dropbox.com/u/540963/short_test.xml" fp = urllib2.urlopen(url) doc = etree.parse(fp) fp.close() for record in doc.xpath('//datafield'): print record.xpath("./@tag")[0] for x in record.xpath("./subfield/text()"): print "	", x

pram · Answer

私はただ行くだろう

for df in doc.xpath('//datafield'): print df.attrib for sf in df.getchildren(): print sf.text

また、urllibは必要ありません。HTTPを使用してXMLを直接解析できます。

url = "http://dl.dropbox.com/u/540963/short_test.xml" #doesn't work with https though doc = etree.parse(url)