異なる行に同じデータを持つ2つのXMLファイルを比較する方法

Question

2つのファイルのデータは同じですが、行が異なります。

ファイル1：

<Identities> <Identity> <Id>048206031415072010Comcast.USR8JR</Id> <UID>ccp_test_79</UID> <DisplayName>JOSH CCP</DisplayName> <FirstName>JOSH</FirstName> <LastName>CCP</LastName> <Role>P</Role> <LoginStatus>C</LoginStatus> </Identity> <Identity> <Id>089612381523032011Comcast.USR1JR</Id> <UID>94701_account1</UID> <DisplayName>account1</DisplayName> <FirstName>account1</FirstName> <LastName>94701</LastName> <Role>S</Role> <LoginStatus>C</LoginStatus> </Identity> </Identities>

ファイル2：

<Identities> <Identity> <Id>089612381523032011Comcast.USR1JR</Id> <UID>94701_account1</UID> <DisplayName>account1</DisplayName> <FirstName>account1</FirstName> <LastName>94701</LastName> <Role>S</Role> <LoginStatus>C</LoginStatus> </Identity> <Identity> <Id>048206031415072010Comcast.USR8JR</Id> <UID>ccp_test_79</UID> <DisplayName>JOSH CCP</DisplayName> <FirstName>JOSH</FirstName> <LastName>CCP</LastName> <Role>P</Role> <LoginStatus>C</LoginStatus> </Identity> </Identities>

diff file1 file2コマンドを使用すると、以下の応答が得られます。

1,10d0 < <Identities> < <Identity> < <Id>048206031415072010Comcast.USR8JR</Id> < <UID>ccp_test_79</UID> < <DisplayName>JOSH CCP</DisplayName> < <FirstName>JOSH</FirstName> < <LastName>CCP</LastName> < <Role>P</Role> < <LoginStatus>C</LoginStatus> < </Identity> 20a11,20 > <Identities> > <Identity> > <Id>048206031415072010Comcast.USR8JR</Id> > <UID>ccp_test_79</UID> > <DisplayName>JOSH CCP</DisplayName> > <FirstName>JOSH</FirstName> > <LastName>CCP</LastName> > <Role>P</Role> > <LoginStatus>C</LoginStatus> > </Identity>

しかし、これらのファイルは異なる行に同じデータを持っているので、違いはありません。

user27282 · Answer

小さなPythonスクリプトの助けを借りて、あなたが望むものを達成することができます（Pythonがインストールされている必要があります lxml ツールキット）。

tagsort.py：

#!/usr/bin/python import sys from lxml import etree filename, tag = sys.argv[1:] doc = etree.parse(filename, etree.XMLParser(remove_blank_text=True)) root = doc.getroot() root[:] = sorted(root, key=lambda el: el.findtext(tag)) print etree.tostring(doc, pretty_print=True)

このスクリプトは、XMLドキュメントルートの下の第1レベルの要素を第2レベルの要素のコンテンツで並べ替え、結果をstdoutに送信します。それは次のように呼ばれます：

$ python tagsort.py filename tag

それが得られたら、プロセス置換を使用して、その出力に基づいて差分を取得できます（サンプルファイルで1つの要素を追加し、別の要素を変更して空でない結果を表示します）。

$ diff <(python tagsort.py file1 Id) <(python tagsort.py file2 Id) 4a5 > <AddedTag>Something</AddedTag> 17c18 < <Role>X</Role> --- > <Role>S</Role>

VenomFangs · Answer

私は同様の問題があり、最終的に次のことを発見しました： https://superuser.com/questions/79920/how-can-i-diff-two-xml-files

その投稿では、正規のXMLソートを実行してから、diffを実行することを推奨しています。 Linux、Macを使用している場合、またはcygwinのようなウィンドウがインストールされている場合は、以下が機能するはずです。

$ xmllint --c14n File1.xml > 1.xml $ xmllint --c14n File2.xml > 2.xml $ diff 1.xml 2.xml

Sobrique · Answer

シェルのタグが付いていますが、正直なところ、パーサーでスクリプト言語を使用することを好みます。この場合、PerlとXML::Twig。

それはこのようなものになります：

#!/usr/bin/env Perl use strict; use warnings; use XML::Twig; sub compare_by_identity { my ( $first, $second ) = @_; foreach my $identity ( $first->get_xpath('//Identity') ) { my $id = $identity->first_child_text('Id'); print $id, "
"; my $compare_to = $second->get_xpath( "//Identity/Id[string()=\"$id\"]/..", 0 ); if ($compare_to) { print "Matching element found for ID $id
"; foreach my $element ( $identity->children ) { my $tag = $element->tag; my $text = $element->text; if ( not $element->text eq $compare_to->first_child_text($tag) ) { print "$id, $tag has value $text which doesn't match: ", $compare_to->first_child_text($tag), "
"; } } } else { print "No matching element for Id $id
"; } } } my $first_file = XML::Twig->new->parsefile('test1.xml'); my $second_file = XML::Twig->new->parsefile('test2.xml'); compare_by_identity( $first_file, $second_file ); compare_by_identity( $second_file, $first_file );

一度に1つの 'Identity'要素を明示的に比較し、一方のすべてのフィールドが同じ値で他方に存在することを確認しています。

2番目のファイルmightに余分なエントリがあるため、これを逆にします。