2つのファイルのデータは同じですが、行が異なります。
ファイル1:
<Identities>
<Identity>
<Id>048206031415072010Comcast.USR8JR</Id>
<UID>ccp_test_79</UID>
<DisplayName>JOSH CCP</DisplayName>
<FirstName>JOSH</FirstName>
<LastName>CCP</LastName>
<Role>P</Role>
<LoginStatus>C</LoginStatus>
</Identity>
<Identity>
<Id>089612381523032011Comcast.USR1JR</Id>
<UID>94701_account1</UID>
<DisplayName>account1</DisplayName>
<FirstName>account1</FirstName>
<LastName>94701</LastName>
<Role>S</Role>
<LoginStatus>C</LoginStatus>
</Identity>
</Identities>
ファイル2:
<Identities>
<Identity>
<Id>089612381523032011Comcast.USR1JR</Id>
<UID>94701_account1</UID>
<DisplayName>account1</DisplayName>
<FirstName>account1</FirstName>
<LastName>94701</LastName>
<Role>S</Role>
<LoginStatus>C</LoginStatus>
</Identity>
<Identity>
<Id>048206031415072010Comcast.USR8JR</Id>
<UID>ccp_test_79</UID>
<DisplayName>JOSH CCP</DisplayName>
<FirstName>JOSH</FirstName>
<LastName>CCP</LastName>
<Role>P</Role>
<LoginStatus>C</LoginStatus>
</Identity>
</Identities>
diff file1 file2
コマンドを使用すると、以下の応答が得られます。
1,10d0
< <Identities>
< <Identity>
< <Id>048206031415072010Comcast.USR8JR</Id>
< <UID>ccp_test_79</UID>
< <DisplayName>JOSH CCP</DisplayName>
< <FirstName>JOSH</FirstName>
< <LastName>CCP</LastName>
< <Role>P</Role>
< <LoginStatus>C</LoginStatus>
< </Identity>
20a11,20
> <Identities>
> <Identity>
> <Id>048206031415072010Comcast.USR8JR</Id>
> <UID>ccp_test_79</UID>
> <DisplayName>JOSH CCP</DisplayName>
> <FirstName>JOSH</FirstName>
> <LastName>CCP</LastName>
> <Role>P</Role>
> <LoginStatus>C</LoginStatus>
> </Identity>
しかし、これらのファイルは異なる行に同じデータを持っているので、違いはありません。
小さなPythonスクリプトの助けを借りて、あなたが望むものを達成することができます(Pythonがインストールされている必要があります lxml
ツールキット)。
tagsort.py
:
#!/usr/bin/python
import sys
from lxml import etree
filename, tag = sys.argv[1:]
doc = etree.parse(filename, etree.XMLParser(remove_blank_text=True))
root = doc.getroot()
root[:] = sorted(root, key=lambda el: el.findtext(tag))
print etree.tostring(doc, pretty_print=True)
このスクリプトは、XMLドキュメントルートの下の第1レベルの要素を第2レベルの要素のコンテンツで並べ替え、結果をstdoutに送信します。それは次のように呼ばれます:
$ python tagsort.py filename tag
それが得られたら、 プロセス置換 を使用して、その出力に基づいて差分を取得できます(サンプルファイルで1つの要素を追加し、別の要素を変更して空でない結果を表示します)。
$ diff <(python tagsort.py file1 Id) <(python tagsort.py file2 Id)
4a5
> <AddedTag>Something</AddedTag>
17c18
< <Role>X</Role>
---
> <Role>S</Role>
私は同様の問題があり、最終的に次のことを発見しました: https://superuser.com/questions/79920/how-can-i-diff-two-xml-files
その投稿では、正規のXMLソートを実行してから、diffを実行することを推奨しています。 Linux、Macを使用している場合、またはcygwinのようなウィンドウがインストールされている場合は、以下が機能するはずです。
$ xmllint --c14n File1.xml > 1.xml
$ xmllint --c14n File2.xml > 2.xml
$ diff 1.xml 2.xml
シェルのタグが付いていますが、正直なところ、パーサーでスクリプト言語を使用することを好みます。この場合、Perl
とXML::Twig
。
それはこのようなものになります:
#!/usr/bin/env Perl
use strict;
use warnings;
use XML::Twig;
sub compare_by_identity {
my ( $first, $second ) = @_;
foreach my $identity ( $first->get_xpath('//Identity') ) {
my $id = $identity->first_child_text('Id');
print $id, "\n";
my $compare_to =
$second->get_xpath( "//Identity/Id[string()=\"$id\"]/..", 0 );
if ($compare_to) {
print "Matching element found for ID $id\n";
foreach my $element ( $identity->children ) {
my $tag = $element->tag;
my $text = $element->text;
if ( not $element->text eq $compare_to->first_child_text($tag) ) {
print "$id, $tag has value $text which doesn't match: ",
$compare_to->first_child_text($tag), "\n";
}
}
}
else {
print "No matching element for Id $id\n";
}
}
}
my $first_file = XML::Twig->new->parsefile('test1.xml');
my $second_file = XML::Twig->new->parsefile('test2.xml');
compare_by_identity( $first_file, $second_file );
compare_by_identity( $second_file, $first_file );
一度に1つの 'Identity'要素を明示的に比較し、一方のすべてのフィールドが同じ値で他方に存在することを確認しています。
2番目のファイルmightに余分なエントリがあるため、これを逆にします。