スクリプト：XMLファイルのタグで値を抽出する最も簡単な方法は何ですか？

Question

Pom.xml（Mavenの「プロジェクトオブジェクトモデル」）を読み取り、バージョン情報を抽出したいと思います。次に例を示します。

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.Apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.Apache.org/POM/4.0.0 http://maven.Apache.org/maven-v4_0_0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.mycompany</groupId> <artifactId>project-parent</artifactId> <name>project-parent</name> <version>1.0.74-SNAPSHOT</version> <dependencies> <dependency> <groupId>com.sybase.jconnect</groupId> <artifactId>jconnect</artifactId> <version>6.05-26023</version> </dependency> <dependency> <groupId>joda-time</groupId> <artifactId>joda-time</artifactId> <version>1.5.2</version> </dependency> <dependency> <groupId>com.Sun.jdmk</groupId> <artifactId>jmxtools</artifactId> <version>1.2.1</version> </dependency> <dependency> <groupId>org.easymock</groupId> <artifactId>easymock</artifactId> <version>2.4</version> </dependency> </dependencies> </project>

上からバージョン「1.0.74-SNAPSHOT」を抽出するにはどうすればよいですか？

単純なbashスクリプトsedまたはawkを使用して、そうすることができるようになりたいと思います。それ以外の場合は、単純なpythonが推奨されます。

[〜＃〜]編集[〜＃〜]

拘束

Linuxボックスは企業環境にあるので、すでにインストールされているツールしか使用できません（xml2などのユーティリティを要求することはできませんが、大量の赤テープを通過する必要があります）。いくつかの解決策は非常に優れています（すでにいくつかの新しいトリックを学びます）が、制限された環境のために適用できない場合があります
更新されたxmlリスト

依存関係タグを元のリストに追加しました。これは、いくつかのハックなソリューションがこの場合機能しない可能性があることを示します
ディストリビューション

私が使用しているディストリビューションはRHEL4です

Vi. · Accepted Answer

xml2は、xmlを行指向の形式との間で変換できます。

xml2 < pom.xml | grep /project/version= | sed 's/.*=//'

Vi. · Answer

その他の方法：xmlgrepおよびXPath：

xmlgrep --text_only '/project/version' pom.xml

欠点：遅い

kev · Answer

pythonの使用

$ python -c 'from xml.etree.ElementTree import ElementTree; print ElementTree(file="pom.xml").findtext("{http://maven.Apache.org/POM/4.0.0}version")' 1.0.74-SNAPSHOT

xmlstarletの使用

$ xml sel -N x="http://maven.Apache.org/POM/4.0.0" -t -m 'x:project/x:version' -v . pom.xml 1.0.74-SNAPSHOT

xmllintの使用

$ echo -e 'setns x=http://maven.Apache.org/POM/4.0.0
cat /x:project/x:version/text()' | xmllint --Shell pom.xml | grep -v / 1.0.74-SNAPSHOT

Vi. · Answer

Clojureの方法。特別なjarファイルを持つjvmのみが必要です：

Java -cp clojure.jar clojure.main -e "(use 'clojure.xml) (->> (Java.io.File. \"pom.xml\") (clojure.xml/parse) (:content) (filter #(= (:tag %) :version)) (first) (:content) (first) (println))"

Scalaの方法：

Java -Xbootclasspath/a:scala-library.jar -cp scala-compiler.jar scala.tools.nsc.MainGenericRunner -e 'import scala.xml._; println((XML.load(new Java.io.FileInputStream("pom.xml")) match { case <project>{children @ _*}</project> => for (i <- children if (i match { case <version>{children @ _*}</version> => true; case _ => false; })) yield i })(0) match { case <version>{Text(x)}</version> => x })'

Groovyの方法：

Java -classpath groovy-all.jar groovy.ui.GroovyMain -e 'println (new XmlParser().parse(new File("pom.xml")).value().findAll({ it.name().getLocalPart()=="version" }).first().value().first())'

RedGrittyBrick · Answer

これがPerlの代替案です

$ Perl -MXML::Simple -e'print XMLin("pom.xml")->{version}."
"' 1.0.74-SNAPSHOT

異なる深さに複数の「バージョン」要素がある質問の改訂/拡張された例で動作します。

Vi. · Answer

ハッキー方法：

Perl -e '$_ = join "", <>; m!<project[^>]*>.*
(?: |	)<version[^>]*>\s*([^<]+?)\s*</version>.*</project>!s and print "$1
"' pom.xml

必要な<version>の正しいインデントに依存している

Anthony Kong · Answer

非常に不格好なワンライナーソリューションを作成する

python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n for n in dom.getElementsByTagName('version') if n.parentNode == dom.childNodes[0]][0].toxml()" | sed -e "s/.*>$.*$<.*/\1/g"

最後のsedは非常に醜いですが、mindomだけではノードのテキストを印刷できませんでした。

_Viから更新：

ハックが少ないPythonバージョン：

python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [i.childNodes.item(0).nodeValue for i in dom.firstChild.childNodes if i.nodeName == 'version'].pop()"

私からの更新

別のバージョン：

 python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n.firstChild.data for n in dom.childNodes[0].childNodes if n.firstChild and n.tagName == 'version']"

Samus_ · Answer

「XMLに多数のバージョンタグがある」場合は、「単純なツール」と正規表現を使用することを忘れた方がいいでしょう。

これを試してくださいpython（依存関係なし）：

from xml.dom.minidom import parse dom = parse('pom.xml') project = dom.getElementsByTagName('project')[0] for node in project.childNodes: if node.nodeType == node.ELEMENT_NODE and node.tagName == 'version': print node.firstChild.nodeValue

Vi. · Answer

XSLTの方法：

<?xml version="1.0" encoding="ISO-8859-1"?> <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output method="text"/> <xsl:template match="/"> <xsl:for-each select="*[local-name()='project']"> <xsl:for-each select="*[local-name()='version']"> <xsl:value-of select="text()"/> </xsl:for-each> </xsl:for-each> </xsl:template> </xsl:stylesheet>

xalan -xsl x.xsl -in pom.xml

user5723841 · Answer

awkは、追加のツールを使用しなくても正常に機能します。
cat pod.xml

<project> <modelVersion>4.0.0</modelVersion> <groupId>com.networks.app</groupId> <artifactId>operation-platform</artifactId> <version>1.0.0</version> <packaging>tar.xz</packaging> <description>POM was created by Sonatype Nexus</description> </project>

<packaging>タグの値を取得するシンプルで読みやすい方法：

cat pod.xml | awk -F'[<>]' '/packaging/{print $3}'

chickenkiller · Answer

以下は、sedを使用したワンライナーです。

sed '/<dependencies>/,/<\/dependencies>/d;/<version>/!d;s/ *<\/\?version> *//g' pom.xml

Vijayababu · Answer

Return_text_val=$(xmllint --xpath "//*[local-name()='$TagElmnt']" $FILE )

ここで、これを試してください：

$TagElmnt - TagName $FILE - xml file to parse

Peter Lubczynski · Answer

私はあなたの質問がLinuxであることを知っていますが、バッチファイルに入れることができるようなサードパーティのツールを必要とせずにこれをWindowsで行う必要がある場合、Powershellはpom.xmlファイルから任意のノードを抽出できます：

powershell -Command "& {select-xml //pom:project/pom:properties/pom:mypluginversion -path pom.xml -Namespace @{pom='http://maven.Apache.org/POM/4.0.0'} | foreach {$_.Node.Innerxml}}" > myPluginVersion.txt

SΛLVΘ · Answer

_sed -n "/<name>project-parent/{n;s/.*>$.*$<.*/\1/p;q}" pom.xml _

_-n_オプションは、一致しない行の印刷を回避します。最初の一致（_/.../_）は、必要なテキストを含む行の前の行にあります。 nコマンドは次の行にスキップします。ここで、sは、キャプチャグループ（ $...$ ）と後方参照（_\1_）を通じて関連情報を抽出します。 pは出力され、qは終了します。