UnixコマンドラインからXMLタグを削除するにはどうすればよいですか？

Question

XMLファイルをgrepしているので、次のような出力が得られます。

<tag>data</tag> <tag>more data</tag> ...

これはフラットファイルであり、XMLツリーではないことに注意してください。 XMLタグを削除し、その間にデータを表示したい。私はこれをすべてコマンドラインから実行していて、awkに2回パイプするよりも良い方法があるかどうか疑問に思っていました...

cat file.xml | awk -F'>' '{print $2}' | awk -F'<' '{print $1}'

理想的には、これを1つのコマンドで実行したいと思います

Johnsyweb · Accepted Answer

ファイルがそのように見える場合は、sedが役立ちます。

sed -e 's/<[^>]*>//g' file.xml

dogbane · Answer

Awkの使用：

awk '{gsub(/<[^>]*>/,"")};1' file.xml

kenorb · Answer

使用する html2textコマンドラインツール。htmlをプレーンテキストに変換します。

または、 ex -way：を試すこともできます。

ex -s +'%s/<[^>].\{-}>//ge' +%p +q! file.txt

または：

cat file.txt | ex -s +'%s/<[^>].\{-}>//ge' +%p +q! /dev/stdin

Dennis Williamson · Answer

これを試してみてください：

grep -Po '<.*?>\K.*?(?=<.*?>)' inputfile

説明：

Perl互換の正規表現の使用（-P）そして指定された一致のみを出力します（-o）：

SielaQ · Answer

これは「perlgolfコンテスト」ではないことは知っていますが、以前はこのトリックを使用していました。

<または>にレコードセパレータを設定し、奇数行のみを印刷します。

awk -vRS='<|>' NR%2 file.xml