DOMDocumentをループする

Question

私はこの質問からの提案に従っています PHP用の成熟したHTMLパーサー、 DOMDocument で不正な形式の可能性があるhtmlの解析について。

解析されたドキュメントをループする簡単な方法はありますか？だから私はこのようにhtmlをループしたいと思います。

$html='<ul> <li>value1</li> <li>value1</li> <li>value3 <p>subvalue</p> </li> </ul> <p>hello world</p>'; $doc = new DOMDocument(); $doc->loadHTML($html); ??? foreach (??? as $node) { print $node->nodeName.':'.$node->nodeValue; }

そして、このような結果が得られます。

 ul: li:value1 li:value2 li:value3 p:subvalue p:hello world

$doc->childNodesを単独で使用しても、実際には私が望むことはできません。それは木の下の枝に下がっていないように見えるので。 halfdan で提案されたコードを使用したところ、次のような結果が得られました。

html: html:value1 value1 value3 subvalue hello world

halfdan · Accepted Answer

これを試して：

$doc = new DOMDocument(); $doc->loadHTML($html); showDOMNode($doc); function showDOMNode(DOMNode $domNode) { foreach ($domNode->childNodes as $node) { print $node->nodeName.':'.$node->nodeValue; if($node->hasChildNodes()) { showDOMNode($node); } } }

JustAC0der · Answer

PHP Simple HTML DOM Parser と次のコードを使用する必要があります。

<?php require_once 'simplehtmldom/simple_html_dom.php'; function iterateHtmlElements($html) { $dom = str_get_html($html); $dom->set_callback('handleElement'); $dom->__toString(); echo "
"; } function handleElement(simple_html_dom_node $elem) { if($elem->tag == 'text') { echo $elem->innertext(); } else { echo "
" . $elem->tag . ": "; } } $html='<ul> <li>value1</li> <li>value1</li> <li>value3 <p>subvalue</p> </li> </ul> <p>hello world</p>'; iterateHtmlElements($html);

期待どおりに動作します。あなたが提供した入力でそれをチェックし、次の結果を得ました：

> php test2.php ul: li: value1 li: value1 li: value3 p: subvalue p: hello world

Drunken Peacock · Answer

Cデータを持つ要素で問題が発生していました。子がない要素でも、子が戻ってきました。

なぜだったのかわかりません。

私が見つけた回避策は変更することでした

if($node->hasChildNodes()) { showDOMNode($node); }

に

if($node->childNodes->length != 1) { showDOMNode($node); }

そして、コードは完全に機能するようになりました。

Alexis Wilke · Answer

1つの方法は、次のようにツリーを歩くことです。

_function next_node($node) { if($node->firstChild != null) { return $node->firstChild; } if($node->nextSibling != null) { return $node->nextSibling; } for($node = $node->parentNode; $node != null; $node = $node->parentNode) { if($node->nextSibling != null) { return $node->nextSibling; } } return null; } for($node = $doc; $node != null; $node = next_node($node)) { // handle node (read-only mode, if you need read-write // you have to save all the nodes in an array and then // use that array // ... } _

これはほとんどのドキュメントで機能しますが、parentNodeが何らかの理由で正しく設定されておらず、next_node()関数が間違った情報を返す場合があります。