解析は開発中によく出くわしたものですが、後輩として、必要なときにいつかこつこつになると思います。現在のプロジェクトで、特定の機能にHTMLパーサーを見つけて使用するように言われましたが、Webでいくつか見つけましたが、HTMLパーサーは実際に何をしますか?そして、オブジェクトを解析するとはどういう意味ですか?
解析とは、一連のデータを取得し、そこから意味のある情報を抽出することです。 HTML解析では、いくつかのhtmlを読み取り、構造化されたタグとテキストのセットを返したい
ここから開始できます: http://en.wikipedia.org/wiki/Parsing 。短い抜粋:
構文解析または構文解析は、正式な文法の規則に準拠して、自然言語またはコンピューター言語のいずれかの記号列を分析するプロセスです。解析という用語は、(スピーチの)部分を意味するラテン語のパー(orationis)に由来します。
Parse(computers)、Dictionary.com:
文字のグループを基礎となる文法の構文単位に関連付けるために分析する(文字列)。
パーサーは、別の言語に簡単に翻訳できるようにデータを小さな要素に分割するコンパイラー/インタープリターコンポーネントです。パーサーは、一連のトークンまたはプログラム命令の形式で入力を受け取り、通常、解析ツリーまたは抽象構文ツリーの形式でデータ構造を構築します。
自分で些細なパーサー以外のものを書こうとしないでください。この用途に適したツールがあります [〜#〜] antlr [〜#〜] と bison は私が考えることができる2つです。
ツールを使用すると、問題が発生したときに助けを求めることができます。
乾杯、マーティン。
HTML内のトークン[タグ、属性]を識別するプロセスです。