web-dev-qa-db-ja.com

SRC情報を取得するために、イメージタグのHTML文字列をどのように解析しますか?

現在、私は.Net WebBrowser.Document.Images()を使用してこれを行っています。ドキュメントをロードするには、Webrowserが必要です。面倒でリソースを消費します。

この質問 によると、これは正規表現よりもXPathの方が優れています。

誰でもこれをC#で行う方法を知っていますか?

25
Roberto Bonini

入力文字列が有効なXHTMLである場合は、xmlとして処理し、それをxmldocumentにロードして、XPathマジックを実行します:)しかし、常にそうであるとは限りません。

それ以外の場合は、この関数を試すことができます。これにより、HtmlSourceからすべての画像リンクが返されます。

public List<Uri> FetchLinksFromSource(string htmlSource)
{
    List<Uri> links = new List<Uri>();
    string regexImgSrc = @"<img[^>]*?src\s*=\s*[""']?([^'"" >]+?)[ '""][^>]*?>";
    MatchCollection matchesImgSrc = Regex.Matches(htmlSource, regexImgSrc, RegexOptions.IgnoreCase | RegexOptions.Singleline);
    foreach (Match m in matchesImgSrc)
    {
        string href = m.Groups[1].Value;
        links.Add(new Uri(href));
    }
    return links;
}

そして、あなたはこのようにそれを使うことができます:

HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.example.com");
request.Credentials = System.Net.CredentialCache.DefaultCredentials;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
if (response.StatusCode == HttpStatusCode.OK)
{
    using(StreamReader sr = new StreamReader(response.GetResponseStream()))
    {
        List<Uri> links = FetchLinksFromSource(sr.ReadToEnd());
    }
}
53
mathieu

HTML解析の大きな問題は、「整形式」の部分です。がらくたのHTMLを見たことがあります。どれだけ実際に整形式ですか?私は同様のことをする必要がありました-文書内のすべてのリンクを解析し(そして私の場合)、それらを書き換えられたリンクで更新します。 CodePlexで Html Agility Pack が見つかりました。揺れ動く(そして不正なHTMLを処理する)。

ドキュメント内のリンクを反復するためのスニペットは次のとおりです。

HtmlDocument doc = new HtmlDocument();
doc.Load(@"C:\Sample.HTM");
HtmlNodeCollection linkNodes = doc.DocumentNode.SelectNodes("//a/@href");

Content match = null;

// Run only if there are links in the document.
if (linkNodes != null)
{
    foreach (HtmlNode linkNode in linkNodes)
    {
        HtmlAttribute attrib = linkNode.Attributes["href"];
        // Do whatever else you need here
    }
}

元のブログ投稿

11
Paul Mrozowski

画像が必要な場合は、正規表現を使用します。このような何かがうまくいくはずです:

Regex rg = new Regex(@"<img.*?src=""(.*?)""", RegexOptions.IgnoreCase);
4
rslite