'rvest'を使用してリンクを抽出する

Question

Yelpからデータをスクラップしようとしています。 1つのステップは、各レストランからリンクを抽出することです。たとえば、ニューヨークのレストランを検索していくつかの結果を取得します。次に、ページ1でYelpが推奨する10のレストランすべてのリンクを抽出したいと思います。

library(rvest) page=read_html("http://www.Yelp.com/search?find_loc=New+York,+NY,+USA") page %>% html_nodes(".biz-name span") %>% html_attr('href')

ただし、コードは常に「NA」を返します。誰かが私を助けてくれますか？ありがとう！

Bharath · Accepted Answer

library(rvest) page <- read_html("http://www.Yelp.com/search?find_loc=New+York,+NY,+USA") page %>% html_nodes(".biz-name") %>% html_attr('href')

これがあなたの問題を単純化することを願っています

Oliver · Answer

私はまた、私にとってかなりうるさかった上からの結果をきれいにすることができました

links <- page %>% html_nodes("a") %>% html_attr("href")

単純な正規表現文字列マッチング

links <- links[which(regexpr('common-url-element', links) >= 1)]。