web-dev-qa-db-ja.com

'rvest'を使用してリンクを抽出する

Yelpからデータをスクラップしようとしています。 1つのステップは、各レストランからリンクを抽出することです。たとえば、ニューヨークのレストランを検索していくつかの結果を取得します。次に、ページ1でYelpが推奨する10のレストランすべてのリンクを抽出したいと思います。

library(rvest)     
page=read_html("http://www.Yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name span") %>% html_attr('href')

ただし、コードは常に「NA」を返します。誰かが私を助けてくれますか?ありがとう!

12
Allen
library(rvest)     
page <- read_html("http://www.Yelp.com/search?find_loc=New+York,+NY,+USA")
page %>% html_nodes(".biz-name") %>% html_attr('href')

これがあなたの問題を単純化することを願っています

26
Bharath

私はまた、私にとってかなりうるさかった上からの結果をきれいにすることができました

links <- page %>% html_nodes("a") %>% html_attr("href")

単純な正規表現文字列マッチング

links <- links[which(regexpr('common-url-element', links) >= 1)]

5
Oliver