特定のWebサイトのRSSフィードを見つける方法それを見つける特定の方法があるかどうか?
ホームページ(またはブログ)のソースを見ると見つけられるかもしれません。次のような行を探します。
<link rel="alternate" type="application/rss+xml" title="RSS Feed" href="http://example.org/rss" />
Href値は、RSSが置かれている場所になります。
WebサイトのRSSフィードを取得する方法は複数あります。
できることは、Webサイトのページソースを取得し、このリンクタグtype="application/rss+xml"
そのウェブサイトのRSSフィードがあれば、それが含まれます。
以下にpythonのシンプルなプログラムを示します。これは、もしあれば、あらゆるウェブサイトのRSSフィードを印刷します。
import requests
from bs4 import BeautifulSoup
def get_rss_feed(website_url):
if website_url is None:
print("URL should not be null")
else:
source_code = requests.get(website_url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text)
for link in soup.find_all("link", {"type" : "application/rss+xml"}):
href = link.get('href')
print("RSS feed for " + website_url + "is -->" + str(href))
get_rss_feed("http://www.extremetech.com/")
このファイルを.py拡張子で保存して実行します。そのWebサイトのRSSフィードURLが表示されます。
Googleは、WebサイトのRSSフィードを見つけるためのAPIも提供しています。ここで見つけてください: Google Feed API
Firefoxの[ツール]メニューに「ページ情報」コマンドが追加されました。そのツールのタブの1つに、検出されたフィード情報が表示されます。
Webサイト上のすべてのURLをループしてから、「rss」を含むURLを見つける必要があります。
hrefタグ内のurlがfeed.xmlのように見える場合、上記の方法は場合によっては機能しない可能性があります。そのため、その場合は、 href[〜#〜] and [〜#〜]rssを含むすべてのタグをループします。次に、href属性からURLを解析するだけです。
ブラウザでこれを行いたい場合は、Ctrl + Uキーを押してソースを表示し、Ctrl + Fキーを押して検索ウィンドウを開き、rssと入力します。 RSSフィードのURLはすぐに表示されます。