web-dev-qa-db-ja.com

Yahooグループの過去のメッセージのアーカイブ全体をダウンロードする

私は今は亡きヤフーグループのオーナーです。どうやら、それは発表されました

Yahooグループは、2019年12月14日、すべてのコンテンツを削除します

メッセージのアーカイブをそのグループに保存したいと思います。後世のために、あるいは多分虚栄のために、気にしないでください。

これで、グループページで、メッセージアーカイブにアクセスできます。月ごと、メッセージタイトルごとにアクセスできます。しかし、私が欲しいのは、すべてのメッセージを一度に取得することです。ジャンクファイル(広告、ロード、およびYahooボイラープレートHTMLのロード)がない限り、正確なフォーマット(たとえば、個別のファイル、月に1つのファイル、1つのファイル)についてはあまり気にしません。

すべてのメッセージページを自分でクロールする以外に、それらのメッセージをすべてダウンロードする方法はありますか?

5
einpoklum

Yahoo GroupsにはGroups Dataをダウンロードするオプションがあります。リクエストを送信しましたが、まだ返答がないので、それが問題の解決策であるかどうかを確認できません。 https://groups.yahoo.com/neo/getmydata

その間、私はこのスクリプトが好きです: https://github.com/IgnoredAmbience/yahoo-group-archiver (コメントで@tripleeeに感謝します)。

このスクリプトは、すべてのファイル、写真などをダウンロードします。

2つのCookie値が必要です。下記のChrome=)でそれらを見つける方法を説明します。

この新しいスクリプトを使用するには、次のことを行う必要がありました。

  1. ローカルでレポを複製する
  2. cdをリポジトリに
  3. 2つの依存関係をインストールします:pip install -r requirements.txtvirtualenvを使用することをお勧めします)
  4. Cookieの値を見つける(以下で説明)
  5. Cookie値とグループ名を使用して、CLI入力./yahoo.py -ct "<T_cookie>" -cy "<Y_cookie>" "<groupid>"を作成します。

<groupid>は、URL [https://groups.yahoo.com/neo/groups/GROUPID]にあります。

私の最終的な入力は次のようになりました:

./yahoo.py -ct "z=R.mrdBRSOwdBEZbt..VFnXFMzUxMwY2Tzc2MzM3MzZPM040Mz&a=QAE&sk=DAA1.RYcKZA1nr&ks=EAAdKqReOqwn_mFtpt577DhvA--~G&kt=EAADFxdOWYNIRQFzbAFOREkyTkFFeE9EQXhORFF3TkRFNE5Ea3pORGMwTnctLQFE3MTI5MTMmcHM9akYxdEN4b1U2WG9NazR0dUlHQnNBUS0t" -cy "v=1&n=0upf9jdnj00000000&r=intl=us" "My_Awesome_Group"

クッキーの値を見つけることは、最初は明らかではありませんでした。 Chromeを使用すると、次のようにして値を取得できます。

  1. 開くChrome設定
  2. 一番下までスクロールして[詳細]を展開します
  3. 「サイト設定」を開く
  4. 「クッキーとサイトデータ」
  5. 「すべてのCookieとサイトデータを表示する」
  6. 右上の「Yahoo」を検索
  7. 「yahoo.com」オプションを展開します。

    yahoo.com cookies

  8. TとYに1つずつ移動し、それらの「コンテンツ」値をコピーして、上記のCLI入力で使用します。

ご参考までに、私がフォローしているYahooグループの1つは、Groups.ioに料金を支払ってYahooグループをサイトに転送することを検討しています。彼らは220ドルで引用された。
https://groups.io/static/transfer

3
Reed Dunkle