多数のリンクを含むGoogleドキュメントに本文があります。クライアントのCMSにテキストとすべてのリンクを取得する必要があります。
残念ながら、Google DocsはもはやユーザーがHTMLをエクスポートすることを許可していないようです。 「ダウンロード」>「Webページ(.html、zip)」を試し、そのファイルをText Wranglerにアップロードしてクリーンアップしましたが、リンクはすべてスクランブルされています。たとえば、Twitter.com/sreeは次のようになります。
<a href="https://www.google.com/url?q=https://Twitter.com/sree&sa=D&ust=1465095908840000&usg=AFQjCNHpFpNdY6Hsr5xrZZlF5vCGTGIt6w">Sree Sreenivasan</a>
すべてのリンクに手動でアクセスして再実行するのではなく、Googleドキュメントから必要なhtmlコードを取得する方法はありますか?
Text Wranglerでは、次のような正規表現を使用できます。
<a href="https://www.google.com/url\?q=(.*)\&sa(.*)">(.*)</a>
で置き換えます:
<a href="$1">$3</a>
GoogleドキュメントのリンクをHTMLに変換する場合は、Gd2md-htmlアドオンを試してみてください(完全開示:これを開発しました): https://github.com/evbacher/Gd2md-html/wiki
リンクを含むGoogleドキュメントからテキストのセクションを選択し、それをHTMLに変換できます。たとえば、Googleドキュメントのこのセクション:
この比較的きれいなHTMLに変換します。
<h2>Markdown syntax, standards information</h2>
<ul>
<li>Basic Markdown syntax from John Gruber, the inventor of Markdown:
<a href="https://daringfireball.net/projects/markdown/syntax">https://daringfireball.net/projects/markdown/syntax</a>
<li>CommonMark standard: <a href="http://commonmark.org/">http://commonmark.org/</a>