https://ru.wikipedia.org/wiki/Атомная_энергетика_по_странам から原子力出力の表をインポートしたい。
何らかの理由で、2番目の列の番号が重複しています。たとえば、
<td><span style="display: none; speak: none;">000935</span>
935</td>
<td>
の最初の子のみを取得するためにIMPORTHTML()の動作に影響を与える方法はありますか?
同様に、2番目の表の最後の列で、Googleシートはこれを抽出します。
British Nuclear Fuels (англ.)русск.
テキスト(англ.)
とрусск.
を削除したい
必要なテキストは、再び<td>
の最初の子にあります。
<td><a href="//en.wikipedia.org/wiki/British_Nuclear_Fuels" class="extiw" title="en:British Nuclear Fuels">British Nuclear Fuels</a>
<span style="font-size:95%; position: relative; top: .4em"> <span class="ref-info" title="на английском языке" style="font-size:85%; cursor:help; color:#888;">(англ.)</span>
</span><span class="link-ru" style="font-size:80%; margin-left:-1.7em; position: relative; top: -.4em;"><a href="/w/index.php?title=British_Nuclear_Fuels&action=edit&redlink=1" class="new" title="British Nuclear Fuels (страница отсутствует)">русск.</a></span></td>
また、[7]
のように、列見出しから括弧で囲まれた参照をクリーンアップしたい
| {{~|001627}}1 627
をソートする目的で〜wikiテンプレートを使用しているためですsource cleaned halved check 101240102 709 101240102709 102709 FALSE
などの数式でクリーンアップできました次の式を使用します。
=REGEXREPLACE(TEXT(source,"0"),"^0+| ","")
=replace(cleaned,1,len(cleaned)/2,"")
=cleaned=concat(halved,halved)
いくつかの値はチェックアウトされませんが、2つの半分の差は小さいため、大丈夫です