質問
たとえば、文字列の列のN
sの数を数えたい場合、Googleスプレッドシートでセルごとにこれを行う方法(つまり、一度に1つのセルを指してドラッグできる式ダウン)?
背景
[〜#〜] tomtom [〜#〜] **と呼ばれるプログラムのしきい値-min-overlap <integer>
を決定する必要があります。 ***、N
は、文字A、C、G、Tの線形結合の正規表現です。DNAのN以外の長さの分布のアイデアを得ることができたらいいですねTOMTOMの適切な-min-overlap <integer>
値の通知に役立つモチーフ。
次に、実際の例を示します。
** TOMTOMは、DNAモチーフを既知のモチーフのデータベースと比較するためのツールです。詳細については、 here を参照してください。
*** PWMは、Position Weight Matrixの略です。
タンパク質のDNA結合の好みを表すために、位置重み行列(PWM)またはPWMのようなモデルが広く使用されています(Stormo、2000)。これらのモデルでは、マトリックスを使用してTF結合部位(TFBS)を表し、各要素は対応する位置のヌクレオチドからの全体的な結合親和性への寄与を表します。従来のPWMモデルに固有の前提は、位置の独立性です。つまり、TFBS内の異なるヌクレオチド位置の全体的な結合親和性への寄与は相加的であると想定されます。この近似は広く有効ですが、それでもいくつかのタンパク質には当てはまりません(Man&Stormo、2001; Bulyk et al、2002)。定量モデリングを改善するために、TFBS内の位置依存性を考慮するために、PWMモデルが拡張され、k-mer機能などの追加パラメーターが含まれています(Zhao et al、2012; Mathelier&Wasserman、2013; Mordelet et al、2013; Weirauch et al、2013; Riley et al、2015)。ヌクレオチド位置間の相互依存性には構造的な起源があります。たとえば、隣接する塩基対間の相互作用の積み重ねにより、局所的な3次元DNA構造が形成されます。 TFには、DNA形状読み出しと呼ばれる配列依存性のDNA立体構造が優先されます(Rohs et al、2009、2010)。
OR、より現代的に:
この理論的根拠に基づいて、従来のPWMモデルを強化する代替アプローチは、DNA構造的特徴を含めることです。これらのDNA形状機能を組み込んだTF–DNA結合特異性のモデルは、高次のk-mer機能を組み込んだモデルに匹敵する性能レベルを達成し、必要なパラメーターははるかに少ない(Zhou et al、2015)。以前に、基本的なヘリックスループヘリックス(bHLH)およびホメオドメインTFファミリーのメンバーに対するDNA形状読み出しの重要性を明らかにしました(Dror et al、2014; Yang et al、2014; Zhou et al、2015)。また、Hox TFについては、TFBSのどの領域がDNA形状の読み出しを使用しているかを特定することができ、TF-DNA認識に対する機械的洞察を明らかにするアプローチの力を示しました(Abe et al、2015)。この機能は、大規模で高品質のTF-DNA結合データがないため、たった2つのタンパク質ファミリーで広範に示されました。最近のタンパク質-DNA結合の高スループット測定により、多くのTFファミリーのDNA形状読み出しの役割を分析することが可能になりました。
**** DNAモチーフ: wiki :遺伝学では、配列モチーフは、生物学的に重要であるかまたは推測されるヌクレオチドまたはアミノ酸の配列パターンです。タンパク質の場合、配列モチーフは、構造モチーフ、アミノ酸が隣接していない可能性のある3次元配列によって形成されたモチーフとは区別されます。
一度に1つのセルの代替(式をコピーする):
=len(A2)-len(SUBSTITUTE(A2,"N",""))
これが役立つかどうかはわかりませんが、A2:A6の範囲にこれらの文字列があり、入力するとしましょう
=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))
b2では、範囲全体のNカウントを出力する必要があります。