単一のヒトゲノムを保存するために必要なストレージの量をバイト単位(MB、GB、TBなど)で探しています。私はウィキペディアでDNA、染色体、塩基対、遺伝子に関するいくつかの記事を読み、大まかな推測をしていますが、何かを開示する前に、他の人がこの問題にどのようにアプローチするかを見てみたいと思います。
代替の質問は、人間のDNAにいくつの原子があるかですが、それはこのサイトのトピックから外れています。
これは近似値であることを理解しているため、あらゆる人間のDNAを保存できる最小値を探しています。
そのようなことを信頼する場合、Wikipediaが主張するものは次のとおりです( http://en.wikipedia.org/wiki/Human_genome#Information_content から):
半数体のヒトゲノムの29億塩基対は、最大約725メガバイトのデータに対応します。これは、すべての塩基対が2ビットでコード化できるためです。個々のゲノムの違いは1%未満であるため、約4メガバイトに無損失で圧縮できます。
すべてのDNAを1つのストリームに保存するのではなく、ほとんどの場合、染色体ごとに保存します。
大きな染色体には約300 MB、小さな染色体には約50 MBかかります。
編集:
塩基対ごとに2ビットで保存されない最初の理由は、データを扱う際にハードルが生じるためだと思います。ほとんどの人はそれを変換する方法を知りません。そして、変換のためのプログラムが与えられたとしても、大企業や研究機関の多くの人々は、プログラムをインストールする方法を尋ねる必要がない/知らない...
1 GBのストレージには無料で、3 GBのダウンロードでも100 Mbitspsで4分しかかからず、ほとんどの企業は高速です。
もう1つのポイントは、データはあなたが言うほど単純ではないということです。
例えば Craig_Venter によって発明されたシーケンスの方法は、大きなブレークスルーでしたが、欠点があります。同じ塩基対の長いチェーンを分離することはできなかったため、8 Aまたは9 Aが存在するかどうかが常に100%明確であるとは限りません。あなたが後で世話をしなければならないもの...
もう1つの例は DNAメチル化 です。これは、この情報を2ビット表現で保存できないためです。
基本的に、各塩基対は2ビットを使用します(T、G、C、およびAには00、01、10、11を使用できます)。ヒトゲノムには約29億塩基対があるため、(2 * 29億)ビット〜= 691メガバイトです。
私は専門家ではありませんが、ウィキペディアの Human Genome ページには次のように記載されています:
生MB:
それらの違いがどこから来たのかはわかりませんが、あなたはそれを理解できると確信しています。
はい、最小のRAM人間のDNA全体に必要なサイズは約770 MBです。ただし、2ビット表現は実用的ではありません。一部の数学者は、これらの塩基配列を保存するより効果的な方法を設計し、それらをたとえばGARLI(www.bio.utexas.edu/faculty/antisense/garli/garli.html)などの検索および比較アルゴリズムで使用します。すぐに私のPCで実行されるので、私はあなたに言うことができます...それは実際に保存されたDNAを持っていると言います:1 563 MB。
私たちのDNAを構成する4つのヌクレオチド塩基があり、これらはA、C、G、Tです。したがって、DNAの各塩基は2ビットを占有します。約29億のベースがあるので、約700メガバイトです。奇妙なことは、通常のデータcdを満たすことです!一致?!?
ヒトゲノムには29億塩基対が含まれています。したがって、各ベースペアを1バイトとして表す場合、29億バイトまたは2.9 GBかかります。各ベースペアに必要なのは2ビットのみであるため、おそらくより創造的な方法でベースペアを保存することができます。そのため、1バイトあたり4塩基対を保存すると、合計で1 GB未満になります。
ちょうどそれもやった。生のシーケンスは最大700 MBです。固定ストレージシーケンスまたは固定シーケンスストレージアルゴリズムを使用する場合-変更が1%iであるという事実は、perchromosome-sequenceoffset-statedeltaストレージで約120 MB計算されます。それがストレージです。
ユーザーslayton、rauchen、Paul Amstrong以外のほとんどの回答は、圧縮技術なしの1対1の純粋なストレージについてはまったく間違っています。
ヌクレオチドが3Gbのヒトゲノムは、750MBではなく3Gbバイトに対応しています。 NCBIによると、構築された「半数体」ゲノムのサイズは現在3436687kbまたは3.436687 Gbです。 here を確認してください。
半数体=染色体の単一コピー。二倍体=半数体の2つのバージョン。人間には22個の固有の染色体x 2 = 44があります。男性の23番目の染色体はX、Yで、合計46個になります。女性の23番目のクロム。 X、Xであり、合計で46になります。
男性の場合、HDDのデータストレージでは23 + 1染色体であり、女性の場合は23染色体であり、時々言及される小さな違いを説明しています。 Xクロム。男性からXクロムに等しいです。女性から。
したがって、ゲノム(23 + 1)のメモリへのロードは、fastaファイルから構築されたデータベースを使用して、BLASTを介して部分的に行われます。圧縮されたバージョンであってもなくても、ヌクレオチドはほとんど圧縮されません。初期に使用されたトリックの1つは、タンデムリピート(GACGACGACを短いコーディング、たとえば「3GAC」、9バイトから4バイト)に置き換えることでした。その理由は、ハードドライブのスペース(7.200 rpmおよびSCSIコネクタを備えた500bm-2GB HDDDプラッタの領域)を節約するためでした。シーケンス検索の場合、これはクエリでも実行されました。
「コード化されたヌクレオチド」ストレージが文字ごとに2ビットの場合、1バイトになります。
A = 00
C = 01
G = 10
T = 11
その方法でのみ、1バイトのコーディングでポジション1、2、3、4、5、6、7、8から完全に利益を得ることができます。たとえば、「ACTG」に対応する00.01.10.11の組み合わせ。これだけでも、他の回答で見られるように、ファイルサイズの4倍の削減に責任があります。したがって、3.4Gbは0.85917175Gbに縮小されます...必要な変換プログラム(23kb-4mb)を含めて〜860MB。
しかし...生物学では、何かを読むことができるようにしたいので、gzip圧縮は十分すぎるほどです。解凍しても、引き続き読むことができます。このバイト充填を使用すると、データの読み取りが難しくなります。それが、fasta-filesが実際にはプレーンテキストファイルである理由です。
すべての答えは、nuDNAが人間のゲノムを定義する唯一のDNAではないという事実を除外しています。 mtDNAも継承され、人間のゲノムに追加の16,500塩基対を提供します。これは、男性が770MB、女性が756MBであるというウィキペディアの推測に沿ったものです。
これは、人間のゲノムを4GB USBスティックに簡単に保存できるという意味ではありません。ビットはそれ自体で情報を表すのではなく、情報を表すのはビットの組み合わせです。そのため、nuDNAとmtDNAの場合、ビットはエンコードされており(圧縮と混同しないでください)、特に機能に関して、それ自体で多くのMBの生データを表す必要があるタンパク質と酵素を表します。
思考の糧:ヒトゲノムの80%は「非コーディング」DNAと呼ばれています。実際、人体と脳全体がたった151〜154MBの生データで表現できると本当に信じていましたか。
誰もが1つのヒトゲノムを持ち、 Nation Human Genome Research Institute によれば、約30億塩基対(2塩基=塩基対)を含む合計30,000個の遺伝子があります。アデニン(A)、グアニン(G)、シトシン(C)、およびチミン(T)の4つの異なる塩基があります。 Aを00または01000001(通常)に設定できます。データが扱いやすいため、バイトがより現実的なオプションだと思いますが、ベースペアが2バイトと2ビットであることに答えます。
データの構造は、Wordの文字と同様に順序が重要であるため、すべての行が遺伝子/塩基対のシーケンス(例:ATCG…)であると想定します。 Linuxの新しい行は1バイトとWindowsの2バイトですが、これはサイズにほとんど影響を与えません。
例えば.
GENE1...
GENE2...
ヒトゲノム中の24,000の遺伝子には、24,000の改行= 24 KB、38 KB(無視できる)が必要です。すべての塩基対が2バイトで、30億があるため、これは6GBに相当します。すべてのベースペアが2ビットの場合、ファイルサイズは6,000,0000ビットまたは750 MBに近くなります。
したがって、人間のゲノムは約750 MBまたは6 GBのスペースを占有すると言えます。何かを見逃した場合は、私を修正するか、この回答を改善してください。