いくつかのコードをPythonからC++に移動。
BASEPAIRS = { "T": "A", "A": "T", "G": "C", "C": "G" }
マップを考えるのはやりすぎかもしれない?何を使いますか?
最適化が必要で、入力が常に4文字のうちの1つであると仮定した場合、以下の関数はマップの代わりとして試してみる価値があります。
char map(const char in)
{ return ((in & 2) ? '\x8a' - in : '\x95' - in); }
これは、2つの対称ペアを扱っているという事実に基づいて機能します。条件付きは、A/TペアとG/Cペアを区別するために機能します(「G」と「C」には、2番目に重要度の低いビットが共通しています)。残りの算術演算は対称マッピングを実行します。これは、a =(a + b)-bがすべてのa、bに当てはまるという事実に基づいています。
次の構文を使用できます。
std::map<char, char> my_map = {
{ 'A', '1' },
{ 'B', '2' },
{ 'C', '3' }
};
std::map
を使用しても問題ないか、256サイズのcharテーブルを使用しても問題ありませんが、enum
を使用するだけで、膨大なスペースの苦労を省くことができます。 C++ 11機能がある場合は、enum class
を使用して強力な型付けを行うことができます。
// First, we define base-pairs. Because regular enums
// Pollute the global namespace, I'm using "enum class".
enum class BasePair {
A,
T,
C,
G
};
// Let's cut out the nonsense and make this easy:
// A is 0, T is 1, C is 2, G is 3.
// These are indices into our table
// Now, everything can be so much easier
BasePair Complimentary[4] = {
T, // Compliment of A
A, // Compliment of T
G, // Compliment of C
C, // Compliment of G
};
使い方が簡単になります:
int main (int argc, char* argv[] ) {
BasePair bp = BasePair::A;
BasePair complimentbp = Complimentary[(int)bp];
}
これが多すぎる場合は、人間が判読できるASCII=文字を取得し、ベースペアの賛辞を取得して(int)
キャストを行わないようにするヘルパーを定義できます。時間:
BasePair Compliment ( BasePair bp ) {
return Complimentary[(int)bp]; // Move the pain here
}
// Define a conversion table somewhere in your program
char BasePairToChar[4] = { 'A', 'T', 'C', 'G' };
char ToCharacter ( BasePair bp ) {
return BasePairToChar[ (int)bp ];
}
きれいで、シンプルで、効率的です。
さて、突然、あなたは256バイトのテーブルを持っていません。また、文字(各1バイト)を保存しないため、これをファイルに書き込む場合は、1塩基対ごとに1バイト(8ビット)ではなく、2塩基対ごとに書き込むことができます。データをそれぞれ1文字として保存するバイオインフォマティクスファイルを使用する必要がありました。利点は、人間が判読できることです。欠点は、250 MBのファイルであるべきものが1 GBのスペースを必要とすることです。移動と保管、使用は悪夢でした。もちろん、ワームDNAでさえ250 MBが寛大なです。とにかく、1 GB相当の塩基対を読む人間はいません。
パフォーマンスを本当に心配するまで、ベースを取り、その一致を返す関数を使用します。
char base_pair(char base)
{
switch(base) {
case 'T': return 'A';
... etc
default: // handle error
}
}
パフォーマンスが心配な場合は、ベースを4分の1バイトと定義します。 0はAを表し、1はGを表し、2はCを表し、3はTを表します。その後、4つの塩基を1バイトにパックし、それらのペアを取得するには、単に補数をとります。
Char配列のテーブル:
char map[256] = { 0 };
map['T'] = 'A';
map['A'] = 'T';
map['C'] = 'G';
map['G'] = 'C';
/* .... */
マップソリューションは次のとおりです。
#include <iostream>
#include <map>
typedef std::map<char, char> BasePairMap;
int main()
{
BasePairMap m;
m['A'] = 'T';
m['T'] = 'A';
m['C'] = 'G';
m['G'] = 'C';
std::cout << "A:" << m['A'] << std::endl;
std::cout << "T:" << m['T'] << std::endl;
std::cout << "C:" << m['C'] << std::endl;
std::cout << "G:" << m['G'] << std::endl;
return 0;
}
これは、私が考えることができる最速、最もシンプル、最小のスペースソリューションです。優れた最適化コンパイラは、ペアと名前の配列にアクセスするコストさえも取り除きます。このソリューションは、Cでも同様に機能します。
#include <iostream>
enum Base_enum { A, C, T, G };
typedef enum Base_enum Base;
static const Base pair[4] = { T, G, A, C };
static const char name[4] = { 'A', 'C', 'T', 'G' };
static const Base base[85] =
{ -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, A, -1, C, -1, -1,
-1, G, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, T };
const Base
base2 (const char b)
{
switch (b)
{
case 'A': return A;
case 'C': return C;
case 'T': return T;
case 'G': return G;
default: abort ();
}
}
int
main (int argc, char *args)
{
for (Base b = A; b <= G; b++)
{
std::cout << name[b] << ":"
<< name[pair[b]] << std::endl;
}
for (Base b = A; b <= G; b++)
{
std::cout << name[base[name[b]]] << ":"
<< name[pair[base[name[b]]]] << std::endl;
}
for (Base b = A; b <= G; b++)
{
std::cout << name[base2(name[b])] << ":"
<< name[pair[base2(name[b])]] << std::endl;
}
};
base []は、ベース(つまり、0から3までの整数)に対する高速ASCII文字のルックアップであり、少しugいです。優れた最適化コンパイラーはbase2()を処理できるはずですが、それができるかどうかはわかりません。
BASEPAIRS = {"T": "A"、 "A": "T"、 "G": "C"、 "C": "G"}何を使用しますか?
多分:
static const char basepairs[] = "ATAGCG";
// lookup:
if (const char* p = strchr(basepairs, c))
// use p[1]
;-)