FASTAをデータフレームに読み込み、FASTAファイルのサブシーケンスを抽出します

Question

次のようなDNAシーケンスの小さなfastaファイルがあります。

>NM_000016 700 200 234 ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC >NM_000775 700 124 236 CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG >NM_003820 700 111 222 ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA

質問：

1）どのようにこのfastaファイルをデータフレームとしてRに読み込むことができますか？各行はシーケンスレコードで、1列目はrefseqIDで、2列目はシーケンスです。

2）（開始、終了）位置でサブシーケンスを抽出する方法？

NM_000016 1 3 #"ACA" NM_000775 2 6 #"TAACC" NM_003820 3 5 #"TTC"

sgibb · Accepted Answer

Biostrings パッケージをご覧ください。

library("Biostrings") s = readDNAStringSet("nm.fasta") subseq(s, start=c(1, 2, 3), end=c(3, 6, 5))

lblum · Answer

library("Biostrings") fastaFile <- readDNAStringSet("my.fasta") seq_name = names(fastaFile) sequence = paste(fastaFile) df <- data.frame(seq_name, sequence)

Paul.j · Answer

上記のsgibbの答えに触発されて、私は最初の質問に次のように答えます：

#read fasta file into R as a dataframe: 1st column as "RefSeqID", 2nd column as "seq" library("Biostrings") fasta2dataframe=function(fastaFile){ s = readDNAStringSet(fastaFile) RefSeqID = names(s) RefSeqID = sub(" .*", "", RefSeqID) #erase all characters after the first space: regular expression matches a space followed by any sequence of characters and sub replaces that with a string having zero characters for (i in 1:length(s)){ seq[i]=toString(s[i]) } RefSeqID_seq=data.frame(RefSeqID,seq) return(RefSeqID_seq) }

例：

mydf = fasta2dataframe(myFastaFile.fasta)