Linuxで異なる複数のファイルから必要な列を含む新しいファイルを作成するにはどうすればよいですか？

Question

ballgownディレクトリがあり、サンプル名として約1000のサブディレクトリがあります。各サブディレクトリにはファイルt_data.ctabがあります。ファイル名はすべてのサブディレクトリで同じです。

ballgown |_______TCGA-A2-A0T3-01A |___________ t_data.ctab |_______TCGA-A7-A4SA-01A |___________ t_data.ctab |_______TCGA-A7-A6VW-01A |___________ t_data.ctab

上記のように、ballgownには1000個のサブディレクトリがあります。これらの1000個のサブディレクトリすべてのt_data.ctabファイルは、次のように列があります。

t_id chr strand start end t_name num_exons length gene_id gene_name cov FPKM 1 1 - 10060 10614 MSTRG.1.1 1 555 MSTRG.1 . 0.000000 0.000000 2 1 + 11140 30023 MSTRG.10.1 12 3981 MSTRG.10 . 2.052715 0.284182 3 1 - 11694 29342 MSTRG.11.1 8 6356 MSTRG.11 . 0.557588 0.077194 4 1 + 11869 14409 ENST00000456328.2 3 1657 MSTRG.10 DDX11L1 0.000000 0.000000 5 1 + 11937 29347 MSTRG.10.3 12 3544 MSTRG.10 . 0.000000 0.000000 6 1 - 11959 30203 MSTRG.11.2 11 4547 MSTRG.11 . 0.369929 0.051214 7 1 + 12010 13670 ENST00000450305.2 6 632 MSTRG.10 DDX11L1 0.000000 0.000000 8 1 + 12108 26994 MSTRG.10.5 10 5569 MSTRG.10 . 0.057091 0.007904 9 1 + 12804 199997 MSTRG.10.6 12 3567 MSTRG.10 . 0.000000 0.000000 10 1 + 13010 31097 MSTRG.10.7 12 4375 MSTRG.10 . 0.000000 0.000000 11 1 - 13068 26832 MSTRG.11.3 9 5457 MSTRG.11 . 0.995280 0.137788

すべてのt_data.ctabファイルから、t_name列とFPKM列のみを抽出して、新しいファイルを作成します。新しいファイルでは、FPKM列をサンプル名にする必要があります。以下のようになります。

t_name TCGA-A2-A0T3-01A TCGA-A7-A4SA-01A TCGA-A7-A6VW-01A MSTRG.1.1 0 0.028181 0 MSTRG.10.1 0.284182 0.002072 0.046302 MSTRG.11.1 0.077194 0.685535 0.105849 ENST00000456328.2 0 0.307315 0.038961 MSTRG.10.3 0 0.446015 0.009946 MSTRG.11.2 0.051214 0.053577 0.036081 ENST00000450305.2 0 0.110438 0.040319 MSTRG.10.5 0.007904 0 1.430825 MSTRG.10.6 0 0 0.221105 MSTRG.10.7 0 0.199354 0 MSTRG.11.3 0.137788 0.004792 0

2つまたは3つのファイルの場合、各ファイルでcut -f6,12を使用して、それらを結合できます。しかし、現在約1000個のファイルがあります。

αғsнιη · Accepted Answer

この簡単な方法を試してください。

最初に行う：

awk 'FNR==1 { print substr(FILENAME,1,16) >substr(FILENAME,1,16)".tmp" } FNR >1 { print $12 > substr(FILENAME,1,16)".tmp" } NR==FNR{ print $6 >"first_column.tmp" }' TCGA-A*/t_data.ctab

次にpasteそれらをコンマ区切りファイルと一緒に（削除-d,代わりにタブが必要な場合）：

paste -d, *.tmp t_name,TCGA-A2-A0T3-01A,TCGA-A7-A4SA-01A,TCGA-A7-A6VW-01A MSTRG.1.1,0.000000,0.00000,0.0000 MSTRG.10.1,0.284182,0.28418,0.2841 MSTRG.11.1,0.077194,0.07719,0.0771 ENST00000456328.2,0.000000,0.00000,0.0000 MSTRG.10.3,0.000000,0.00000,0.0000 MSTRG.11.2,0.051214,0.05121,0.0512 ENST00000450305.2,0.000000,0.00000,0.0000 MSTRG.10.5,0.007904,0.00790,0.0079 MSTRG.10.6,0.000000,0.00000,0.0000 MSTRG.10.7,0.000000,0.00000,0.0000 MSTRG.11.3,0.137788,0.13778,0.1377

Gerard H. Pille · Answer

Csv出力に満足しますか？

find ballgown -name t_data.ctab | awk ' { F=$0 print F " started" split(F,P,"/") FN= P[2] TF[FN]=1 getline < F while ((getline < F) > 0) { TN[$6]=1 TV[FN ":" $6] = $NF } close(F) print f " done" } END { printf("tname") for (F in TF) { printf(", %s",F) } print "" for (N in TN) { printf("%s",N) for (F in TF) { printf(", %s",TV[F ":" N]) } print "" } } '

simlev · Answer

質問へのコメントで説明されているように、問題を2つの操作に分割します。これが可能なのは、最初の列が各ファイルでまったく同じであり、すべてのファイルの行数が同じであるためです。

Ballgownディレクトリに自分を配置します。

cd ballgown

最初のステップとして、最初の列を含む出力ファイルを作成します。

cut -f6 TCGA-A7-A6VW-01A/t_data.ctab > out.tab

作業の大部分は、findとPerlの組み合わせによって行われます。

find -iname t_data.ctab -exec Perl -i.bak -lane 'if($.==1){$ARGV=~/([-\w]+)/.*$/;$f=$1} if(1..eof&&($n=$.)){$a[$.]=$F[11];$a[1]=$f;next}; print "$_	$a[$.-$n]"' {} out.tab \;

注：これは破壊的なアクションです。元のファイルは、.bak拡張子が追加されて保持されます。

spongeを利用した非破壊バージョン（また、findはforループに置き換えられました）：

for F in */t_data.ctab; do Perl -lane 'if(1..eof&&($n=$.)){$a[$.]=$F[11];$a[1]=$ARGV=~s/([-\w]+)/.*$/$1/r;next} print "$_	$a[$.-$n]"' $F out.tab | sponge out.tab; done;

simlev · Answer

[〜＃〜] php [〜＃〜]の完全にプログラム的なソリューション。

<?php $filenames = glob('*/t_data.ctab'); foreach($filenames as $k=>$filename) { $name = pathinfo($filename)['dirname'] . "
"; $file = file($filename); foreach ($file as $n => $line) { $line = explode("	", $line); if ($n === 0) { $line[11] = $name; } if ($k === 0) { $out[$n] = $line[5] . "	" . $line[11]; } else { $out[$n] = trim($out[$n]) . "	" . $line[11]; } } } file_put_contents('out.tab', $out);

使用法：

ballgownディレクトリに自分を配置します
名前を付けてファイルを保存します。たとえば、script.php
php script.phpでスクリプトを実行します
出力はout.tabファイルにあります

注：

PHPのインストール方法と使用方法、スクリプトの機能、および特定のニーズに合わせてスクリプトを微調整する方法についてさらに説明が必要な場合は、お知らせください。

Pythonでの同じ解決策は次のとおりです。言語がコメントで言及されているためです。 Pythonを書くのはこれが初めてなので、改善のための提案をお寄せください。

import os, glob out = [] for k, filename in enumerate(glob.glob('*/t_data.ctab')): with open(filename, 'r') as f: file = f.readlines() for n, line in enumerate(file): line = line.split("	") if n == 0: line[11] = os.path.dirname(filename) + "
" if k == 0: out.append(line[5] + "	" + line[11]) else: out[n] = out[n].strip() + "	" + line[11] outfile = open('out.tab', 'w') outfile.write("".join(out))

Perlワンライナーとして書かれた同じアプローチ：

Perl -lane '$a[$n].=($a[$n]?"":$F[5])."	".($n<1?$ARGV=~s#([-\w]+)/.*$#$1#r:$F[11]); $n=eof?0:$n+1}{print "$_" for @a' */t_data.ctab