私は文字列の2つの単語間のすべてを含む文字列を出力しようとしています。
入力:
"Here is a String"
出力:
"is a"
使用方法
sed -n '/Here/,/String/p'
エンドポイントを含みますが、それらは含めたくありません。
sed -e 's/Here\(.*\)String/\1/'
GNU grepは、ポジティブ&ネガティブルックアヘッド&ルックバックもサポートします。あなたの場合、コマンドは次のようになります。
echo "Here is a string" | grep -o -P '(?<=Here).*(?=string)'
Here
とstring
が複数回出現する場合は、最初のHere
と最後のstring
のどちらから一致させるか、それらを個別に一致させるかを選択できます。正規表現に関しては、 欲張り一致(最初の場合) または 欲張り以外の一致(2番目の場合)と呼ばれます。 )
$ echo 'Here is a string, and Here is another string.' | grep -oP '(?<=Here).*(?=string)' # Greedy match
is a string, and Here is another
$ echo 'Here is a string, and Here is another string.' | grep -oP '(?<=Here).*?(?=string)' # Non-greedy match (Notice the '?' after '*' in .*)
is a
is another
承認された回答では、Here
の前またはString
の後のテキストは削除されません。この意志:
sed -e 's/.*Here\(.*\)String.*/\1/'
主な違いは、Here
の直前とString
の直後に.*
を追加したことです。
GNU awkを介して、
$ echo "Here is a string" | awk -v FS="(Here|string)" '{print $2}'
is a
-P
(Perl-regexp)パラメーターを指定したgrepは、\K
をサポートします。これは、以前に一致した文字を破棄するのに役立ちます。この場合、以前に一致した文字列はHere
であったため、最終出力から破棄されました。
$ echo "Here is a string" | grep -oP 'Here\K.*(?=string)'
is a
$ echo "Here is a string" | grep -oP 'Here\K(?:(?!string).)*'
is a
出力をis a
にしたい場合は、以下を試すことができます。
$ echo "Here is a string" | grep -oP 'Here\s*\K.*(?=\s+string)'
is a
$ echo "Here is a string" | grep -oP 'Here\s*\K(?:(?!\s+string).)*'
is a
多数の複数行のオカレンスを含む長いファイルがある場合は、最初にnumber行を印刷すると便利です。
cat -n file | sed -n '/Here/,/String/p'
これはうまくいくかもしれません(GNU sed)。
sed '/Here/!d;s//&\n/;s/.*\n//;:a;/String/bb;$!{n;ba};:b;s//\n&/;P;D' file
これは、2つのマーカー(この場合はHere
とString
)の間のテキストの各表現を改行で表示し、テキスト内の改行を保持します。
上記のすべての解決策には、最後の検索文字列が文字列の別の場所で繰り返されるという欠点があります。 bash関数を書くのが一番良いと思いました。
function str_str {
local str
str="${1#*${2}}"
str="${str%%$3*}"
echo -n "$str"
}
# test it ...
mystr="this is a string"
str_str "$mystr" "this " " string"
\1
を使うことができます( http://www.grymoire.com/Unix/Sed.html#uh-4 を参照してください)。
echo "Hello is a String" | sed 's/Hello\(.*\)String/\1/g'
括弧内の内容は\1
として格納されます。
sed
コマンドを理解するためには、ステップバイステップでビルドする必要があります。
これがあなたの元のテキストです。
user@linux:~$ echo "Here is a String"
Here is a String
user@linux:~$
Here
のs
ubstitionオプションでsed
を削除してみましょう
user@linux:~$ echo "Here is a String" | sed 's/Here //'
is a String
user@linux:~$
この時点で、String
も削除できると思います
user@linux:~$ echo "Here is a String" | sed 's/String//'
Here is a
user@linux:~$
しかし、これはあなたの望む出力ではありません。
2つのsedコマンドを組み合わせるには、-e
オプションを使用してください。
user@linux:~$ echo "Here is a String" | sed -e 's/Here //' -e 's/String//'
is a
user@linux:~$
お役に立てれば
問題私の保存したClaws Mailメッセージは以下のようにラップされていて、Subject行を抽出しようとしています。
Subject: [SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key molecular
link in major cell growth pathway: Findings point to new potential
therapeutic target in pancreatic cancer [mTORC1 Activator SLC38A9 Is
Required to Efflux Essential Amino Acids from Lysosomes and Use Protein as
a Nutrient] [Re: Nutrient sensor in key growth-regulating metabolic pathway
identified [Lysosomal amino acid transporter SLC38A9 signals arginine
sufficiency to mTORC1]]
Message-ID: <[email protected]>
このスレッドのA2あたり、 2つの単語の間のテキストを抽出するためにsed/grepを使用する方法? 下の最初の式は、一致したテキストに改行が含まれていない限り「機能します」。
grep -o -P '(?<=Subject: ).*(?=molecular)' corpus/01
[SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key
しかし、たくさんの変種(.+?; /s; ...
)を試しても、これらをうまく動作させることはできませんでした。
grep -o -P '(?<=Subject: ).*(?=link)' corpus/01
grep -o -P '(?<=Subject: ).*(?=therapeutic)' corpus/01
etc.
解決策1
Per 異なる行にある2つの文字列の間のテキストを抽出します
sed -n '/Subject: /{:a;N;/Message-ID:/!ba; s/\n/ /g; s/\s\s*/ /g; s/.*Subject: \|Message-ID:.*//g;p}' corpus/01
これは
[SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key molecular link in major cell growth pathway: Findings point to new potential therapeutic target in pancreatic cancer [mTORC1 Activator SLC38A9 Is Required to Efflux Essential Amino Acids from Lysosomes and Use Protein as a Nutrient] [Re: Nutrient sensor in key growth-regulating metabolic pathway identified [Lysosomal amino acid transporter SLC38A9 signals arginine sufficiency to mTORC1]]
解決策2。*
Per sedを使って改行(\ n)を置き換えるにはどうすればいいですか?
sed ':a;N;$!ba;s/\n/ /g' corpus/01
改行をスペースに置き換えます。
でA2を使ってそれをチェーニングする2つの単語の間のテキストを抽出するためにsed/grepを使用する方法? 、 我々が得る:
sed ':a;N;$!ba;s/\n/ /g' corpus/01 | grep -o -P '(?<=Subject: ).*(?=Message-ID:)'
これは
[SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key molecular link in major cell growth pathway: Findings point to new potential therapeutic target in pancreatic cancer [mTORC1 Activator SLC38A9 Is Required to Efflux Essential Amino Acids from Lysosomes and Use Protein as a Nutrient] [Re: Nutrient sensor in key growth-regulating metabolic pathway identified [Lysosomal amino acid transporter SLC38A9 signals arginine sufficiency to mTORC1]]
この変種は二重スペースを削除します。
sed ':a;N;$!ba;s/\n/ /g; s/\s\s*/ /g' corpus/01 | grep -o -P '(?<=Subject: ).*(?=Message-ID:)'
与える
[SLC38A9 lysosomal arginine sensor; mTORC1 pathway] Key molecular link in major cell growth pathway: Findings point to new potential therapeutic target in pancreatic cancer [mTORC1 Activator SLC38A9 Is Required to Efflux Essential Amino Acids from Lysosomes and Use Protein as a Nutrient] [Re: Nutrient sensor in key growth-regulating metabolic pathway identified [Lysosomal amino acid transporter SLC38A9 signals arginine sufficiency to mTORC1]]