正規表現に基づいて文字列を分割する

Question

表形式のコマンドの出力があります。結果ファイルからこの出力を解析し、文字列に保存しています。 1行の各要素は1つ以上の空白文字で区切られているため、1つ以上のスペースに一致するように正規表現を使用して分割しています。ただし、すべての要素の間にスペースが挿入されています。

>>> str1="a b c d" # spaces are irregular >>> str1 'a b c d' >>> str2=re.split("( )+", str1) >>> str2 ['a', ' ', 'b', ' ', 'c', ' ', 'd'] # 1 space element between!!!

これを行うためのより良い方法はありますか？

各分割後、str2がリストに追加されます。

jamylak · Accepted Answer

(、)を使用することで、グループをキャプチャーできます。単にそれらを削除すれば、この問題は発生しません。

>>> str1 = "a b c d" >>> re.split(" +", str1) ['a', 'b', 'c', 'd']

ただし、正規表現は必要ありません。区切り文字が指定されていないstr.splitは、これを空白文字で分割します。この場合、これが最善の方法です。

>>> str1.split() ['a', 'b', 'c', 'd']

本当に正規表現が必要な場合は、これを使用できます（'\s'は空白を表し、より明確です）：

>>> re.split("\s+", str1) ['a', 'b', 'c', 'd']

または、すべての非空白文字を見つけることができます

>>> re.findall(r'\S+',str1) ['a', 'b', 'c', 'd']

Trevor · Answer

str.splitメソッドは、アイテム間のすべての空白を自動的に削除します。

>>> str1 = "a b c d" >>> str1.split() ['a', 'b', 'c', 'd']

ドキュメントはこちら： http://docs.python.org/library/stdtypes.html#str.split

BrenBarn · Answer

re.splitを使用し、分割パターンにキャプチャグループが含まれている場合、グループは出力に保持されます。これが必要ない場合は、代わりに非キャプチャグループを使用してください。

damned · Answer

実際には非常に簡単です。これを試して：

str1="a b c d" splitStr1 = str1.split() print splitStr1