2つのpandas列の文字列連結

Question

次のDataFrameがあります。

from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})

次のようになります。

 bar foo 0 1 a 1 2 b 2 3 c

今、私は次のようなものが欲しいです：

 bar 0 1 is a 1 2 is b 2 3 is c

どうすればこれを達成できますか？私は次を試しました：

df['foo'] = '%s is %s' % (df['bar'], df['foo'])

しかし、それは私に間違った結果を与えます：

>>>print df.ix[0] bar a foo 0 a 1 b 2 c Name: bar is 0 1 1 2 2 Name: 0

愚かな質問で申し訳ありませんが、これは pandas：DataFrameで2つの列を結合するは役に立たなかった。

BrenBarn · Answer

df['bar'] = df.bar.map(str) + " is " + df.foo。

Daniel Velkov · Answer

コードの問題は、すべての行に操作を適用することです。あなたが書いた方法は、しかし、 'bar'と 'foo'列全体を取り、それらを文字列に変換し、1つの大きな文字列を返します。次のように書くことができます：

df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)

他の回答よりも長いですが、より一般的です（文字列ではない値で使用できます）。

cs95 · Answer

この質問はすでに回答されていますが、これまでに説明されていないいくつかの有用なメソッドをミックスに投入し、これまでに提案されたすべてのメソッドをパフォーマンスの観点から比較することをお勧めします。

以下に、パフォーマンスの高い順に、この問題に対する有用な解決策を示します。

`DataFrame.agg`

これは単純です str.format ベースのアプローチ。

df['baz'] = df.agg('{0[bar]} is {0[foo]}'.format, axis=1) df foo bar baz 0 a 1 1 is a 1 b 2 2 is b 2 c 3 3 is c

ここでf-stringフォーマットを使用することもできます。

df['baz'] = df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1) df foo bar baz 0 a 1 1 is a 1 b 2 2 is b 2 c 3 3 is c

`char.array` -based Concatenation

列を変換してchararraysとして連結し、それらを一緒に追加します。

a = np.char.array(df['bar'].values) b = np.char.array(df['foo'].values) df['baz'] = (a + b' is ' + b).astype(str) df foo bar baz 0 a 1 1 is a 1 b 2 2 is b 2 c 3 3 is c

リスト内包表記 with `Zip`

過小評価されたリストの理解がパンダにあることを誇張することはできません。

df['baz'] = [str(x) + ' is ' + y for x, y in Zip(df['bar'], df['foo'])]

または、str.join連結（拡張性も向上）：

df['baz'] = [ ' '.join([str(x), 'is', y]) for x, y in Zip(df['bar'], df['foo'])]

df foo bar baz 0 a 1 1 is a 1 b 2 2 is b 2 c 3 3 is c

文字列操作は本質的にベクトル化が困難であり、ほとんどのpandas "vectorized"関数は基本的にループのラッパーです。このトピックについては、 pandas-いつ気にする必要がありますか？のループの場合、一般に、インデックスのアライメントを気にする必要がない場合は、文字列および正規表現操作を処理するときにリスト内包表記を使用します。

上記のリストcompはデフォルトでNaNを処理しません。ただし、try-exceptを処理する必要がある場合は、常にtry-exceptをラップする関数を作成できます。

def try_concat(x, y): try: return str(x) + ' is ' + y except (ValueError, TypeError): return np.nan df['baz'] = [try_concat(x, y) for x, y in Zip(df['bar'], df['foo'])]

`perfplot`パフォーマンス測定

perfplot を使用して生成されたグラフ。完全なコードリストです。

関数

def brenbarn(df): return df.assign(baz=df.bar.map(str) + " is " + df.foo) def danielvelkov(df): return df.assign(baz=df.apply( lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)) def chrimuelle(df): return df.assign( baz=df['bar'].astype(str).str.cat(df['foo'].values, sep=' is ')) def vladimiryashin(df): return df.assign(baz=df.astype(str).apply(lambda x: ' is '.join(x), axis=1)) def erickfis(df): return df.assign( baz=df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1)) def cs1_format(df): return df.assign(baz=df.agg('{0[bar]} is {0[foo]}'.format, axis=1)) def cs1_fstrings(df): return df.assign(baz=df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1)) def cs2(df): a = np.char.array(df['bar'].values) b = np.char.array(df['foo'].values) return df.assign(baz=(a + b' is ' + b).astype(str)) def cs3(df): return df.assign( baz=[str(x) + ' is ' + y for x, y in Zip(df['bar'], df['foo'])])

chrimuelle · Answer

また使用することができます

df['bar'] = df['bar'].str.cat(df['foo'].values.astype(str), sep=' is ')

Vladimir Yashin · Answer

df.astype(str).apply(lambda x: ' is '.join(x), axis=1) 0 1 is a 1 2 is b 2 3 is c dtype: object

erickfis · Answer

@DanielVelkovの答えは適切ですが、文字列リテラルを使用する方が高速です：

# Daniel's %timeit df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1) ## 963 µs ± 157 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) # String literals - python 3 %timeit df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1) ## 849 µs ± 4.28 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

2つのpandas列の文字列連結

DataFrame.agg

char.array -based Concatenation

リスト内包表記 with Zip

perfplotパフォーマンス測定

`DataFrame.agg`

`char.array` -based Concatenation

リスト内包表記 with `Zip`

`perfplot`パフォーマンス測定