次のDataFrame
があります。
from pandas import *
df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]})
次のようになります。
bar foo
0 1 a
1 2 b
2 3 c
今、私は次のようなものが欲しいです:
bar
0 1 is a
1 2 is b
2 3 is c
どうすればこれを達成できますか?私は次を試しました:
df['foo'] = '%s is %s' % (df['bar'], df['foo'])
しかし、それは私に間違った結果を与えます:
>>>print df.ix[0]
bar a
foo 0 a
1 b
2 c
Name: bar is 0 1
1 2
2
Name: 0
愚かな質問で申し訳ありませんが、これは pandas:DataFrameで2つの列を結合する は役に立たなかった。
df['bar'] = df.bar.map(str) + " is " + df.foo
。
コードの問題は、すべての行に操作を適用することです。あなたが書いた方法は、しかし、 'bar'と 'foo'列全体を取り、それらを文字列に変換し、1つの大きな文字列を返します。次のように書くことができます:
df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)
他の回答よりも長いですが、より一般的です(文字列ではない値で使用できます)。
この質問はすでに回答されていますが、これまでに説明されていないいくつかの有用なメソッドをミックスに投入し、これまでに提案されたすべてのメソッドをパフォーマンスの観点から比較することをお勧めします。
以下に、パフォーマンスの高い順に、この問題に対する有用な解決策を示します。
DataFrame.agg
これは単純です str.format
ベースのアプローチ。
df['baz'] = df.agg('{0[bar]} is {0[foo]}'.format, axis=1)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
ここでf-stringフォーマットを使用することもできます。
df['baz'] = df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
char.array
-based Concatenation列を変換してchararrays
として連結し、それらを一緒に追加します。
a = np.char.array(df['bar'].values)
b = np.char.array(df['foo'].values)
df['baz'] = (a + b' is ' + b).astype(str)
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
Zip
過小評価されたリストの理解がパンダにあることを誇張することはできません。
df['baz'] = [str(x) + ' is ' + y for x, y in Zip(df['bar'], df['foo'])]
または、str.join
連結(拡張性も向上):
df['baz'] = [
' '.join([str(x), 'is', y]) for x, y in Zip(df['bar'], df['foo'])]
df
foo bar baz
0 a 1 1 is a
1 b 2 2 is b
2 c 3 3 is c
文字列操作は本質的にベクトル化が困難であり、ほとんどのpandas "vectorized"関数は基本的にループのラッパーです。このトピックについては、 pandas-いつ気にする必要がありますか? のループの場合、一般に、インデックスのアライメントを気にする必要がない場合は、文字列および正規表現操作を処理するときにリスト内包表記を使用します。
上記のリストcompはデフォルトでNaNを処理しません。ただし、try-exceptを処理する必要がある場合は、常にtry-exceptをラップする関数を作成できます。
def try_concat(x, y):
try:
return str(x) + ' is ' + y
except (ValueError, TypeError):
return np.nan
df['baz'] = [try_concat(x, y) for x, y in Zip(df['bar'], df['foo'])]
perfplot
パフォーマンス測定perfplot を使用して生成されたグラフ。 完全なコードリスト です。
関数
def brenbarn(df): return df.assign(baz=df.bar.map(str) + " is " + df.foo) def danielvelkov(df): return df.assign(baz=df.apply( lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)) def chrimuelle(df): return df.assign( baz=df['bar'].astype(str).str.cat(df['foo'].values, sep=' is ')) def vladimiryashin(df): return df.assign(baz=df.astype(str).apply(lambda x: ' is '.join(x), axis=1)) def erickfis(df): return df.assign( baz=df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1)) def cs1_format(df): return df.assign(baz=df.agg('{0[bar]} is {0[foo]}'.format, axis=1)) def cs1_fstrings(df): return df.assign(baz=df.agg(lambda x: f"{x['bar']} is {x['foo']}", axis=1)) def cs2(df): a = np.char.array(df['bar'].values) b = np.char.array(df['foo'].values) return df.assign(baz=(a + b' is ' + b).astype(str)) def cs3(df): return df.assign( baz=[str(x) + ' is ' + y for x, y in Zip(df['bar'], df['foo'])])
また使用することができます
df['bar'] = df['bar'].str.cat(df['foo'].values.astype(str), sep=' is ')
df.astype(str).apply(lambda x: ' is '.join(x), axis=1)
0 1 is a
1 2 is b
2 3 is c
dtype: object
@DanielVelkovの答えは適切ですが、文字列リテラルを使用する方が高速です:
# Daniel's
%timeit df.apply(lambda x:'%s is %s' % (x['bar'],x['foo']),axis=1)
## 963 µs ± 157 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
# String literals - python 3
%timeit df.apply(lambda x: f"{x['bar']} is {x['foo']}", axis=1)
## 849 µs ± 4.28 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)