パンダのread_csvでカテゴリー列を読み取ることはできますか？

Question

read_csvをdtype={n: pandas.Categorical}としてdtypeパラメータを渡してみましたが、これは正しく機能しません（結果はオブジェクトです）。マニュアルは不明確。

jezrael · Accepted Answer

バージョン 0.19.0 dtype='category'でパラメータread_csvを使用できます：

data = 'col1,col2,col3
a,b,1
a,b,2
c,d,3' df = pd.read_csv(pd.compat.StringIO(data), dtype='category') print (df) col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 print (df.dtypes) col1 category col2 category col3 category dtype: object

カテゴリの列を指定する場合は、辞書でdtypeを使用します。

df = pd.read_csv(pd.compat.StringIO(data), dtype={'col1':'category'}) print (df) col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 print (df.dtypes) col1 category col2 object col3 int64 dtype: object

Alexander · Answer

カテゴリーは有効ではありません dtype 。

この StackOverflow post には、カテゴリデータをテキストファイルに保存する方法の詳細が含まれています。