web-dev-qa-db-ja.com

python pandas read_csv delimiter in column data

私はこのタイプのCSVファイルを持っています:

_12012;My Name is Mike. What is your's?;3;0 
1522;In my opinion: It's cool; or at least not bad;4;0
21427;Hello. I like this feature!;5;1
_

このデータを_pandas.DataFrame_に取り込みたい。しかし、read_csv(sep=";")は、2行目のユーザー生成メッセージ列のセミコロンが原因で例外をスローします(私の意見では、それはクールです。少なくとも悪くはありません)。残りのすべての列には常に数値のdtypeがあります。

これを管理する最も便利な方法は何ですか?

7
Thomas Pazur

引用符で囲まれていない区切り文字を処理することは常に厄介です。この場合、壊れたテキストは正しくエンコードされた3つの列で囲まれていることがわかっているため、回復できます。 TBH、私は標準のPythonリーダーを使用して、そこから1回DataFrameを構築します。

import csv
import pandas as pd

with open("semi.dat", "r", newline="") as fp:
    reader = csv.reader(fp, delimiter=";")
    rows = [x[:1] + [';'.join(x[1:-2])] + x[-2:] for x in reader] 
    df = pd.DataFrame(rows)

生成する

       0                                              1  2  3
0  12012               My Name is Mike. What is your's?  3  0
1   1522  In my opinion: It's cool; or at least not bad  4  0
2  21427                    Hello. I like this feature!  5  1

次に、それをすぐに保存して、正しく引用されたものを取得できます。

In [67]: df.to_csv("fixedsemi.dat", sep=";", header=None, index=False)

In [68]: more fixedsemi.dat
12012;My Name is Mike. What is your's?;3;0
1522;"In my opinion: It's cool; or at least not bad";4;0
21427;Hello. I like this feature!;5;1

In [69]: df2 = pd.read_csv("fixedsemi.dat", sep=";", header=None)

In [70]: df2
Out[70]: 
       0                                              1  2  3
0  12012               My Name is Mike. What is your's?  3  0
1   1522  In my opinion: It's cool; or at least not bad  4  0
2  21427                    Hello. I like this feature!  5  1
9
DSM