Attribute-Relation File Format をscikit-learnで使用してNLPタスクを実行したいのですが、これは可能ですか? .arff
ファイルをscikit-learn
と一緒に使用するにはどうすればよいですか?
私は本当にお勧めします liac-arff 。 numpyに直接ロードされませんが、変換は簡単です。
import arff, numpy as np
dataset = arff.load(open('mydataset.arff', 'rb'))
data = np.array(dataset['data'])
scipyにはarffファイル用のローダーがあります それらをnumpyレコード配列としてロードすることがわかりました。これらのアレイがscikit-learnによる直接消費に適しているかどうかは100%確信できませんが、それで始められるはずです。
Renatoppの答えに従ってください。データがアイリスデータセットであると仮定すると、5次元であり、最後の1つがクラスラベル列である必要があります。
s = svm.SVC()
data_input = data[:,0:4]
labels = data[:,4] # this is the class column
s.fit(data_input, labels)
これはあなたが欲しいものだと思います。
「arff」ファイルがテキストファイルの場合は、代わりに次のコードを試してください。
import arff, numpy as np
dataset = arff.loads(open('mydataset.arff', 'rt'))
data = np.array(dataset['data'])