このデータセットを取得しようとしていますhttp://archive.ics.uci.edu/ml/datasets/Communities+and+Crime+Unnormalized
Wekaに参加しましたが、まったく運がありません。 CSVに変換してからWekaにロードし、ARFFに変換しようとしましたが、エラー"attribute names are not unique"
。
また、トレーニングデータセットをテストデータセットから広げる必要がありますか?
ArffViewerを使用することもできます(ツール-> ArffViewerまたはCtrl + A)。次に、CSVファイルを開きます。
次に、[ファイル]-> [名前を付けて保存...]に移動し、Arffデータファイルを選択します(デフォルトで選択されます)。
フィールドはセミコロンではなくコンマで区切る必要があることに注意してください。
WEKAにはいくつかのコンバーターが実装されています。以下は、このトピックに関連するAPIページです。 http://weka.sourceforge.net/doc.stable/weka/core/converters/package-summary.html
たとえば、CSVからARFFに変換する方法は次のとおりです。
Java -cp /path/to/weka.jar weka.core.converters.CSVLoader filename.csv > filename.arff
.CSV形式のファイルを this にアップロードします。それから、.CSV形式はWEKA .arff形式に変換されます。それが完了したら、.arffファイルをWekaツールにフェッチします。これで、データ分析を進めることができます。
Csvにヘッダーフィールドが必要です。最初の行でcsvファイルのattr0、attr1、...、labelsを追加する必要があります。
何の問題もありませんでした。さて、次のことをしてください。指定したWebページで、
これで準備完了です。
テストデータセットからトレーニングデータセットを生成する必要がありますか、それとも一緒に残しますか?
分類方法によって異なります。 10倍のCVを選択した場合は、そのままにしておきます。コンベンションメソッドを使用する場合は、それらを分離します。繰り返しますが、それはすべて方法論に依存します。
.csvをWekaで使用する.arffファイル形式に変換します。 注: .csvファイルは適切である必要があります。そうでない場合、.arffファイルに変換されません。列にヌル値を含めることはできません。 wekaコアjarをダウンロードします。 Eclipse->ビルドパスの構成で、wekaコアjarを追加し、以下のコード行を記述してコードを実行します。
CSVToArff.Java
import weka.core.Instances;
import weka.core.converters.ArffSaver;
import weka.core.converters.CSVLoader;
import Java.io.File;
public class CSVToArff {
public static void main(String[] args) throws Exception {
// load CSV
CSVLoader loader = new CSVLoader();
loader.setSource(new File("Provide the input file location (.csv) "));
Instances data = loader.getDataSet();
// save ARFF
ArffSaver saver = new ArffSaver();
saver.setInstances(data);
saver.setFile(new File("Provide the output file location (.arff) ");
saver.writeBatch();
// .arff file will be created in the output location
}
}
たぶん、このオンラインCSVからARFFへのコンバーターは役に立つでしょうか?