TensorFlowでCSVデータを*実際に*読み込む方法は？

Question

私はTensorFlowの世界には比較的新しいのですが、actually CSVデータをTensorFlowの使用可能なサンプル/ラベルテンソルに読み込みます。 CSVデータの読み取りに関するTensorFlowチュートリアルの例はかなり断片化されており、CSVデータでトレーニングできるようになる方法の一部にすぎません。

そのCSVチュートリアルに基づいて、私がつなぎ合わせたコードを次に示します。

from __future__ import print_function import tensorflow as tf def file_len(fname): with open(fname) as f: for i, l in enumerate(f): pass return i + 1 filename = "csv_test_data.csv" # setup text reader file_length = file_len(filename) filename_queue = tf.train.string_input_producer([filename]) reader = tf.TextLineReader(skip_header_lines=1) _, csv_row = reader.read(filename_queue) # setup CSV decoding record_defaults = [[0],[0],[0],[0],[0]] col1,col2,col3,col4,col5 = tf.decode_csv(csv_row, record_defaults=record_defaults) # turn features back into a tensor features = tf.stack([col1,col2,col3,col4]) print("loading, " + str(file_length) + " line(s)
") with tf.Session() as sess: tf.initialize_all_variables().run() # start populating filename queue coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(coord=coord) for i in range(file_length): # retrieve a single instance example, label = sess.run([features, col5]) print(example, label) coord.request_stop() coord.join(threads) print("
done loading")

そして、ここに私がロードしているCSVファイルからの簡単な例があります-非常に基本的なデータ-4つの機能列と1つのラベル列

0,0,0,0,0 0,15,0,0,0 0,30,0,0,0 0,45,0,0,0

上記のコードはすべて、CSVファイルから各例を1つずつ印刷します。これは、ニースですが、トレーニングにはまったく役に立たないものです。

ここで苦労しているのは、1つずつロードされた個々の例を実際にトレーニングデータセットに変換する方法です。たとえば、これはノートブックです私はUdacity Deep Learningコースで取り組んでいました。私は基本的に、読み込んでいるCSVデータを取得して、train_datasetおよびtrain_labels：

def reformat(dataset, labels): dataset = dataset.reshape((-1, image_size * image_size)).astype(np.float32) # Map 2 to [0.0, 1.0, 0.0 ...], 3 to [0.0, 0.0, 1.0 ...] labels = (np.arange(num_labels) == labels[:,None]).astype(np.float32) return dataset, labels train_dataset, train_labels = reformat(train_dataset, train_labels) valid_dataset, valid_labels = reformat(valid_dataset, valid_labels) test_dataset, test_labels = reformat(test_dataset, test_labels) print('Training set', train_dataset.shape, train_labels.shape) print('Validation set', valid_dataset.shape, valid_labels.shape) print('Test set', test_dataset.shape, test_labels.shape)

私はこのようにtf.train.shuffle_batchを使用しようとしましたが、どういうわけかハングします：

 for i in range(file_length): # retrieve a single instance example, label = sess.run([features, colRelevant]) example_batch, label_batch = tf.train.shuffle_batch([example, label], batch_size=file_length, capacity=file_length, min_after_dequeue=10000) print(example, label)

要約すると、ここに私の質問があります：

このプロセスについて何が欠けていますか？
- 入力パイプラインを適切に構築する方法について私が見逃している重要な直観があるように感じます。
CSVファイルの長さを知る必要を回避する方法はありますか？
- 処理する行数（上記のコードのfor i in range(file_length)行）を知っている必要があるのは、かなり洗練されていないように感じます。

編集：ヤロスラフが、ここで命令型とグラフ構築の部分を混同しそうだと指摘するとすぐに、それはより明確になり始めました。次のコードをまとめることができました。これは、CSVからモデルをトレーニングするときに通常行われること（モデルトレーニングコードを除く）に近いと思います。

from __future__ import print_function import numpy as np import tensorflow as tf import math as math import argparse parser = argparse.ArgumentParser() parser.add_argument('dataset') args = parser.parse_args() def file_len(fname): with open(fname) as f: for i, l in enumerate(f): pass return i + 1 def read_from_csv(filename_queue): reader = tf.TextLineReader(skip_header_lines=1) _, csv_row = reader.read(filename_queue) record_defaults = [[0],[0],[0],[0],[0]] colHour,colQuarter,colAction,colUser,colLabel = tf.decode_csv(csv_row, record_defaults=record_defaults) features = tf.stack([colHour,colQuarter,colAction,colUser]) label = tf.stack([colLabel]) return features, label def input_pipeline(batch_size, num_epochs=None): filename_queue = tf.train.string_input_producer([args.dataset], num_epochs=num_epochs, shuffle=True) example, label = read_from_csv(filename_queue) min_after_dequeue = 10000 capacity = min_after_dequeue + 3 * batch_size example_batch, label_batch = tf.train.shuffle_batch( [example, label], batch_size=batch_size, capacity=capacity, min_after_dequeue=min_after_dequeue) return example_batch, label_batch file_length = file_len(args.dataset) - 1 examples, labels = input_pipeline(file_length, 1) with tf.Session() as sess: tf.initialize_all_variables().run() # start populating filename queue coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(coord=coord) try: while not coord.should_stop(): example_batch, label_batch = sess.run([examples, labels]) print(example_batch) except tf.errors.OutOfRangeError: print('Done training, Epoch reached') finally: coord.request_stop() coord.join(threads)

Nagarjun Gururaj · Answer

または、これを試すことができます。コードは、pandasとnumpyを使用してIrisデータセットをテンソルフローにロードし、単純な1つのニューロンの出力がセッションで出力されます。基本的な理解に役立つことを願っています…。

import tensorflow as tf import numpy import pandas as pd df=pd.read_csv('/home/nagarjun/Desktop/Iris.csv',usecols = [0,1,2,3,4],skiprows = [0],header=None) d = df.values l = pd.read_csv('/home/nagarjun/Desktop/Iris.csv',usecols = [5] ,header=None) labels = l.values data = numpy.float32(d) labels = numpy.array(l,'str') #print data, labels #tensorflow x = tf.placeholder(tf.float32,shape=(150,5)) x = data w = tf.random_normal([100,150],mean=0.0, stddev=1.0, dtype=tf.float32) y = tf.nn.softmax(tf.matmul(w,x)) with tf.Session() as sess: print sess.run(y)

Adarsh Kumar · Answer

最新のtf.data APIを使用できます：

dataset = tf.contrib.data.make_csv_dataset(filepath) iterator = dataset.make_initializable_iterator() columns = iterator.get_next() with tf.Session() as sess: sess.run([iteator.initializer])

Hasan Rafiq · Answer

Tf.estimator APIで絶対に大きくて断片化されたCSVファイルを読み取る簡単な方法を探している人がここに来た場合は、以下の私のコードを参照してください

CSV_COLUMNS = ['ID','text','class'] LABEL_COLUMN = 'class' DEFAULTS = [['x'],['no'],[0]] #Default values def read_dataset(filename, mode, batch_size = 512): def _input_fn(v_test=False): # def decode_csv(value_column): # columns = tf.decode_csv(value_column, record_defaults = DEFAULTS) # features = dict(Zip(CSV_COLUMNS, columns)) # label = features.pop(LABEL_COLUMN) # return add_engineered(features), label # Create list of files that match pattern file_list = tf.gfile.Glob(filename) # Create dataset from file list #dataset = tf.data.TextLineDataset(file_list).map(decode_csv) dataset = tf.contrib.data.make_csv_dataset(file_list, batch_size=batch_size, column_names=CSV_COLUMNS, column_defaults=DEFAULTS, label_name=LABEL_COLUMN) if mode == tf.estimator.ModeKeys.TRAIN: num_epochs = None # indefinitely dataset = dataset.shuffle(buffer_size = 10 * batch_size) else: num_epochs = 1 # end-of-input after this batch_features, batch_labels = dataset.make_one_shot_iterator().get_next() #Begins - Uncomment for testing only -----------------------------------------------------< if v_test == True: with tf.Session() as sess: print(sess.run(batch_features)) #End - Uncomment for testing only -----------------------------------------------------< return add_engineered(batch_features), batch_labels return _input_fn

TF.estimatorの使用例：

train_spec = tf.estimator.TrainSpec(input_fn = read_dataset( filename = train_file, mode = tf.estimator.ModeKeys.TRAIN, batch_size = 128), max_steps = num_train_steps)