Tensorflow Dataset
パイプラインで、単一の入力要素(データサンプル)を受け取り、複数の要素(データサンプル)を返すカスタムマップ関数を定義したいと思います。
以下のコードは、望ましい結果とともに、私の試みです。
tf.data.Dataset().flat_map()
のドキュメントを十分に理解できず、ここで適用できるかどうかを理解できませんでした。
import tensorflow as tf
input = [10, 20, 30]
def my_map_func(i):
return [[i, i+1, i+2]] # Fyi [[i], [i+1], [i+2]] throws an exception
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.int64]
))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
結果:
(array([10, 11, 12]),)
(array([20, 21, 22]),)
(array([30, 31, 32]),)
望ましい結果:
(10)
(11)
(12)
(20)
(21)
(22)
(30)
(31)
(32)
これを達成するには、さらに2つのステップが必要でした。まず、map関数はリストではなくnumpy配列を返す必要があります。
次に、_flat_map
_をDataset().from_tensor_slices()
と組み合わせて使用してそれらを平坦化できます。以下のコードは、望ましい結果を生成します。
Tensorflow 1.5でテスト済み(実行可能なコピー/貼り付けの例)
_import tensorflow as tf
import numpy as np
input = [10, 20, 30]
def my_map_func(i):
return np.array([i, i + 1, i + 2])
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.int64]
))
ds = ds.flat_map(lambda x: tf.data.Dataset().from_tensor_slices(x))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
_
返す変数が複数ある場合にこれを行う方法を次に示します。この例では、文字列(ファイル名など)を入力し、文字列と整数の両方の倍数を出力します。この場合、[10、20、30]の整数ごとに文字列を繰り返します。
実行可能な例をコピーして貼り付けます。
_import tensorflow as tf
import numpy as np
input = [b'testA', b'testB', b'testC']
def my_map_func(input):
return np.array([input, input, input]), np.array([10, 20, 30])
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.map(map_func=lambda input: tf.py_func(
func=my_map_func, inp=[input], Tout=[tf.string, tf.int64]))
ds = ds.flat_map(lambda mystr, myint: tf.data.Dataset().Zip((
tf.data.Dataset().from_tensor_slices(mystr),
tf.data.Dataset().from_tensor_slices(myint))
))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
_
flat_map
とfrom_tensor_slices
を使用した1つのクリーンなソリューション
import tensorflow as tf
input = [10, 20, 30]
ds = tf.data.Dataset.from_tensor_slices(input)
ds = ds.flat_map(lambda x: tf.data.Dataset.from_tensor_slices([x, x+1, x+2]))
element = ds.make_one_shot_iterator().get_next()
with tf.Session() as sess:
for _ in range(9):
print(sess.run(element))
# 10
# 11
# 12
# 20
# 21
# 22
# 30
# 31
# 32