テキストファイルをロードして前処理して作成するRDDがあります。私はそれを収集してディスクまたはメモリ(データ全体)に保存するのではなく、pythonで他のいくつかの関数に渡して、次々にデータを消費する反復可能な形式です) 。
これはどのようにして可能ですか?
data = sc.textFile('file.txt').map(lambda x: some_func(x))
an_iterable = data. ## what should I do here to make it give me one element at a time?
def model1(an_iterable):
for i in an_iterable:
do_that(i)
model(an_iterable)
私はあなたが望むものは toLocalIterator()
であると信じています: