web-dev-qa-db-ja.com

RDDを反復可能に変換:PySpark?

テキストファイルをロードして前処理して作成するRDDがあります。私はそれを収集してディスクまたはメモリ(データ全体)に保存するのではなく、pythonで他のいくつかの関数に渡して、次々にデータを消費する反復可能な形式です) 。

これはどのようにして可能ですか?

data =  sc.textFile('file.txt').map(lambda x: some_func(x))

an_iterable = data. ##  what should I do here to make it give me one element at a time?
def model1(an_iterable):
 for i in an_iterable:
  do_that(i)

model(an_iterable)
14
pg2455

私はあなたが望むものは toLocalIterator() であると信じています:

17
danf1024