web-dev-qa-db-ja.com

Apache Beam python構文を説明する

Beamのドキュメントを読み、Pythonのドキュメントも調べましたが、ほとんどのサンプルApache Beamコードで使用されている構文の適切な説明が見つかりません。

誰かが_|>>以下のコードで行っていますか?また、引用符で囲まれたテキスト、つまり「ReadTrainingData」は意味がありますか、それとも他のラベルと交換できますか?つまり、そのラベルはどのように使用されているのですか?

train_data = pipeline | 'ReadTrainingData' >> _ReadData(training_data)
evaluate_data = pipeline | 'ReadEvalData' >> _ReadData(eval_data)

input_metadata = dataset_metadata.DatasetMetadata(schema=input_schema)

_ = (input_metadata
| 'WriteInputMetadata' >> tft_beam_io.WriteMetadata(
       os.path.join(output_dir, path_constants.RAW_METADATA_DIR),
       pipeline=pipeline))

preprocessing_fn = reddit.make_preprocessing_fn(frequency_threshold)
(train_dataset, train_metadata), transform_fn = (
  (train_data, input_metadata)
  | 'AnalyzeAndTransform' >> tft.AnalyzeAndTransformDataset(
      preprocessing_fn))
34
dobbysock1002

Python=の演算子はオーバーロードされる可能性があります。Beamでは|applyの同義語で、PTransformPCollectionに適用して新しいPCollectionを生成します。 >>を使用すると、さまざまなUIで表示しやすいステップに名前を付けることができます-| そしてその >>は、これらの表示目的およびその特定のアプリケーションを識別するためにのみ使用されます。

https://beam.Apache.org/documentation/programming-guide/#transforms を参照してください

40
rf-