Beamのドキュメントを読み、Pythonのドキュメントも調べましたが、ほとんどのサンプルApache Beamコードで使用されている構文の適切な説明が見つかりません。
誰かが_
、|
、>>
以下のコードで行っていますか?また、引用符で囲まれたテキスト、つまり「ReadTrainingData」は意味がありますか、それとも他のラベルと交換できますか?つまり、そのラベルはどのように使用されているのですか?
train_data = pipeline | 'ReadTrainingData' >> _ReadData(training_data)
evaluate_data = pipeline | 'ReadEvalData' >> _ReadData(eval_data)
input_metadata = dataset_metadata.DatasetMetadata(schema=input_schema)
_ = (input_metadata
| 'WriteInputMetadata' >> tft_beam_io.WriteMetadata(
os.path.join(output_dir, path_constants.RAW_METADATA_DIR),
pipeline=pipeline))
preprocessing_fn = reddit.make_preprocessing_fn(frequency_threshold)
(train_dataset, train_metadata), transform_fn = (
(train_data, input_metadata)
| 'AnalyzeAndTransform' >> tft.AnalyzeAndTransformDataset(
preprocessing_fn))
Python=の演算子はオーバーロードされる可能性があります。Beamでは|
はapply
の同義語で、PTransform
をPCollection
に適用して新しいPCollection
を生成します。 >>
を使用すると、さまざまなUIで表示しやすいステップに名前を付けることができます-|
そしてその >>
は、これらの表示目的およびその特定のアプリケーションを識別するためにのみ使用されます。
https://beam.Apache.org/documentation/programming-guide/#transforms を参照してください