ウィキから、
データリネージは、データの起源とデータが時間とともに移動する場所を含むデータライフサイクルとして定義されます。さまざまなプロセスを経てデータがどうなるかを説明しています。分析パイプラインの可視性を提供し、ソースへのエラーのトレースを簡素化します。
データの出所は、対象のデータに影響を与える入力、エンティティ、システム、およびプロセスを文書化し、事実上、データとその起源の履歴記録を提供します。
両方の概念がデータの出所について話しているように見えますが、私はまだ違いについて混乱しています。両方の概念は同じですか?それらが異なる場合、誰かが例を共有できますか?
おかげで、
私たちの経験から、データの出所にはビジネスユーザー向けのシステムの高レベルのビューのみが含まれているため、データの出所を大まかにナビゲートできます。さまざまなモデリングツールまたは単純なカスタムテーブルとチャートで提供されます。 データ系統はより具体的な用語であり、ビジネス(データ)系統と技術(データ)系統の2つの側面が含まれます。ビジネス系統の画像データはビジネス用語レベルで流れ、Collibra、Alationなどの多くのソリューションによって提供されます。技術データ系統は、実際の技術メタデータから作成され、実際のテーブル、スクリプト、ステートメントなどの最下位レベルのデータフローを追跡します。技術データの系統は、MANTAやInformatica Metadata Managerなどのソリューションによって提供されています。
データ起源は、
データ系統(系図、その旅の歴史、どこから始めたのか、どのように生まれたのか、時間の経過とともにどのように変化したのか、どこにいたのか、移動したシステム、損失または利益)(つまり、データ指向、メタデータ)
[〜#〜] plus [〜#〜]
データを再現するために使用できる、データに影響を与えた(つまり、プロセス指向の)入力、エンティティ、システム、およびプロセス。
出典に関するウィキペディアの記事のこのセクションを参照してください: https://en.wikipedia.org/wiki/Provenance#Science 。産地に関する学術および産業界のコレクションにリンクしています。
簡潔にあなたの質問に答えるには:一般的に、データ系統およびデータ起源。特定のコンテキスト内で、特定の、場合によっては異なる定義を検索または作成できます。
データ起源はデータ用語の起点であり、データ系統は起点からシステム内の現在の観測点までの完全なデータ変換の旅です。