web-dev-qa-db-ja.com

中央値、モード、パーセンタイル、およびOLAP

私は頭をOLAPに巻き込もうとしている初心者ですが、いくつか質問があります。

  • 質問1: OLAP=キューブは中央値、モード、パーセンタイルを格納できますか?
  • 質問2:ユーザー作成のMDXクエリは行レベルのデータの概要を返すことができますか? (例:%トランザクション> $ 100)。または、キューブデザイナーはこれをキューブに追加する必要がありますか?
  • 質問3:ありますかOLAP製品は行レベルのデータにアクセスするためのメカニズムを提供するようになりましたか?どれですか?

当社のIT部門は、特定のMS Analsis Services ROLAPキューブで発生している問題の種類に関するフィードバックを求めています。その背後にあるリレーショナルデータベースへのアクセス権がないため、現在キューブ内のメジャーとして使用できない計算を実行する必要があります。

私にこの権利があるかどうか見てみましょう。

  1. キューブは、カウント、平均、比率、標準偏差の統計を提供できます。
  2. キューブデザイナが提供するメジャーで特定の統計情報が提供されていない場合、MDXクエリを記述してそれを取得できますか?または、行レベルのデータからキューブを事前計算するためにキューブを変更する必要がありますか?
  3. キューブは、中央値、モード、パーセンタイルなどの統計を提供できません。これらの統計は適切に集計されないためです。

私はリーランドウィルキンソンのThe Grammar of Graphicsを読んでおり、データマイニングとOLAPに関する彼の章で、

これらの[キューブ操作]は、カウント、平均、比率、標準偏差などの統計でうまく機能します。サブクラスの単純な集計は、合計、二乗和、および線形関数で組み合わせて基本的な要約統計量を生成する他の項を操作することで計算できます。

これらの統計の集計はそれらの集計の統計ではないため、中央値、モード、パーセンタイルなどの統計では正しく機能しません。たとえば、中央値の中央値は、集計の中央値ではありません。

彼はさらに続けます:

しかし、最近、より洗練されたROLAPモデルが登場しました。いくつかのテクノロジーを通じて、統計アルゴリズムがリレーショナルモデルを通じて生データにリアルタイムでアクセスできるようにすることが可能です。このアプローチは、データキューブなどの構造によって提供される固定集計よりも有望です。

このアーキテクチャの最もエレガントな形式では、アプリケーションはリモート接続を要求して、データ処理方法に関する情報を提供し、返された情報に応じて適切なアクションを実行できます。この形式では、コンポーネントアーキテクチャは、分散コンピューティングの真の期待、つまりサイト、オペレーティングシステム、または言語に依存しない設計と実行を実現できます。

それは2005年頃に書かれました。行レベルのデータアクセスを可能にするためにこの方法論を採用している製品を知っている人はいますか?

9
Tommy O'Dell

質問に順番に答えるには:

  1. キューブは中央値、モード(または平均値)を格納しませんが、それらを計算し、計算されたメジャーとしてキューブに埋め込むクエリを作成できます。この種の計算を埋め込む機能は、OLAPテクノロジーの主な独自のセールスポイントの1つです。
  2. 個々の行を識別できるディメンション(ファクトテーブルの識別子から派生した縮退または「ファクト」ディメンションである可能性があります)がある場合、個々の行に基づいてクエリを実行できます。ただし、OLAPはディメンションと集計の観点から機能するため、(1つの値で構成される集計で)個々の行を識別できるディメンションが必要です。
  3. 任意のOLAPツールは、(2)で説明されていることを実行できます。さらに、それらは一般に 'drill-through' と呼ばれるメカニズムをサポートし、キューブはドリルスルーする特定のスライスの基になるトランザクションデータ。

キューブスクリプトで直接使用できない計算を実行する場合は、多くのOLAP遅れて嘆かれるProClarityなどのツールを使用して、カスタムMDXベースの計算を含むクエリを作成できます。キューブには、実際の計算に必要な情報がありません。カスタムMDX計算は、必要な計算をサポートできる必要があります。

OLAPクエリは伝統的に統計クエリに集約的に関連付けられていますが、詳細にドリルダウンできるディメンションがある場合、中央値、百分位数、またはヒストグラムクエリを計算するクエリを公式化することは確かに可能です。どのモードから推測または計算できるか。

たとえば、これは、ランキングに基づく パレート分析 クエリの例です。

多くのキューブ製品は、ハイブリッドモードまたはリレーショナルモードで動作できます。OLAPモードでは、データ自体は保持されませんが、基になるデータベースからデータをクエリします。さらに、Business Objects、Report Builderなどの純粋なROLAPツールまたはDiscovererは、基礎となるデータベースからクエリを実行し、行ごとに作業を行うことができます。ただし、専用のOLAP製品の洗練度に欠ける傾向があり、統計分析の方法があまりありません。すぐに使える機能。