web-dev-qa-db-ja.com

(棒グラフではなく)ヒストグラムの棒の間にスペースがないのはなぜですか?

ヒストグラムが必要だとしましょう。その日に株の取引が何回起こったかを言ってください。そして、それらはヒストグラム/棒グラフで完全に設定されています。 (他の表現とは対照的に

なぜこのようなヒストグラムが一般的であり、これが常に当てはまるのですか?

enter image description here

このようにする代わりに

enter image description here

**具体的には、1日あたりまたは1か月あたりの株数がどれだけ優れているかを判断する場合。スペースがあるべきだと思いますが、それは本当にビンではないので、まだ疑問があります。 **

ここに私が見つけた記事がありますが、そこにはsigchi以上の記事があるはずです

4
Frank Visaggio

Wikipedia から:

統計では、ヒストグラムはデータの分布をグラフで表したものです。これは、continuous変数の確率分布の推定です。

discrete変数ではなく、continuous変数に重点が置かれます。

ヒストグラム

あなたが提示した一番上のヒストグラムでは、X軸は時間であり、このコンテキストでは連続しています(10分のビンに分割されていますが、元のデータは秒、ミリ秒、ナノ秒などの解像度であった可能性があります)。

そのようなヒストグラムが導き出される方法は、彼らがおそらく多くのサンプルを持っていたということです、例えば50,000訪問訪問時間ごとにバーを表示しても意味がありません-データは役に立たなくなります。たとえば、900人のユーザーが1:42を費やしたとしても、誰も1:41を費やさず、800人がサイトで1:40を費やしたとします。平均ははるかに重要です。したがって、この場合、サンプルは順序付けされ、ビンに平均化されました。指定したグラフでは、各ビンは10分を表します。

X軸は時間なので、ギャップが残っていれば、誰も10〜11分の時間を費やしていない可能性があります。しかし、これは正しくありません。

理論的には、このヒストグラムを棒グラフに置き換えることができます。最初の棒のX値は0〜10分、2番目の棒は10〜20分というようになります。しかし、問題は、あるバーを10分間シールして別のバーを開くことです(これは意味がありません)。したがって、最初のバーの場合は00:00〜10:00分、2番目のバーの場合は10:01-20:00分に変更する必要があります。これは、サンプルが2番目の解像度に達した場合に有効です(そうでない場合は、10:01:01またはあらゆる種類の長い時間形式を使用する必要がある場合があります)。これをヒストグラムで表示する方がはるかに簡単です。

棒グラフ

下のグラフでは、X軸は月です-明らかに離散変数です。

この棒グラフを生成するには、米国への訪問数を毎月数えるだけです。X軸は連続していないため、X軸にスペースを置いても問題はありません。視覚的表現は有効です。

14
Izhaki