ヒストグラムの例。アメリカで1973年から1978年にかけて事故死した人数を月毎に集計したもの。横軸は各月に事故死した人数を500人毎に区切った階級を、縦軸は各階級に属する月の数(=度数)を表している。ヒストグラムからは(a)ひと月に事故死する人数の平均はおよそ8500人前後であること、(b)ひと月に事故死する人数は6500-11500人であること、(c)分布はおよそ対称であること、などが読み取れる。
ヒストグラム (英語 : histogram [ 1] )とは、縦軸に度数、横軸に階級をとった統計グラフ の一種で、データの分布状況を視覚的に認識するために主に統計学 や数学 、画像処理 等で用いられる。柱状図 、柱状グラフ 、度数分布 図 ともいう[ 1] 。
工業 分野では、パレート図 、チェックシート 、管理図 、特性要因図 、層別法 、散布図 と並んで、品質管理 のためのQC七つ道具 として知られている。
語源
histogram (ヒストグラム)の語源は、定かではないが、古代ギリシャ語 で「なにかを直立にする」(帆船 のマスト 、織機 のバー、ヒストグラムの縦棒など)という意味の ἱστός (istos 、イストス)と、「描いたり、記録したり、書いたりすること」という意味の γράμμα (gramma 、グラマ)を合わせた用語だといわれている。この用語は、イギリス の統計学者 カール・ピアソン が1891年 に historical diagram から創案したともいわれている。
定義
日本工業規格 JIS Z 8101-1:2015 (国際規格 ISO 3534-1:2006 と同等)の「1.61 ヒストグラム」では、次のとおりに規定している。
底辺の長さが級の幅(1.58)に等しく,その面積が級の度数に比例する近接する長方形からなる度数分布(1.60)のグラフ表現。
注記 1 級の幅が不均一な場合には,注意が必要である。級の幅が不均一な場合には,級の面積を級の度数に比例させるとよい。
注記 2 全ての級の幅を等しくし,長方形の高さを級の度数に比例させるのが一般的である。
同じデータから作られた一般的なヒストグラム(左)と累積度数図。このデータは平均 0、標準偏差 1 の正規分布 から無作為に選んだ 10,000 点のサンプルを示している。
ヒストグラム
ヒストグラム は、各々が互いに素 である区間・階級(カテゴリ 、これをビン (bins ) という。ヒストグラムのグラフの柱 (棒 )のこと)に分類できる、観察結果の数を図にしたもの。計算する関数 mi である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある(後述)。基準点も0を含む場合には0を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 n とすべての階級の数 k 、ヒストグラム mi を与えて、これらには以下の式の関係が成り立つ。
n
=
∑
i
=
1
k
m
i
.
{\displaystyle n=\sum _{i=1}^{k}{m_{i}}.}
累積度数図
累積度数図(英 : cumulative histogram )は、特定の階級までのすべての階級に含む観察結果の累積数を記入する。累積度数関数と Mi はヒストグラム関数 mj を用いて以下の式のように定義 できる。
M
i
=
∑
j
=
1
i
m
j
.
{\displaystyle M_{i}=\sum _{j=1}^{i}{m_{j}}.}
なお、累積度数(cumulative frequency)を日本工業規格では、「ある値以下の観測値の度数または相対度数」と定義している。
具体例
ウィキペディア日本語版 の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである[ 6] 。
日
閲覧回数
日
閲覧回数
1
78
16
625
2
126
17
606
3
156
18
483
4
231
19
377
5
215
20
370
6
304
21
587
7
484
22
667
8
544
23
643
9
566
24
756
10
545
25
505
11
478
26
436
12
258
27
399
13
225
28
611
14
373
29
679
15
620
30
575
31
565
[表の見方] 11 の欄が 478 となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が 478 回であったことを意味する。
図1.ウィキペディア日本語版の記事「ヒストグラム」の2013年1月における閲覧回数から作成されたヒストグラム
これを集計すると、次のようになる。上述の通り、階級の数と幅の設定には諸説あるが、ここでは階級の数を 8、幅を 100 とした。
閲覧回数
その回数を記録した日数
0 - 99
1
100 - 199
2
200 - 299
4
300 - 399
5
400 - 499
4
500 - 599
7
600 - 699
7
700 - 799
1
[表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。
したがって、これをヒストグラムにすると、図1のようになる。
階級の個数と幅
階級の個数についての最良の値はなく、階級の大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適な階級の個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまな階級幅が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある[ 7] 。
階級の幅 h は、直接的に与えられるか、下で示される階級の個数 k から次式で与えられる。
h
=
⌈
max
x
−
min
x
k
⌉
.
{\displaystyle h=\left\lceil {\frac {\max x-\min x}{k}}\right\rceil .}
上式の大括弧は天井関数 を示す。
平方根選択(英 : Square-root choice )
k
=
n
,
{\displaystyle k={\sqrt {n}},\,}
標本中のデータ数の平方根 をとるものである[ 8] 。
スタージェスの公式(英 : Sturges' formula )
k
=
⌈
log
2
n
+
1
⌉
,
{\displaystyle k=\lceil \log _{2}n+1\rceil ,\,}
この式は階級の大きさに暗黙の仮定を置いている。そのため、n < 30 (階級数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。
スコットの選択(英 : Scott's choice )
h
=
3.5
σ
n
1
/
3
,
{\displaystyle h={\frac {3.5\,\sigma }{n^{1/3}}},}
ここで σ は標本 の標準偏差 である。
フリードマン・ダイアコニスの選択 (英 : Freedman–Diaconis' choice )[ 11]
h
=
2
IQR
(
x
)
n
1
/
3
,
{\displaystyle h=2\,{\frac {\operatorname {IQR} (x)}{n^{1/3}}},}
IQR で示される四分位範囲 に基づく。
L 2 危険関数 推定の最小化に基づく選択
a
r
g
m
i
n
h
2
m
¯
−
v
h
2
{\displaystyle {\underset {h}{\operatorname {arg\,min} }}{\frac {2\,{\bar {m}}-v}{h^{2}}}}
ここで m と v は、階級の幅が h であるヒストグラムの平均値および標本分散である。つまり、m = 1 / k ∑k i = 1 mi であり、v = 1 / k ∑k i = 1 (mi − m )2 である。
種類
次の4種類に分けられる。
U字型分布
均一分布
山型分布
歪曲分布 次の2種類に分類できる。
左歪曲分布
右歪曲分布
以下の項目を例を用いて説明する。
U字型分布
最初の区間から徐々に下がっていき、中間(ほとんどの場合)で最小となり、再び上がっていく。このようなヒストグラムをU字型分布 (U-shaped distribution) という。
階級の数を 10、幅を 10 とする。
点数
この点数をとった学生の数
0.5-10.5
10
10.5-21.5
8
21.5-31.5
6
31.5-41.5
4
41.5-51.5
2
51.5-61.5
0
61.5-71.5
2
71.5-81.5
4
81.5-91.5
6
91.5-101.5
8
均一分布
すべての区間の数が等しいとき、または、近いとき(だいたい差が 2 以下)、このヒストグラムを均一分布 (uniform distribution) という。一様分布 ともいう。次の 2 種類に分類できる。
連続一様分布 (Continuous uniform distribution )
離散一様分布 (Discrete uniform distibution )
山型分布
中央区間が最大になっているヒストグラムを山型分布 (mound-shaped distribution) という。
歪曲分布
スケートボード場のような屈曲した形の分布を歪曲分布 (skewed distribution) という。左 から下がっていくのを右 歪曲分布 (right-skewed distribution) 、右 へ上がっていくのを左 歪曲分布 (left-skewed sidtribution) という。
脚注
参考文献
日本工業標準調査会『JIS Z 8101-1:2015 統計 — 用語及び記号 — 第1部:一般統計用語及び確率で用いられる用語 』日本規格協会、2015年10月20日。http://kikakurui.com/z8/Z8101-1-2015-01.html 。2018年12月24日閲覧 。
西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社 、2013年。ISBN 9784274214073 。
日本数学会 『数学辞典』岩波書店 、2007年。ISBN 9784000803090 。
伏見康治 『確率論及統計論 』河出書房 、1942年。ISBN 9784874720127 。http://ebsa.ism.ac.jp/ebooks/ebook/204 。
文部省 編『学術用語集 数学編』大日本図書 、1954年。ISBN 4-477-00170-3 。http://sciterm.nii.ac.jp/cgi-bin/reference.cgi 。 [リンク切れ ]
Magnello, M. Eileen (2006-12). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician” . The New Zealand Journal for the History and Philosophy of Science and Technology 1 . ISSN 1177-1380 . http://www.rutherfordjournal.org/article010107.html .
Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer . ISBN 978-0-387-95457-8
Sturges, H. A. (1926). “The choice of a class interval” . J. American Statistical Association : 65–66. https://www.jstor.org/stable/2965501 .
Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi :10.1093/biomet/66.3.605 .
Scott, David W. (1992). Multivariate density estimation. Theory, practice, and visualization (Second ed.). John Wiley & Sons. ISBN 978-0-471-69755-8 . MR 3329609 . https://books.google.co.jp/books?id=XZ03BwAAQBAJ&pg=PA51 . "3. Histograms: theory and practice"
Freedman, D.; Diaconis, P. (1981). “On the histogram as a density estimator: L 2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi :10.1007/BF01025868 .
Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram” . Neural Computation 19 (6): 1503–1527. doi :10.1162/neco.2007.19.6.1503 . PMID 17444758 . http://www.mitpressjournals.org/doi/abs/10.1162/neco.2007.19.6.1503 .
坂元慶行、石黒真木夫、北川源四郎、『情報量統計学 (情報科学講座 A・5・4) 』 共立出版 1983/1 ISBN 978-4320021716
関連項目
外部リンク
ウィキメディア・コモンズには、
ヒストグラム に関連するカテゴリがあります。