応用数学2~統計の概要~

snack
snack

近年ではインターネットの普及やAIの発展によって多くの有用なデータが手に入るようになったっすけど、それらを利活用するためには統計の知識が必要となるっす。

ボキタロー
ボキタロー

ストラテジでもやったけど、これからは上手にデータを利活用できない会社はダメになるって言ってたよね。

snack
snack

そうっすよ。経験や勘のみに頼った経営では太刀打ちできなくなるデータ駆動型社会がまもなくやってくるっす。だから企業はデータサイエンティストの獲得・育成に必死なんすよ。

ボキタロー
ボキタロー

その辺はストラテジで勉強したね。それでここでは統計学を勉強するの?

snack
snack

統計の世界はとても奥が深いっすけど、ITパスポート試験では概要や基本的な用語だけを抑えていれば大丈夫っす。

統計とは

統計とは、集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的・統一的に明らかにすること、または、その結果として得られた数値をいいます。

1変量解析

1つの変数だけを取り上げて解析することを1変量解析といいます。たとえば、あるクラスのある科目のテストの点数など、1要素だけを見て分析を進めることです。ただし、数字だけを見ていてもわかりにくいので、通常はヒストグラムや箱ひげ図で視覚化して分析します。

代表的なものは次の通りです。

【例】

生徒数が7名のクラスのテストの点数が以下の場合

10、20、30、60、70、70、90(合計350)

名称説明
平均値全体の合計をデータ数で割った値。
例)全員の点数の合計(350)÷7人=50点
中央値
(メジアン)
全体のデータを昇順または降順で並べた時の中央の値。
例)点数を低い順に並べたときの4番目の60点。
最頻値
(モード)
全体のデータの中で最も出現頻度が多い値。
例)2回出現する70点。
偏差値と平均値との差。
例)平均が50、値が45の場合は-5、値が53の場合は3。
分散偏差の2乗の平均。マイナスの偏差をプラスにするため2乗します。ばらつきの度合いを表す。
例)(10-50)2+(20-50)2+・・・・/7人=771.42857…
標準偏差分散の正の平方根。ばらつきの度合いを表す。
例)分散が771のとき、標準偏差は√771=27.7668…となります。
偏差値値と平均値との差を、平均を50として表します。
(値-平均値)÷標準偏差×10+50

平均点が50点だとしても、平均点近くに多くの人が密集しているのか、それとも低い点数の人と高い点数の人が両極端になっているのかで、まったくクラスの特徴は変わってきます。そこで、分散や標準偏差を用いてデータのばらつき度合いを表します。

snack
snack

分散や標準偏差が大きいほど、ばらつきの度合いは大きくなるっす。

2変量解析

2つの変数で解析することを2変量解析といいます。たとえば、身長と体重、売上高と気温、などのように1つの対象に2種類のデータがある場合の特性を表します。

代表的なものに、散布図を使った相関分析や回帰分析などがあります。

相関分析

2項目間に相関関係(関連性)があるかを把握します。点が右上がりになっていると「正の相関」、右下がりになっていると「負の相関」、点がバラバラだと「相関なし」ということになります。

散布図

2項目間の関係の強さを表すものを相関係数といいます。1から-1の間で表され、1に近いほど正の相関が強く、 -1に近いほど負の相関が強い関係となります。なお、0は相関関係がない(相関なし)を表します。

回帰分析

点の中心くらいに直線(回帰直線)を引き、それを「Y=aX+b」という一次式で表すことによって、X(図の例では気温)に値を代入することにより、Y(図の例ではアイスの売上)の値を予測します。

回帰分析

正規分布

変数によってある事象が起こる確率が決まる場合、その変数と確率の関係を表したものを確率分布と呼びます。

サイコロを投げる例では、それぞれ1から6までのサイコロの目(変数)に対して1/6という確率が対応しているので、確率分布は次のようになります。

サイコロの目
変数
123456
確率1/61/61/61/61/61/6

代表的な確率分布に正規分布があります。

正規分布とは、データの分布状態をグラフで表したときに左右対称のつりがね型になるような確率分布で、次のような特徴があります。

・平均値±標準偏差の範囲内に約68%のデータが含まれる

・平均値±(標準偏差×2)の範囲内に約95%のデータが含まれる

正規分布

さらっと学習(Bランク)

尺度

統計学における「尺度」は物事を評価するための基準という意味合いで用いられます。尺度には以下の4つの種類があります。

名称説明
名義尺度区別して分類するためのもの(住所、名前、電話番号など)
順序尺度大小関係や順序に意味があるが、その間隔に意味はないもの(何かのランキングなど。例えば1位が2位の2倍何かあるわけではない)
間隔尺度数字の間に等しい距離があり、その間隔に意味があるもの(気温、点数など)
比例尺度間隔と比率に意味があり、ゼロという数字が「何もない」ことを意味するもの(速度、高さ、重量など)

気温の0℃や点数の0点は「ある・存在する」ので間隔尺度、速度の時速0kmや重量の0kgは「何もない・存在しない」ので比例尺度となります。

グラフ理論

「つながり方」に着目して抽象化された、頂点(ノード)とそれらを結ぶ辺(エッジ)の概念がグラフであり、グラフがもつ様々な性質を探求するのがグラフ理論です。

つながり方だけではなく「どちらからどちらにつながっているか」をも問題にする場合、エッジに矢印をつけます。このようなグラフを有向グラフ、矢印のないグラフを無向グラフといいます。

グラフ理論
snack
snack

マネジメント系で学習したアローダイアグラム(PERT)も、この理論を用いた有向グラフの一種であるといえるっすね。

待ち行列理論

顧客がサービスを受けるため行列に並ぶように、システムの混雑現象を数理モデルを用いて解析することを目的とした理論を待ち行列理論といいます。

待ち行列理論

例えば、レジに並んで順番を待っている場合、混み具合や処理スピードによってどのくらい待つのかが変わってきますが、逆に言うと、混み具合や処理スピードが分かれば待ち時間が分かるという考え方です。

待ち行列理論は、情報通信分野、空港・病院などの設計や性能評価などに応用されています。

最適化問題

与えられた制約条件(ボトルネック)の下で、ある目的関数を最大または最小にすることです。

最小限のコストで最大の輸送量を計画する輸送計画、最小限の投資で最大の利益を得るための経営資源の配分計画などがあります。

参考

いくつかの1次不等式および1次等式を満たす変数の値の中で、ある1次式(目的関数)を最大化または最小化する値を求める方法をLP(Linear Programming:線形計画法)といいます。

確認○×問題

問1

次のデータの平均値は300、中央値は20である。

〔データ〕

10, 20, 20, 20, 40, 50, 100, 440, 2000

答え:×

平均値は、全体の合計をデータ数で割った値です。

(10+20+20+20+40+50+100+440+2000)÷9=300

中央値(メジアン)は、全体のデータを昇順(小さい順)または降順(大きい順)で並べた時の中央の値です。

したがって、左から5番目の40が中央値となります。

なお、「20」はデータの中で最も出現頻度が多い値のため、最頻値(モード)となります。

問2

横軸を点数(0~10点)とし、縦軸を人数とする度数分布のグラフが、次の黒い棒グラフになった場合と、グレーの棒グラフになった場合を考える。2つの棒グラフを比較すると「分散はグレーの棒グラフが、黒の棒グラフより小さい」といえる。

答え:〇

分散は、偏差(値と平均値との差)の2乗を平均したもので、ばらつきの度合いを表します。

図を見ると、グレーの棒グラフは黒の棒グラフに比べて中央付近に集まっているため、ばらつきの度合いが小さいといえます。

問3

受験者10,000人の4教科の試験結果は表のとおりであり、いずれの教科の得点分布も正規分布に従っていたとする。ある受験者の4教科の得点が全て71点であったとき、この受験者が最も高い偏差値を得た教科は数学である。

平均点標準偏差
国語625
社会559
数学586
理科607

答え:〇

偏差値は「(値-平均値)÷標準偏差×10+50」で求めます。

・国語:(71-62)÷5×10+50=68

・社会:(71-55)÷9×10+50≒68

・数学:(71-58)÷6×10+50≒72

・理科:(71-60)÷7×10+50≒66

以上より、この受験者が最も高い偏差値を得た教科は数学となります。

問4

あるデータの分布が正規分布に従っていたとする。このデータの平均値が60、標準偏差が15の場合、30から90の間にデータが存在する確率は約95%である。

答え:〇

正規分布とは、データの分布状態をグラフで表したときに左右対称のつりがね型になるような確率分布で、次のような特徴があります。

・平均値±標準偏差の範囲内に約68%のデータが含まれる

・平均値±(標準偏差×2)の範囲内に約95%のデータが含まれる

平均値が60、標準偏差が15の場合、

平均値60ー(標準偏差15×2)=30

平均値60+(標準偏差15×2)=90

となり、30から90の間にデータが存在する確率は約95%となります。

問5

速度、高さ、重量など、その間隔や比率に意味があり、ゼロという数字が「ない」ことを意味する尺度を間隔尺度という。

答え:×

設問は比例尺度の説明となります。

名称説明
名義尺度区別して分類するためのもの(住所、名前、電話番号など)
順序尺度大小関係や順序に意味があるが、その間隔に意味はないもの(何かのランキングなど。例えば1位が2位の2倍何かあるわけではない)
間隔尺度数字の間に等しい距離があり、その間隔に意味があるもの(気温、点数など)
比例尺度間隔と比率に意味があり、ゼロという数字が「何もない」ことを意味するもの(速度、高さ、重量など)