インターネットや企業のデータベースには膨大なデータが眠ってるっす。近年では、それらのデータをいかに分析して利活用できるかが企業の競争を左右するといわれてるっす。
たしかに、データがあっても使い方が分からなかったら宝の持ち腐れだね。
データを用いて経営者の意思決定などを補助する職種、データサイエンティストも最近では注目されてるっすよ。
データの種類
量的データと質的データ
量的データとは、数量として扱い、足し算や引き算といった演算ができるデータです。売上額や利益額などの金額、年齢や身長などの数値、時間、距離などのデータが該当します。
質的データとは、種類を区別するためのデータであり、そのままでは演算に用いることができないデータです。好きな食べ物、趣味、血液型、性別などのデータが該当します。
1 次データと2 次データ
1 次データ(プライマリデータ)とは、アンケート、観察、実験などによって目的のために新たに自分たちで収集したデータです。
2 次データ(セカンダリデータ)とは、他者によって既に収集されていたデータで、官公庁による統計データや研究機関のレポートなどが該当します。社内で過去に収集され、蓄積されている自社の業務データ(売上情報など)も、二次データに分類されます。
構造化データと非構造化データ
構造化データとは、「列」と「行」の概念をもち、表形式で表すことができるデータです。コンピュータが理解できるように作られたデータです。
非構造化データとは、テキスト、画像、動画、音声など人間が見ることで内容を理解できるデータです。そのままではコンピュータが理解することができないデータです。ビッグデータの多くは非構造化データとなります。
従来は、非構造化データはコンピューターで扱うのが難しかったのですが、近年ではAIの発展により、非構造化データもコンピューターで扱えるようになってきています。
メタデータ
データそのものではなく、そのデータが付随して持つ付加的なデータのことをメタデータといいます。データの作成者や最終更新日、タイトル、タグなどが該当します。「データのデータ」と言われることがあります。
ある現象の時間的な変化を連続的に観測し、時間の経過に沿って記録したデータを時系列データといい、日々の気温などの気象データ、売上情報などのデータ、株価やGDPなどの経済指標などが該当します。
時系列データに対して、固定した一定時点で複数の項目を記録したデータをクロスセクションデータといいます。統計データの多くはクロスセクションデータになります。
地理的位置に関する情報を持ったデータ(空間データ)を総合的に管理・加工し、視覚的に表示し、高度な分析や迅速な判断を可能にする技術をGIS(Geographic Information System:地理情報システム)といい、このGISで利用するデータのことをGISデータといいます。
データ分析における統計情報の活用
統計情報を活用するためには、各代表値の性質の違いを理解し、統計情報の誇張表現に惑わされないようにして、データが何を意味するかを適切に把握しなければいけません。
標本抽出(サンプリング)
例えば日本の中学生の平均身長を調べたいと思ったとき、日本中のすべての中学生の身長を調べるのは大変な手間と費用がかかります。このように調査対象のすべてに調査が行えない場合に、対象となる数値や属性などの集合全体(母集団)の一部を標本(サンプル)として抽出し、その標本を分析することによって母集団全体の性質を推定します。このような調査方法を標本抽出(サンプリング)といいます。
仮説検定
仮説検定とは、設定した仮説が正しいか否かを判定するための統計学的な検証手法です。
ちょっとややこしいんで、じっくり読んでくださいっす。
例えば、誰かが54枚のトランプの中から予告したカードを一発で引き当てたとします。このとき、皆さんは次のような仮説を立てたとします。
「これはタネがあるマジックだ。トランプに何らかの細工がしてある。」
しかし、これを直接立証しようとするとトリックを暴く必要があり、容易ではありません。そこで、仮説検定では正しさを主張したい仮説とは逆の仮説を立て、これを否定することで主張の正しさを確率的に立証します。
・正しさを主張したい仮説:トランプには「意味のある差がある」(トランプに何らかの細工がしてある)という仮説でこれを対立仮説といいます。
・逆の仮説:トランプには「意味のある差がない」(トランプには何の細工もされていない)という仮説でこれを帰無仮説といいます。計算の対象となる仮説です。
仮説検定では帰無仮説を否定(棄却)することによって対立仮説が正しいと判断しますが、具体的には「ある事象が起こる確率が偶然ではない」と判断する基準(有意水準)を設けることでこれを検証します。
有意水準は一般的には5%、厳密には1%で設定します。
頭が混乱してきた!「ある」とか「ない」とか!
先ほどのトランプの例で言うと、54枚のトランプの中から予告したカードを引く確率は54分の1(約1.85%)です。
有意水準を5%で設定していた場合
カードを引く確率(約1.85%)は有意水準を下回っているため、帰無仮説は否定されます。つまり、「意味のある差がない(トランプには何の細工もされていない)」という仮説が否定されるということは「意味のある差がある(トランプに何らかの細工がしてある)」と判断します。
有意水準を1%で設定していた場合
カードを引く確率(約1.85%)は有意水準を下回っていないため、帰無仮説が採択されます。つまり、「意味のある差がない(トランプには何の細工もされていない)」と判断します。
ビジネスの世界ではマーケティングなどにおいて、市場で起きている特別な事象について、それを「偶然ではなく何か原因があって、(誤差ではない)意味のある差が発生している」ということを統計的に調査する場合などに使われたりするっすね。
データを得る過程や自分の思い込みなどをから、歪んだ形で認識してしまう偏りが生じることがあります。この偏りのことをバイアスといい、これには主に統計的バイアスと認知バイアスがあります。
母集団の選択ミスや標本の抽出方法の誤り、情報の不完全さなどの理由によって生じるバイアス。対象の選定時に生じる選択バイアス、使用される情報が不完全である場合に生じる情報バイアスなどがあります。
思い込みや先入観によって、物事の判断が非合理的になってしまうバイアス。例えば、命にかかわるような危険が目の前に迫ったときに、自分だけは大丈夫だと思い込む心理現象(正常性バイアス)などがあります。
データサイエンス、ビッグデータ分析
BI(Business Intelligence)
企業などのデータを収集・蓄積・分析・報告することにより経営上の意思決定に役立てる手法や技術のことをBI(Business Intelligence:ビジネスインテリジェンス)といいます。
一般的なデータ管理・処理ソフトウェアで扱うことが困難なほど巨大で複雑なデジタルデータの集合のことをビッグデータといいます。ビッグデータの多くは非構造化データであるため、従来はコンピューターで扱うのが難しいとされていました。しかし近年ではAIの発達によって、ビッグデータもコンピューター上で扱えるようになってきています。
そのため、インターネットなどにあふれている膨大なデータをいかに経営に役立てていくかというBIの重要性が非常に高まっており、その能力を持った人材の獲得・育成が企業の課題となっています。
経営の意思決定を支援するために、企業内の様々なシステムなどからデータを取得し、目的別に編成された時系列データの集まりをデータウェアハウスといいます。通常のデータベースとは異なり、過去のデータと現在を比較できるようにするため、データの削除や更新はされません。
データサイエンス
データサイエンスとは、統計学などを用いてデータを分析し、有益な情報や関連性、法則性などの新たな知見を引き出そうとする学問や研究のことです。また、データサイエンスを用いて経営の手助けをする職種をデータサイエンティストといいます。
データサイエンティストは統計学だけでなく、数学、情報科学、アルゴリズム、IT、マーケティングなど幅広い知識が求められます。
最近では、データサイエンティストを育成するための学部を創設する大学も増えてるっすよね。
データマイニング
データマイニングとは、大量のデータに対し、統計学、パターン認識、人工知能等のデータ解析の技法を用いることによって、規則性や関係性などの新たな知見を導き出す技術のことです。
データマイニングの中でも、文字列を対象としたデータマイニングであるテキストマイニングが注目されています。AIの発達によって、インターネット上などにある大量の文章から文字列の出現の頻度や相関、出現傾向などを分析し、有用な情報を取り出すことができるようになりました。
確認○×問題
官公庁による統計データや社内で蓄積されている自社の業務データはプライマリデータである。
答え:×
官公庁による統計データや社内で蓄積されている自社の業務データは2 次データ(セカンダリデータ)です。1 次データ(プライマリデータ)とは、アンケート、観察、実験などによって目的のために新たに自分たちで収集したデータです。
テキスト、画像、動画、音声など人間が見ることで内容を理解できるデータを構造化データという。
答え:×
設問のような人間が見ることで内容を理解できるデータは非構造化データです。構造化データとは、表形式で表すことができるデータで、コンピュータが理解できるように作られたデータです。
固定した一定時点で複数の項目を記録したデータをメタデータという。
答え:×
メタデータとは、データそのものではなく、そのデータが付随して持つ付加的なデータ(作成者、最終更新日、タイトル、タグなど)のことをいいます。なお、固定した一定時点で複数の項目を記録したデータをクロスセクションデータといいます。
統計では一般に、調査対象のすべてに調査が行えない場合、対象となる数値や属性などの集合全体の一部を標本とし、その標本を分析することによって母集団全体の性質を明らかにする。
答え:〇
調査対象のすべてに調査が行えない場合には、対象となる数値や属性などの集合全体(母集団)の一部を標本(サンプル)とし、その標本を分析することによって母集団全体の性質を明らかにします。このような調査方法を標本抽出(サンプリング)といいます。
対立仮説を否定することで、帰無仮説の正しさを明確にする統計学的な検証手法を仮説検定という。
答え:×
仮設検定では、帰無仮説を否定することによって対立仮説(正しさを主張したい仮説)の妥当性を判断します。
企業が保有する膨大なデータを高速に検索できるように、パフォーマンスの高いデータベースを運用するためのシステム基盤を構築することは、データサイエンティストの役割の1つである。
(出典:令和6年度春期分 問26 一部改変)
答え:×
データサイエンティストは、統計学などを用いてデータを分析し、有益な情報や関連性、法則性などの新たな知見を引き出して、経営の手助けをする職種です。システム基盤を構築することはデータサイエンティストの役割ではありません。
データマイニングとは、データベースに蓄積されている大量のデータを、統計やパターン認識などの手法を用いて分析することにより、新たな知見や法則性や関係性を導き出す手法である。
答え:〇
設問のとおりです。