今回学習する内容はコンピューターの処理に関する基本中の基本となる「単位」についてっす。
単位って、m(メートル)とかkg(キログラム)ってやつ?
そうっす。ただし、コンピューターの世界では普段の生活であまりなじみのない単位が出てくるっすよ。
目標 | ・情報量の単位を理解する。 ・情報のデジタル化の基本的な考え方を理解する。 ・AI の技術について基本的な考え方を理解する。 |
説明 | ・コンピュータで扱う数値やデータに関する基礎的な理論を知るため,情報量の表し方,デジタル化の考え方や文字の表現について理解する。 |
情報量の単位
ビットとバイト
コンピューターは基本的に電圧の低い状態と高い状態の2通りしか判断できず、この2つの状態を組み合わせて様々な処理を行いますが、電圧の低い状態を「0」、電圧の高い状態を「1」とし、この2進数で表現した1桁の値のことをビット(bit)と呼びます。
ビット(bit)はデータの最小単位です。
1ビットは「0」か「1」の2通りしか表現できないため、とてもじゃありませんが情報量が足りません。
例えばアルファベットだと「a」と「b」の2文字しか表せないっすね。
そこで、ビットを複数桁組み合わせることで様々な表現を可能にします。
1ビット(1桁):0,1、の2パターン(=21)
2ビット(2桁):00,01,10,11、の4パターン(=22)
3ビット(3桁):000,001,010,011,100,101,110,111、の8パターン(=23)
4ビット(4桁):16パターン(=24)
5ビット(5桁):32パターン(=25)
6ビット(6桁):64パターン(=26)
7ビット(7桁):128パターン(=27)
8ビット(8桁):256パターン(=28)
なお、一般的には8ビットを1つのまとまりとし、標準単位として扱うこととなっています。この単位のことをバイト(Byte)と呼びます。
1バイト(=8ビット):256パターン(=28)
2バイト(=16ビット):65,536パターン(=216)
3バイト(=24ビット):16,777,216パターン(=224)
一般に、ビットは小文字の「b」、バイトは大文字の「B」と省略されます。
なんで、1バイト=8ビットなの?
アルファベットが26文字なので、大文字と小文字、数字、記号などを合わせても8ビット(256パターン)あれば十分足りるということで、これを1つのまとまり(単位)にしたといわれてるっす。
接頭語
データを扱う場合はビットやバイトといった単位を用いますが、情報量や性能を表す際には非常に大きな数字になることがあり、逆に処理速度や転送速度などを表す際には非常に小さな数字になることがあります。
これをわかりやすく、すっきりと表現するために次のような接頭語を用います。
記号 | 読み方 | 説明 |
---|---|---|
P | ペタ | 1,000兆(1015) |
T | テラ | 1兆(1012) |
G | ギガ | 10億(109) |
M | メガ | 100万(106) |
k | キロ | 1,000(103) |
1 | 1 | |
m | ミリ | 1/1,000(10-3) |
μ | マイクロ | 1/100万(10-6) |
n | ナノ | 1/10億(10-9) |
p | ピコ | 1/1兆(10-12) |
10の3乗倍ごとに上がっていき、逆に10の-3乗倍ごとに下がっていくっすね。
大文字の「M」はメガ、小文字の「m」はミリを表します。
デジタル化
アナログとデジタル
連続している表現をアナログ、離散数学(飛び飛びの数字)を用いた表現をデジタルといいます。わかりやすい例で言えば、アナログ時計とデジタル時計の違いがあります。
アナログ時計の針の動きには切れ目がなく連続していますが、デジタル時計の数字は「1,2,3…」と飛び飛びになっています。
他にも、私たちが歌を歌った場合、音程の間には切れ目がありません。また、虹のグラデーションやノートに書いた斜線にも切れ目はなく連続しています。これがアナログです。
しかし、コンピューターは「0」と「1」の2進数を使って情報を処理するため、連続しているアナログ情報をそのまま扱うことはできません。そこで、アナログ情報を2進数のデジタル情報に変換する必要があります。これをデジタル化(A/D変換)といいます。
デジタル化(A/D変換)
代表的な音声データのデジタル化方式として、パルス符号変調(PCM)があります。パルス符号変調では、①標本化(サンプリング)→②量子化→③符号化といった流れでデジタル化の処理を行います。
①標本化(サンプリング)
連続した信号を一定の間隔をおいて測定し、数値化します。なお、1秒あたりのサンプリング回数をサンプリング周波数、サンプリングを行う時間間隔のことをサンプリング周期と呼びます。
サンプリング周波数が高いほど(サンプリング周期が短いほど)、高品質のデータを得ることができますが、その分データ量は増大します。
②量子化
標本化によって得た電気信号を、コンピューターで処理できる近似的な整数に調整します。
量子化の段階数が多いほど、元のアナログ信号の波形に、より近い波形を復元することができます。
③符号化
量子化した信号を一定の規則にもとづいて2進数に変換します。
文字の表現
皆さんがパソコンなどで文字を打ち、それを保存した場合、コンピューター内部ではその文字のままデータを保存しているわけではありません。コンピューターは「0」と「1」の2進数を使って情報を処理しているため、コンピュータの内部では文字を数値で表現しています。そして、それらの数値を文字コード(数値と文字の対応表のようなもの)によって文字に割り当てます。
代表的な文字コードとしては次のようなものがあります。
名称 | 説明 |
---|---|
ASCIIコード | 欧文文字と欧文記号の文字コード。1バイトで1文字を表現します。 |
EUC | Extended Unix Code(拡張UNIX コード)の略で、1 or 2バイトで1文字を表現します。漢字も扱うことができ、Linuxなどでよく使われます。 |
JISコード | 1 or 2バイトで1文字を表現します。代表的なJISコードに、半角英数字は1バイト、日本語は2バイトで表現するシフトJISコードがあります。 |
Unicode | 全ての文字を2バイトで表現します。情報量が多く、1つの文字コード体系で複数言語を表現することが可能です。 |
述語論理
述語論理とは、ざっくりと簡単に言うと「自然言語の文を、記号を用いて論理的に表現すること」です。
演繹(えんえき)推論
複数の前提条件から結論を導く推論方法で、代表的なものに、一般的な大前提(原理など)と個別の小前提(事実など)から結論(事象)を導く三段論法があります。
大前提:犬は動物である。
小前提:ボキタローは犬である。
→結論:ボキタローは動物である。
演繹推論は、前提が正しければ結論も必ず正しくなる推論です。
ぼくは人間だよ?
帰納推論
与えられた個々の事象から因果関係を推論し、一般的原理を導く方法で、予測や仮説を導くのに使われる推論方法です。
(例)事象1:リンゴは甘い、事象2:ミカンは甘い
→結論(推論):(リンゴもミカンも果物であるため)果物は甘い
帰納推論は複数の事象の共通点から結論を導くため、与えられた個々の事象が「真」であったとしても、結論(推論)が必ず「真」になるとは限りません。
たしかに甘くない果物もあるよね。
確認○×問題
RGBの各色の階調を、それぞれ3桁の2進数で表す場合、混色によって表すことができる色は512通りある。
(出典:令和3年度春期分 問66一部改変)
答え:〇
1ビットは、2進数で表現した1桁の値のことで、「0」か「1」の2通りを表せます。これが3桁ある場合(つまり3ビットの場合)は、000,001,010,011,100,101,110,111、の8パターン(=23)を表すことができます。
つまり、R(赤)G(緑)B(青)の各色の階調を8通り(8階調)で表すので、混色によって表すことができる色は、
8通り×8通り×8通り=512通り
となります。
CPUのクロック周波数や通信速度などを表すときに用いられる国際単位系(SI)接頭語に関する記述のうち、適切なものは2つある。
- Gの10の6乗倍は、Tである。
- Mの10の3乗倍は、Gである。
- Mの10の6乗倍は、Gである。
- Tの10の3乗倍は、Gである。
(出典:令和5年度春期分 問96一部改変)
答え:×
記号 | 読み方 | 説明 |
---|---|---|
P | ペタ | 1,000兆(1015) |
T | テラ | 1兆(1012) |
G | ギガ | 10億(109) |
M | メガ | 100万(106) |
k | キロ | 1,000(103) |
上の表を見ると、10の3乗倍ごとに単位が上がっていくことが分かります。
1の記述(誤り):G(ギガ)の10の6乗倍はP(ペタ)となります。T(テラ)はG(ギガ)の10の3乗倍です。
2の記述(正しい):M(メガ)の10の3乗倍はG(ギガ)となります。
3の記述(誤り):M(メガ)の10の6乗倍はT(テラ)となります。
4の記述(誤り):T(テラ)の10の3乗倍はP(ペタ)となります。G(ギガ)はT(テラ)の10の-3乗倍です。
情報を、連続する可変な物理量(長さ、角度、電圧など)で表したものをディジタルデータといい、離散的な数値で表したものをアナログデータという。音楽や楽曲などの配布に利用されるCDは、情報をディジタルデータとして格納する光ディスク媒体の一つである。
(出典:令和3年度春期分 問89一部改変)
答え:×
正しくは次の文章になります。
情報を、連続する可変な物理量(長さ、角度、電圧など)で表したものをアナログデータといい、離散的な数値で表したものをディジタルデータという。音楽や楽曲などの配布に利用されるCDは、情報をディジタルデータとして格納する光ディスク媒体の一つである。
アナログ音声信号をデジタル化する場合、サンプリング周期が長く、量子化の段階数が少ないほど、元のアナログ信号の波形に、より近い波形を復元できる。
(出典:平成21年度春期分 問66一部改変)
答え:×
サンプリング周期とは、サンプリングを行う時間間隔のことで、これが短い(つまり、サンプリング周波数が大きい)ほど、また、量子化の段階数は多いほど、高品質のデータを得ることができますが、その分データ量は増大します。
よって、正しい文章は次のようになります。
アナログ音声信号をデジタル化する場合、サンプリング周期が短く、量子化の段階数が多いほど、元のアナログ信号の波形に、より近い波形を復元できる。
世界の主要な言語で使われている文字を一つの文字コード体系で取り扱うための規格はASCIIコードである。
(出典:平成25年度春期分 問78一部改変)
答え:×
設問はUnicodeの説明となります。なお、ASCIIコードは欧文文字と欧文記号の文字コードで、1バイトで1文字を表現します。
帰納推論は個々の事例を基にして、事例に共通する規則を得る方法であり、得られた規則は成立しないことがある。
(出典:令和4年度春期分 問57一部改変)
答え:〇
設問の通りです。帰納推論は複数の事象の共通点から結論を導くため、与えられた個々の事象が「真」であったとしても、結論(推論)が必ず「真」になるとは限りません。
なお、演繹推論は複数の前提条件から結論を導く推論方法で、前提が正しければ結論も必ず正しくなります。