情報に関する理論1~情報量の単位・デジタル化・文字表現・ 述語論理~

snack
snack

今回学習する内容はコンピューターの処理に関する基本中の基本となる「単位」についてっす。

ボキタロー
ボキタロー

単位って、m(メートル)とかkg(キログラム)ってやつ?

snack
snack

そうっす。ただし、コンピューターの世界では普段の生活であまりなじみのない単位が出てくるっすよ。

目標・情報量の単位を理解する。
・情報のデジタル化の基本的な考え方を理解する。
・AI の技術について基本的な考え方を理解する。
説明・コンピュータで扱う数値やデータに関する基礎的な理論を知るため,情報量の表し方,デジタル化の考え方や文字の表現について理解する。
情報に関する理論の概要

情報量の単位

ビットとバイト

コンピューターは基本的に電圧の低い状態と高い状態の2通りしか判断できず、この2つの状態を組み合わせて様々な処理を行いますが、電圧の低い状態を「0」、電圧の高い状態を「1」とし、この2進数で表現した1桁の値のことをビット(bit)と呼びます。

ビット(bit)はデータの最小単位です。

1ビットは「0」か「1」の2通りしか表現できないため、とてもじゃありませんが情報量が足りません。

snack
snack

例えばアルファベットだと「a」と「b」の2文字しか表せないっすね。

そこで、ビットを複数桁組み合わせることで様々な表現を可能にします。

1ビット(1桁):0,1、の2パターン(=21

2ビット(2桁):00,01,10,11、の4パターン(=22

3ビット(3桁):000,001,010,011,100,101,110,111、の8パターン(=23

4ビット(4桁):16パターン(=24

5ビット(5桁):32パターン(=25

6ビット(6桁):64パターン(=26

7ビット(7桁):128パターン(=27

8ビット(8桁):256パターン(=28

ビットとバイト

なお、一般的には8ビットを1つのまとまりとし、標準単位として扱うこととなっています。この単位のことをバイト(Byte)と呼びます。

1バイト(=8ビット):256パターン(=28

2バイト(=16ビット):65,536パターン(=216

3バイト(=24ビット):16,777,216パターン(=224

一般に、ビットは小文字の「b」、バイトは大文字の「B」と省略されます。

ボキタロー
ボキタロー

なんで、1バイト=8ビットなの?

snack
snack

アルファベットが26文字なので、大文字と小文字、数字、記号などを合わせても8ビット(256パターン)あれば十分足りるということで、これを1つのまとまり(単位)にしたといわれてるっす。

参考

アルファベットの場合は1バイト(256パターン)あれば十分足りますが、日本語はひらがな、カタカナ、漢字などがあるため、1バイトでは到底足りません。そこで、日本語は1文字2バイト(65,536パターン)で表現されます

接頭語

データを扱う場合はビットやバイトといった単位を用いますが、情報量や性能を表す際には非常に大きな数字になることがあり、逆に処理速度や転送速度などを表す際には非常に小さな数字になることがあります。

これをわかりやすく、すっきりと表現するために次のような接頭語を用います。

記号読み方説明
Pペタ1,000兆(1015
Tテラ1兆(1012
Gギガ10億(109
Mメガ100万(106
kキロ1,000(103
11
mミリ1/1,000(10-3
μマイクロ1/100万(10-6
nナノ1/10億(10-9
pピコ1/1兆(10-12
snack
snack

10の3乗倍ごとに上がっていき、逆に10の-3乗倍ごとに下がっていくっすね。

大文字の「M」はメガ、小文字の「m」はミリを表します。

デジタル化

アナログとデジタル

連続している表現をアナログ、離散数学(飛び飛びの数字)を用いた表現をデジタルといいます。わかりやすい例で言えば、アナログ時計とデジタル時計の違いがあります。

アナログとデジタル

アナログ時計の針の動きには切れ目がなく連続していますが、デジタル時計の数字は「1,2,3…」と飛び飛びになっています

他にも、私たちが歌を歌った場合、音程の間には切れ目がありません。また、虹のグラデーションやノートに書いた斜線にも切れ目はなく連続しています。これがアナログです。

しかし、コンピューターは「0」と「1」の2進数を使って情報を処理するため、連続しているアナログ情報をそのまま扱うことはできません。そこで、アナログ情報を2進数のデジタル情報に変換する必要があります。これをデジタル化(A/D変換)といいます。

 デジタル化(A/D変換)

代表的な音声データのデジタル化方式として、パルス符号変調(PCM)があります。パルス符号変調では、①標本化(サンプリング)②量子化③符号化といった流れでデジタル化の処理を行います。

①標本化(サンプリング)

連続した信号を一定の間隔をおいて測定し、数値化します。なお、1秒あたりのサンプリング回数をサンプリング周波数、サンプリングを行う時間間隔のことをサンプリング周期と呼びます。

標本化(サンプリング)

サンプリング周波数が高いほど(サンプリング周期が短いほど)、高品質のデータを得ることができますが、その分データ量は増大します。

②量子化

標本化によって得た電気信号を、コンピューターで処理できる近似的な整数に調整します。

量子化

量子化の段階数が多いほど、元のアナログ信号の波形に、より近い波形を復元することができます。

③符号化

量子化した信号を一定の規則にもとづいて2進数に変換します。

符号化

文字の表現

皆さんがパソコンなどで文字を打ち、それを保存した場合、コンピューター内部ではその文字のままデータを保存しているわけではありません。コンピューターは「0」と「1」の2進数を使って情報を処理しているため、コンピュータの内部では文字を数値で表現しています。そして、それらの数値を文字コード(数値と文字の対応表のようなもの)によって文字に割り当てます。

代表的な文字コードとしては次のようなものがあります。

名称説明
ASCIIコード欧文文字と欧文記号の文字コード。1バイトで1文字を表現します。
EUCExtended Unix Code(拡張UNIX コード)の略で、1 or 2バイトで1文字を表現します。漢字も扱うことができ、Linuxなどでよく使われます。
JISコード1 or 2バイトで1文字を表現します。代表的なJISコードに、半角英数字は1バイト、日本語は2バイトで表現するシフトJISコードがあります。
Unicode全ての文字を2バイトで表現します。情報量が多く、1つの文字コード体系で複数言語を表現することが可能です。

 述語論理

 述語論理とは、ざっくりと簡単に言うと「自然言語の文を、記号を用いて論理的に表現すること」です。

演繹(えんえき)推論

複数の前提条件から結論を導く推論方法で、代表的なものに、一般的な大前提(原理など)と個別の小前提(事実など)から結論(事象)を導く三段論法があります。

三段論法の例

大前提:犬は動物である。

小前提:ボキタローは犬である。

→結論:ボキタローは動物である。

演繹推論は、前提が正しければ結論も必ず正しくなる推論です。

ボキタロー
ボキタロー

ぼくは人間だよ?

帰納推論

与えられた個々の事象から因果関係を推論し、一般的原理を導く方法で、予測や仮説を導くのに使われる推論方法です。

(例)事象1:リンゴは甘い、事象2:ミカンは甘い

→結論(推論):(リンゴもミカンも果物であるため)果物は甘い

帰納推論は複数の事象の共通点から結論を導くため、与えられた個々の事象が「真」であったとしても、結論(推論)が必ず「真」になるとは限りません

ボキタロー
ボキタロー

たしかに甘くない果物もあるよね。

確認○×問題

問1

RGBの各色の階調を、それぞれ3桁の2進数で表す場合、混色によって表すことができる色は512通りある。

答え:〇

1ビットは、2進数で表現した1桁の値のことで、「0」か「1」の2通りを表せます。これが3桁ある場合(つまり3ビットの場合)は、000,001,010,011,100,101,110,111、の8パターン(=23)を表すことができます。

つまり、R(赤)G(緑)B(青)の各色の階調を8通り(8階調)で表すので、混色によって表すことができる色は、

8通り×8通り×8通り=512通り

となります。

問2

CPUのクロック周波数や通信速度などを表すときに用いられる国際単位系(SI)接頭語に関する記述のうち、適切なものは2つある。

  1. Gの10の6乗倍は、Tである。
  2. Mの10の3乗倍は、Gである。
  3. Mの10の6乗倍は、Gである。
  4. Tの10の3乗倍は、Gである。

答え:×

記号読み方説明
Pペタ1,000兆(1015
Tテラ1兆(1012
Gギガ10億(109
Mメガ100万(106
kキロ1,000(103

上の表を見ると、10の3乗倍ごとに単位が上がっていくことが分かります。

1の記述(誤り):G(ギガ)の10の6乗倍はP(ペタ)となります。T(テラ)はG(ギガ)の10の3乗倍です。

2の記述(正しい):M(メガ)の10の3乗倍はG(ギガ)となります。

3の記述(誤り):M(メガ)の10の6乗倍はT(テラ)となります。

4の記述(誤り):T(テラ)の10の3乗倍はP(ペタ)となります。G(ギガ)はT(テラ)の10の-3乗倍です。

問3

情報を、連続する可変な物理量(長さ、角度、電圧など)で表したものをディジタルデータといい、離散的な数値で表したものをアナログデータという。音楽や楽曲などの配布に利用されるCDは、情報をディジタルデータとして格納する光ディスク媒体の一つである。

答え:×

正しくは次の文章になります。

情報を、連続する可変な物理量(長さ、角度、電圧など)で表したものをアナログデータといい、離散的な数値で表したものをディジタルデータという。音楽や楽曲などの配布に利用されるCDは、情報をディジタルデータとして格納する光ディスク媒体の一つである。

問4

アナログ音声信号をデジタル化する場合、サンプリング周期が長く、量子化の段階数が少ないほど、元のアナログ信号の波形に、より近い波形を復元できる。

答え:×

サンプリング周期とは、サンプリングを行う時間間隔のことで、これが短い(つまり、サンプリング周波数が大きい)ほど、また、量子化の段階数は多いほど、高品質のデータを得ることができますが、その分データ量は増大します。

よって、正しい文章は次のようになります。

アナログ音声信号をデジタル化する場合、サンプリング周期が短く、量子化の段階数が多いほど、元のアナログ信号の波形に、より近い波形を復元できる。

問5

世界の主要な言語で使われている文字を一つの文字コード体系で取り扱うための規格はASCIIコードである。

答え:×

設問はUnicodeの説明となります。なお、ASCIIコードは欧文文字と欧文記号の文字コードで、1バイトで1文字を表現します。

問6

帰納推論は個々の事例を基にして、事例に共通する規則を得る方法であり、得られた規則は成立しないことがある。

答え:〇

設問の通りです。帰納推論は複数の事象の共通点から結論を導くため、与えられた個々の事象が「真」であったとしても、結論(推論)が必ず「真」になるとは限りません。

なお、演繹推論は複数の前提条件から結論を導く推論方法で、前提が正しければ結論も必ず正しくなります。