マルチメディア技術

snack
snack

最近では動画を扱うWebコンテンツが増えてきてるっすね。

ボキタロー
ボキタロー

僕もユーチューブはよく見てるよ。犬のペット動画を見て癒されてるんだ。

snack
snack

しかし、音声データ、画像データ、動画データはテキストデータに比べると容量が非常に大きいっすから、そのまま扱うのは難しいんすよ。そこで圧縮という技術が大活躍するっす。

目標・コンピュータにおける文字,音声,画像などの仕組みを理解する。
・情報の圧縮と伸長の特徴を理解する。
説明・情報メディアを活用するために必要なマルチメディア技術によって,コンピュータ上で文字,音声,画像などの情報を統合的に扱えるようになったことを理解する。
・代表的なファイル形式の特徴や情報の圧縮・伸長について理解する。
マルチメディア技術の概要

マルチメディア

マルチメディアとは

マルチメディアとは、文字情報に加えて、音声、画像(静止画・動画)などの様々な形態のアナログ情報をデジタル化し、コンピュータ上で統合的に扱うことをいいます。

従来のWebコンテンツではデータのすべてをダウンロードし終えてから再生・表示していましたが、動画や音声などのデータ量が多いコンテンツでは再生までの待ち時間が長くなるといった問題があったため、以前のWebコンテンツは文字と静止画(写真、イラストなど)だけのものが一般的でした。

しかし、近年では通信の高速化やインターネット技術の発展によって、すべてのダウンロードが完了するのを待たずに、一部をダウンロードした段階から順次再生を開始するストリーミングという技術が普及することにより、動画(YouTube動画、埋め込みムービー、ライブ配信など)や音声(BGM、音声ナビなど)を取り入れたものが中心になってきています。

DRM(デジタル著作権管理)

DRM(Digital Rights Management:デジタル著作権管理)とは、音楽・映画・電子書籍・ソフトウェアなどのデジタルコンテンツの著作権を守るための技術や仕組みのことで、著作権侵害を防止するため、再生や使用に制限をかけることをいいます。

代表的なDRM技術にCPRM(Content Protection for Recordable Media)があります。CPRMは主にDVDやSDカードなどの記録メディアに保存されたデジタルコンテンツをコピー・再生制限するための著作権保護技術で、録画番組などの「1回だけ録画可能」なコンテンツに使われたり、CPRM対応の機器でしか再生・コピーできないなどの特徴があります。

さらっと学習【ハイパーメディア】

ハイパーメディアとは、テキストだけでなく、画像・音・動画など様々な種類の情報がリンクでつながっているメディアをいいます。例えば、Webサイト(ニュース、ブログ、学習サイトなど)、YouTubeの動画(説明文にリンク、画像、動画がある)、オンライン学習教材(音声解説+図+動画+リンク)などが該当します。

情報の圧縮と伸長

データ圧縮

マルチメディアファイルで扱う音声データ、静止画データ、動画データはデータ容量が非常に大きいため、データ保存やネットワーク負荷の軽減を目的として、情報メディアの種類に応じた圧縮・伸長(解凍)方法が利用されています。

さらっと学習【エンコードとデコード】

元のデータを圧縮された形式に変換することをエンコード、圧縮されたデータを元の形式に戻すことデコードといいます。

データ圧縮とは、データのサイズを小さくする技術や方法のことで、ランレングス法ハフマン法といった方法があります。

ランレングス法

ランレングス法は、連続する同じデータを1つの値とその繰り返し回数で表す方法で、単純な画像(FAX、白黒画像など)や同じ文字の繰り返しが多いデータに効果的です。

(例)1文字8ビットで考えると、

元データ: AAABBAAAAAAC・・・12文字 × 8ビット=96ビット

(Aが3回、Bが2回、Aが6回、Cが1回出現)

→圧縮後: A3B2A6C1 ・・・8文字 × 8ビット = 64ビット

ハフマン法

ハフマン法は、出現頻度の高いデータに短いビット列、低いデータに長いビット列を割り当てる方法です。テキストデータ、音声、画像など、さまざまな形式で使われています。ZIPファイル(複数のファイルやフォルダをまとめて1つに圧縮できるファイル形式)にも使われています。

元データ: AAABBAAAAAAC・・・12文字 × 8ビット=96ビット

①出現頻度を数える
A: 9回、B: 2回、C: 1回

②出現頻度に応じてビットを割り当てる
(例)A → 0(1ビット)、B → 10(2ビット)、C → 11(2ビット)

③元のデータ「AAABBAAAAAAC」をビット列に変換

→圧縮後: 0 0 0 10 10 0 0 0 0 0 0 11 ・・・計 15ビット

可逆圧縮と非可逆圧縮

可逆圧縮は、圧縮前のデータを完全に元に戻せる圧縮方法です。重要な情報を失わずに安全に圧縮できるというメリットがある反面、非可逆圧縮に比べて圧縮率は低い(ファイルサイズが大きくなる)というデメリットがあります。

これに対して非可逆圧縮は、圧縮前のデータを完全には復元できない圧縮方法です。人間にとって目立ちにくい情報を捨てることで高い圧縮率が得られ、ファイルサイズを大幅に小さくすることができますが、情報の一部が失われるため、品質劣化のリスクがあります。

音声処理

PCM(パルス符号変調)

PCM(Pulse Code Modulation:パルス符号変調)は、アナログ信号(たとえば音声)をデジタル信号に変換するための基本的な方法です。音声や音楽などの連続的なアナログ信号をコンピュータやデジタル通信で扱えるようにするために使われます。

「標本化(サンプリング)→量子化→符号化」という基本ステップを踏んでアナログ信号をデジタル信号に変換します。

↓ PCMについてはすでに学習済みなので忘れた人はこちらで復習してください。

主な音声ファイル形式

拡張子説明圧縮形式
MP3音声を圧縮して保存するためのファイル形式で、音楽や音声データの配信・保存に最も広く使われているフォーマットの一つです。WAVなどに比べてファイルサイズは大幅に小さくなります。非可逆圧縮
AACMP3の後継として開発された音声圧縮フォーマットで、より高効率・高音質な圧縮を実現する形式です。非可逆圧縮
WAV音声データを保存するためのファイル形式の一つで、主にWindows環境で広く使われています。非圧縮形式が一般的
さらっと学習【MIDI】

MIDI(Musical Instrument Digital Interface)とは、音声そのものではなく、音楽の演奏情報(どの音を、どの楽器で、どのタイミングで鳴らすか)をデジタルで記録・伝達するための規格です。MIDIはあくまで演奏データ(楽譜のようなもの)なので、再生する環境(ソフト音源、シンセサイザー)によって同じファイルでも全く違う音に聞こえることがあります。

静止画処理

画像表現の基本的な仕組み

コンピュータにおける画像表現の基本的な仕組みは、画像を数値データとして扱うことにあります。これにより、コンピュータは画像を保存、処理、表示できるようになります。

画像はピクセル(画素)と呼ばれる小さな単位の集合で構成されています。各ピクセルは画像内の最小の情報単位であり、通常、特定の色と明るさを表します。1画素あたりのデータ量が1バイト(8ビット)であれば、256(=28)色の表現が可能であり、3バイト(24ビット)であれば約1677万(=224)色を表現することができます。

snack
snack

人間が識別できる色の数は最大で約1000万色といわれてるっす。なので、24ビットカラー (約1677万色)のことを「フルカラー」と言うっすよ。

また、画像の解像度は画像を構成するピクセル数で示されます。例えば「1920×1080」の解像度は、1920ピクセルの横幅と1080ピクセルの縦幅を持つ画像を意味します。

MEMO

色の点が横に1920個、縦に1080個あるというようなイメージです。解像度が高ければ高いほど、より多くのピクセルで構成され、細かいディテールが表現できます。

画像データ形式

コンピュータグラフィックスで使用される画像データ形式は大きく次の2つに分類できます。

ラスタデータ(ビットマップデータ)

ラスタデータは、画像をピクセル(画素)単位で構成する画像データ形式です。各ピクセルは色や明るさなどの情報を持っており、それらが格子状に並んでいます(ビットマップとも呼ばれます)。複雑な画像や色の変化を表現できますが、解像度が固定されているため、拡大や縮小に弱く、ファイルサイズが大きくなることがあります。

ベクタデータ

ベクタデータは、点(座標)、線、曲線、形状などの数式によって画像を表現する形式です。図形やパスの集合で構成されており、解像度に依存しません。サイズ変更をしても画質が保持されますが、描画時に演算が発生するため、描画処理の負担が大きくなります。

主な静止画ファイル形式

拡張子説明圧縮形式
GIF最大256色(8ビットカラー)の色数を持つ静止画またはアニメーション形式の画像ファイルです。静止画もアニメも対応しており、1色だけ透過可能です。可逆圧縮
PNG主に高品質の静止画を扱うために設計された画像ファイル形式です。最大約1677万色(24ビットカラー )の表現が可能で、半透明や完全透明も可能ですが、アニメーションは非対応です。可逆圧縮
JPEG約1677万色(24ビットカラー)の表現が可能な静止画像のファイル形式です。圧縮率を調整できるため、サイズを小さくできます。写真やWebなどで広く使われています。非可逆圧縮
BMP約1677万色(24ビットカラー)。元データをそのまま保持するので、画質の劣化はない反面、ファイルサイズは非常に大きくなります。さまざまな色深度に対応しており、Windows環境での画像保存・編集向けです。非圧縮が基本
TIFF非常に高い画質を保つことができる画像フォーマットで、特に印刷業界やスキャンされた画像、写真の保存に広く使用されます。可逆圧縮をサポートしており、画質を損なうことなく圧縮できます。また、圧縮なしでも保存可能です。可逆圧縮
EPS主にベクター画像を保存するために使用されるファイル形式で、画像を拡大・縮小しても画質が劣化しないという特徴があり、特に印刷業界やグラフィックデザインでよく利用されています。基本的に可逆圧縮

動画処理

動画表現の基本的な仕組み

コンピュータにおける動画表現の基本的な仕組みは、静止画像を高速で連続的に表示することにより動きを表現するというもので、原理としてはパラパラ漫画のようなものです。

動画は通常、フレームと呼ばれる静止画像の連続で構成されており、単位時間あたりのフレーム数(フレームレート)が動画の品質に大きく影響します。1秒間に表示されるフレームの数(FPS:Frames Per Second)が多ければ動画が滑らかになりますが、データ量は大きくなります。

MEMO

例えば、1秒あたり24フレームの動画のフレームレートは24FPSと表現します。映画は通常24FPS、テレビは30FPS、アニメーションなどでは60FPSの場合もあります。

主な動画ファイル形式

拡張子説明圧縮形式
MPEG動画や音声の圧縮・エンコードを行うための標準規格です。映像と音声をデジタル形式で保存したり、転送したりするために広く使われています。高解像度映像を扱うために改善された規格で、DVDやデジタルテレビ放送などに使用されるMPEG-2や低ビットレートでも高画質を維持することができ、インターネットストリーミングや携帯端末の動画にも利用されているMPEG-4などのバージョンがあります。非可逆圧縮
AVIMicrosoftが開発した動画ファイル形式の一つで、映像と音声のデータを同時に格納できるコンテナフォーマットです。複数の形式に対応
さらっと学習【ファイルコーデック(ファイル圧縮方式)】

ファイル圧縮方式には、H.264やH.265などの規格が存在します。現在主流のH.264は、従来の方式と比較して同程度の画質であれば、約半分のファイルサイズに圧縮することができます。H.265は4K/8K動画向けで、H.264の約2倍の圧縮効率をもちます。

確認○×問題

問1

動画のデータが全てダウンロードされるのを待たず、一部を読み込んだ段階で再生が始まる技術をストリーミングという。

答え:〇

正しい記述です。

近年では通信の高速化やインターネット技術の発展によって、すべてのダウンロードが完了するのを待たずに、一部をダウンロードした段階から順次再生を開始するストリーミングという技術が普及することにより、動画(YouTube動画、埋め込みムービー、ライブ配信など)や音声(BGM、音声ナビなど)を取り入れたWebコンテンツが中心になってきています。

問2

DVD-RやSDカードなどに採用され、ディジタルコンテンツを記録メディアに一度だけ複製することを許容する著作権保護技術をPCMという。

答え:×

設問の文章はCPRMの説明となります。CPRMは主にDVDやSDカードなどの記録メディアに保存されたデジタルコンテンツをコピー・再生制限するための著作権保護技術で、録画番組などの「1回だけ録画可能」なコンテンツに使われたり、CPRM対応の機器でしか再生・コピーできないなどの特徴があります。

なお、PCM(Pulse Code Modulation:パルス符号変調)は、アナログ信号(たとえば音声)をデジタル信号に変換するための基本的な方法です。音声や音楽などの連続的なアナログ信号をコンピュータやデジタル通信で扱えるようにするために使われます。

問3

出現頻度の高いデータに短いビット列、低いデータに長いビット列を割り当てるデータ圧縮の方法をランレングス法という。

答え:×

設問の文章はハフマン法の説明となります。

ランレングス法は、連続する同じデータを1つの値とその繰り返し回数で表す方法で、単純な画像(FAX、白黒画像など)や同じ文字の繰り返しが多いデータに効果的です。

問4

MIDIは、シンセサイザーなどの電子楽器とPCを接続して演奏情報をやり取りするための規格である。

答え:〇

正しい記述です。MIDI(Musical Instrument Digital Interface)とは、音声そのものではなく、音楽の演奏情報(どの音を、どの楽器で、どのタイミングで鳴らすか)をデジタルで記録・伝達するための規格です。MIDIはあくまで演奏データなので、再生する環境(ソフト音源、シンセサイザー)によって同じファイルでも全く違う音に聞こえることがあります。

問5

JPEGは、イラストなどに使われている、最大表示色が256色である静止画圧縮のファイル形式である。

答え:×

設問の文章はGIFの説明となります。

JPEGは、約1677万色(24ビットカラー)の表現が可能な静止画像のファイル形式です。圧縮率を調整できるため、サイズを小さくできます。写真やWebなどで広く使われています。

問6

拡張子「avi」が付くファイルが扱う対象は動画である。

答え:〇

正しい記述です。AVIは、Microsoftが開発した動画ファイル形式の一つで、映像と音声のデータを同時に格納できるコンテナフォーマットです。

問7

300 x 600ドットで構成され、1画素の情報を記録するのに24ビットを使用する画像データがある。これを150 x 300ドットで構成され、1画索の情報を記録するのに8ビットを使用する画像データに変換した。このとき、必要な記憶容量は1/12倍になる。

答え:〇

【元の画像データ】

解像度が「300 x 600ドット」の画面では、総画素数が180,000画素(=縦300 x 横600)となります。また、1画素あたりの情報量が24ビットなので、元の画像データは

180,000画素 x 24ビット=4,320,000ビット

となります。

【変換後の画像データ】

解像度が「150 x 300ドット」の画面では、総画素数が45,000画素(=縦150 x 横300)となります。また、1画素あたりの情報量が8ビットなので、元の画像データは

45,000画素 x 8ビット=360,000ビット

となります。

以上より、元の画像データと変換後の画像データの比は

変換後の画像データ360,000ビット/元の画像データ4,320,000ビット
1/12

となります。