第10回の教材(1)   講義編 音声・画像情報の量子化

周波数

 まずは、周波数を理解してください。
  • 1秒間の基本波形の個数を周波数と言います。
  • 基本波形1個分の時間を周期と言います。
すなわち
周波数 = ( 1秒間の基本波形の個数 ) = 1 / 周期
となります。

音の周波数

  • 周波数が小さい音ほど低く聞こえます。太鼓は大きい程ゆっくり振動するので周波数は小さく音は低くなる、といった具合です。
  • 音楽の基礎知識として
    • 人間の可聴域 : 20 ~ 20000 Hz
    • ハ長調のラ : 440 Hz ( A4 )
    • グランドピアノの音域 : 27.5 ~ 4186 Hz ( A0 ~ C8 )
    • ギターの音域 : 82 ~ 1319 Hz ( E2 ~ E6 )
    • 1オクターヴで周波数比は2倍になります。
  • 周波数比が単純な整数比になると心地よく聴こえ、その状態を「ハモる」と言います。
    • 半音3つ : 5対6
    • 半音4つ : 4対5
    • 半音5つ : 3対4
    • 半音7つ : 2対3 など
    ドミソの和音は周波数比で言うと 4:5:6 です。短調のラドミは 10:12:15 です。
  • ハモる音を配置してゆくと1オクターヴに12個の半音が入ります。 ただ、完全に均等に音を配置すると半音の周波数比は
    $\sqrt[12]{2} = 1.059463\cdots$
    という無理数になるので、そこは上手に調律します(いろんな調律法があります)。
  • ギターのフレームの幅が公比 $\sqrt[12]{2}$ の等比数列になっているのもこの理由からです。
  • 参考:

ちなみに電磁波の周波数は

  • AMラジオ : 531 ~ 1612 kHz
  • FMラジオ : 76 ~ 90 MHz
  • 赤外線 : 3 ~ 400 THz
  • 可視光 : 400 ~ 750 THz (低:赤 ~ 高:紫)
  • 紫外線 : 800 ~ 3万 THz
  • X線 : 3万 ~ 3百万 THz
  • ガンマ線 : 3百万 THz ~

音声情報の量子化

  • 量子化の方法
    1. 音声波形のグラフを棒グラフで近似します。
    2. 棒グラフの高さを2進数で表します。

  • たとえばCDの音声信号は、左右それぞれ
    • 1秒間を44100個に刻んだ棒グラフ(標本化周波数 44.1kHz)に直し、
    • 棒グラフの高さを 65536 = 216 段階(量子化ビット数 16bit)で表します。
    さらに誤り訂正ビットや、タイミングを取るためのビットを付加して記録されています。
  • 標本化定理 再現可能な音の周波数の最大値 =(標本化周波数 ÷ 2)
    CD なら理論上 22050 Hz までの音が記録できていることになります。

  • CD の音は劣化しないと言われますが、量子化の時点で微細な情報が全て失われていますし、 耳では聴こえないが体で感じている低い音・高い音は記録されていません。 デジタルの時代にはライブ演奏こそ価値があると言えましょう。

静止画像の量子化

  • 量子化の方法
    1. 画像を細かい格子(画素、ピクセル)に区切ります。
    2. 各ピクセルの色を、光の三原色:赤(R)・緑(G)・青(B) に分解し、 その明るさを2進数で表わします。 (ディスプレイでは光の三原色を使うのに対し、印刷では色の三原色:シアン(C)・マゼンダ(M)・イエロー(Y) を使います。)

  • パソコン画面(フルカラー 16,777,216色)の例:
    • 解像度 1920×1080 = 2,073,600 ピクセルの場合、 赤(R)・緑(G)・青(B) の明るさはそれぞれ $256 = 2^8$ 段階で表し、 データ量は合計で約 6MB になります。

  • このままではデータ量が膨大なので、 保存するときには gif, jpg(jpeg), png などの規格に従ってデータ圧縮することが多いです。
    • サンプル画像
    • jpg は離散コサイン変換を用います。
      • 色情報を三角関数で級数展開し、 理論的には無限級数なのですが、 画質設定に応じて有限個の項だけを記録します。
      • 元のビットマップには完全には戻りません(非可逆圧縮と言います)。
      • 従って、jpg 保存するのは画像の加工が終わってからがいいです。
    • gif は使う色を 256 色に限定します。
      • 可逆圧縮とは言え、256 色の状態までしか戻りません。

動画の圧縮方法

  • 例えば映画の DVD は ...
    • 1秒24フレーム
    • 解像度 = 720×480 ピクセル
    • jpeg 画像で全てのフレームを記録するには、120分で
           約 200KB×24×60×120 = 約35GB
      が必要になり、このままでは 4.7GB の DVD に入りません。

  • 圧縮のアイデア
    • ほとんどのフレームは直前のフレームと似ていて、
    • 場面転換(や、早い動き)のときだけ直前のフレームと大きく異なります
    そこで場面転換以外では「直前のフレームとの差分」を記録しています。