高知大学 共通教育 情報処理
(理学部 対象、担当 塩田)
第3回の教材 (1)
戻る
/
次へ
講義編 : データ量の単位、文字のデジタル表現
□ アナログとデジタル
アナログ:自然にある、連続的な量
デジタル:離散的(不連続)な量。2進数で表すことが多い。
→ 電圧の高低で2進数を表して電気的に処理することができる。
デジタル信号の利点:
雑音に強い
完璧なコピーができる
文字・画像・音声等、異種のデータを統一的に扱うことができる
デジタル信号の難点:
信号処理に時間が掛かるのでタイムラグが不可避
規格がわからないと再生できない
規格・仕様が変わると対応できる機器がなくなる恐れがある
メディアの耐久性がわかっていない
アナログとの共存が大事
□ 2進数・16進数
コンピュータ内部では全てのデータが2進数として表現され処理される。
桁の多い2進数が人間にとって判りにくいとき、16進数を使うことがある。
10,11,...,15 はアラビア数字がないので a,b...,f で代用する。
2進数を4桁ずつ区切ることで16進数に直すことができる。
例
10101101 → 1010 1101 → a d
問題
16進数の ff は10進数ではいくつか?
□ ビット・バイト
1 ビット ( 1 bit ) = 0 か 1 を表す情報の最小単位 ( 1 桁の2進数 )
1 バイト ( 1 B ) = 8 ビット ( 8 桁の2進数 )
1 バイトで表すことのできる情報は、場合の数 2
8
= 256 通り
□ データ・ファイルの単位、記憶容量
データやファイルの大きさはバイトと K, M, G, T で表す。 (ただし、2進数に合わせて
1 キロ = 1024 倍 ( 1024 = 2
10
)
1 メガ = 1024 キロ = 2
20
倍
1 ギガ = 1024 メガ = 2
20
キロ = 2
30
倍
1 テラ = 1024 ギガ = 2
20
メガ = 2
30
キロ = 2
40
倍
が用いられることもあり、日常のキロ・メガ etc. と混在しているのが実情。)
例えば500万画素のデジカメ jpeg 画像の情報量は約 2MB = 2
21
バイト = 2
24
ビット
□ 文字を表す2進数 その1:アスキーコード
アルファベットや数字、キーボードにある基本的な記号には 1バイトの数(コード)が割り当てられている。
→
アスキーコード表
(アスキーコード表作成プログラムは
こちら
)
□ 文字を表す2進数 その2:日本語コード
漢字はたくさんあるので、2バイトの数を割り当てる。
ややこしいことに
、割り当て方の流儀がいくつもあって「文字化け」の原因となっている。
シフトJISコード( Windows 系の処理系でよく使う )
UTF-8コード( Mac 系の処理系でよく使う )
EUCコード( UNIX 系の処理系でよく使う )
例
「塩」はシフトJISコードで(16進数の) 8996、 「田」は 9363、 「研」は 8ca4、 「一」は 88ea。
例
EUCコードで書いた次の文章を
シフトJISコード
や
UTF-8
と思って表示してしまうと ...
土佐の高知の
はりまや橋で
□ 文字の表示:フォント
コンピュータ君は文字も全て数字と思っているが、人間に見せるために「フォント」(=文字の形)を持っている。 ディスプレイ表示や印刷物ではこのフォントを使っている。
テキストファイルは文字コードだけで文章を処理するのでファイルサイズが小さくて済むが、 これを pdf ファイル、ワープロのドキュメント、画像などにしてしまうとファイルサイズが極めて大きくなってしまう。
例
同じ内容でも
テキストファイル
なら 1KB
pdf ファイル
にすると 53KB
ワープロのドキュメント
にすると 24KB
画像ファイル
にすると 140KB
戻る
/
次へ