日本語の文字コードについて

前回ちょっと混乱した「日本語の文字コード」についての補足.

計算機内部では文字も2進数(整数値)として表されているのはご存知の通り. この文字と整数値の対応の規則を「文字コード体系」と呼ぶ.

ところが, やっかいなことに, 日本語の文字コード体系はひとつではないのである. まだ当分はこれらが統一されるとは考えにくいので, われわれはそれらとつき合っていく必要がある. 現在の日本で使われている, 日本語の文字コード体系は以下の4種である:

JIS
MS漢字
マイクロソフト社が定めたコード体系. Shift JIS とか SJIS ともいう. Windows や MacOS が標準で使っているのはこれ.
EUC
おもに Unix 系で使われている.
UTF-8
ユニコードともいう. もっとも新しく制定されたコード体系. 全世界の文字をひとつのコード体系で表現しようという趣旨で, 次第に使われ始めている.

テキストファイルを作成するアプリケーション(たとえばテキストエディット, emacs)や, 表示するアプリケーション(たとえばターミナル)は, これらの複数のコード体系のうち, どれを使うかを決めておかないといけない. MacOS は, SJIS を標準のコードとしている.

ファイルに使われている文字コード系が, アプリケーションのコード系と一致していなかったとき, 何が起こるだろうか. ファイルのなかで特定の文字(たとえば「あ」)を表すコードは, 別のコード系においては全く違う文字を表すことになる. したがって, そのようなファイルを表示した場合, 意図とは全くことなる文字が並ぶことになる. これがいわゆる「文字化け」という現象で, 文字コード系の知識がないと解決のできない問題である.

単にテキストファイルを作成して表示するだけなら, ターミナルとエディタのコード系が一致していればそれでよい. しかし, 今回は, C言語のコンパイラ (cc コマンドで起動されるもの)という第三の登場人物がいる. しかも, 面倒なことに, ccコマンドはプログラムの文字コードとして, EUC または UTF-8 を利用しなければならないのだ. たとえば以下のような謎のプログラムを, いろいろの文字コードで作成し, cc コマンドでコンパイルしてみると, JIS, SJIS の場合には妙なエラーが発生してしまう. (無理にやってみる必要はないが…)

#include <stdio.h>

int main(){
  printf("あ");
  printf("ソ");
}

というわけで, この授業では, 利用する文字コード系を EUC とすることに決めた. 以下のページに, 各種アプリケーションの文字コードを設定する方法をまとめておくので, これにしたがって設定変更をしてもらいたい.

[page 2] prev index next