計算機内部では文字も2進数(整数値)として表されているのはご存知の通り. この文字と整数値の対応の規則を「文字コード体系」と呼ぶ.
ところが, やっかいなことに, 日本語の文字コード体系はひとつではないのである. まだ当分はこれらが統一されるとは考えにくいので, われわれはそれらとつき合っていく必要がある. 現在の日本で使われている, 日本語の文字コード体系は以下の4種である:
ファイルに使われている文字コード系が, アプリケーションのコード系と一致していなかったとき, 何が起こるだろうか. ファイルのなかで特定の文字(たとえば「あ」)を表すコードは, 別のコード系においては全く違う文字を表すことになる. したがって, そのようなファイルを表示した場合, 意図とは全くことなる文字が並ぶことになる. これがいわゆる「文字化け」という現象で, 文字コード系の知識がないと解決のできない問題である.
単にテキストファイルを作成して表示するだけなら, ターミナルとエディタのコード系が一致していればそれでよい. しかし, 今回は, C言語のコンパイラ (cc コマンドで起動されるもの)という 第三の登場人物がいる. しかも, 面倒なことに, ccコマンド はプログラムの文字コードとして, EUC または UTF-8 を利用しなければならないのだ. たとえば以下のような謎のプログラムを, いろいろの文字コードで作成し, cc コマンドでコンパイルしてみると, JIS, SJIS の場合には妙なエラーが発生してしまう. (無理にやってみる必要はないが…)
#include <stdio.h> int main(){ printf("あ"); printf("ソ"); }
というわけで, この授業では, 利用する文字コード系を EUC とすることに 決めた. 以下のページに, 各種アプリケーションの文字コードを設定する方法を まとめておくので, これにしたがって設定変更をしてもらいたい.