コードページ

コードページは、1つ以上の言語スクリプトをサポートするキャラクタセットを格納しているテーブルです。キーボードのキーが押されると、コンピュータはそのキー入力を表す数値コードを受け取ります。コードページには、このような数値コードが格納されています。多くのパソコンのオペレーティングシステムでは複数のコードページがサポートされており、コードページ間を切り替えることができます。

たとえば、DOSの場合は、英語、フランス語、ドイツ語などのローマ英数字に対してコードページ437を使用しますが、ポルトガル語に対してはコードページ850が必要です。DOSコードページ850 (ポルトガル語)では、f (フラン)の記号が削除され、O (鋭アクセント符号)が挿入されています。同じ言語でも、対応するコードページは、コンピュータのオペレーティングシステムごとに異なります。たとえば、DOSでは英語に対してコードページ437が使用されますが、Windows* 95ではコードページ1252が使用されます。

シングルバイトのコードページでは、大文字、小文字、数字、句読点、およびキーボード上のすべての数学記号を、256コード以内で表します。

しかし、あらゆる言語で使用されているすべての文字や記号を記述するには、256コードでは足りません。中国語、日本語、韓国語など、英字以外の言語では数千もの文字が使用されており、ダブルバイトコードページが必要です。

シングルバイトとダブルバイトのコードページの違いによって、通常、表示に関して問題が生じます。たとえば、日本でWindows 95を使って作成した文書は、おそらくコードページ932で作成されています。この文書を、米国でコードページ1252を使用しているWindows 95コンピュータで表示しても、同じようには表示されません。認識できない文字は、ハート形などの記号に置き換えられます。以前は、置き換えられたこのような文字が原因で、Novell eDirectoryなどのデータベースがオブジェクトを認識できませんでした。

このような問題を解決するために、Unicode*と呼ばれる規格が導入されました。


Unicodeを使用する

UnicodeはUnicode Consortiumによって定義された16ビットで文字を表す規格であり、最高で65,536文字をサポートできます。Unicodeを使用すると、複数の言語の文字を、Unicode規格だけで表現できます。

使用しているコードページで理解できない文字は、[00FF]のように、Unicode文字の4桁の16進数値に置き換えられ、角かっこで囲まれて表示されます。

eDirectoryはUnicodeをサポートするので、置き換えられた文字によって、eDirectoryがオブジェクトを認識できなくなることはありません。たとえば、会社のヨーロッパ支店が、西ヨーロッパの財務を表す部門オブジェクトを作成したものとします。DOSコードページ852を使用して、一般通貨記号がオブジェクト名の一部に設定されています(OU=[curren]W-Euro)。

このオブジェクトを、米国でDOSコードページ437またはWindows 95コードページ1252を使ってアクセスすると、通貨記号([curren])は、この記号を表すUnicode値とそれを囲む角かっこ、つまり[00A4]に置き換えられます。eDirectoryはUnicode値を認識するので、そのままオブジェクトを開き、アクセスできます。

ただし、角かっことUnicode値が含まれるオブジェクト名は、ユーザにとっては理解しづらいものです。名前が難しすぎて理解できない場合、唯一の解決法は、オブジェクトを作成するときに使用したコードページを判断し、そのコードページを使ってオブジェクトを表示することです。コードページの変更は厄介です。ガイドラインについては、「コードページの変更」を参照してください。

次の表は、Unicode値の範囲、各範囲の説明、および文字を正しく表示するために使用するコードページのリストです。ただし、推奨されるコードページの1つに切り替えても、正しい結果が表示されることが保証されているわけではありません。たとえば、日本、中国、および韓国では、4E00-9FFF (漢字)の範囲にある文字が使用されています。しかし、コードページ932 (日本語)に切り替えても、中国でのみ使用されている文字は正しく表示されません。

最も確実に文字を決定するには、Unicode Standard Version 2.0を参照します。詳細については、UnicodeのWebサイトを参照してください。Webサイトには、Unicode文字のチャートも含まれています。


表: 1. Unicode範囲、説明、およびコードページ

Unicode範囲 説明 地域 Windowsコードページ DOSコードページ

0080 - 00FF

拡張ラテン文字

西ヨーロッパ

 

437、850、860、863、865

0100 - 01FF

拡張ラテン文字

中央ヨーロッパ

1250, 1257

852, 775

0300 - 03FF

ギリシャ文字

ギリシャ

1253

737

0400 - 04FF

キリル文字

ロシア

1251

855, 866

0590 - 05FF

ヘブライ文字

イスラエル

1255

862

0600 - 06FF

アラビア文字

中東

1256

864

2500 - 26FF

線画およびグラフィックス

なし

なし

大部分のDOSコードページ

4E00 - 95FF

漢字

極東

932, 936, 949, 950

932, 936, 949, 950

AC00 - D7FF

ハングル文字

韓国

949

949

FE70 - FEFF

アラビア表示形

中東

なし

864

FF00 - FFEF

全角および半角

極東

932, 936, 949, 950

932, 936, 949, 950



|