文字
文字コード: 文字を表す二進数。
- 対象: 「文字」
一般に以下の3つの条件を満たす文字は同じ文字とみなして、同じ文字コードを割り当てる。
- 同じ読みを持っている。
- 同じ意味を持っている。
- 同じ起源を持っている。
字体: 文字の図形的特徴。刀と刃の違いなど
- 異体字: 相互に置換が可能な複数の字体。隣と鄰など
- 包摂(ほうせつ): 異体字などに同じ文字コードを割り当てること
- 目的: 文書のなかでの文字の指定、検索、など
- 方法: 現在標準的に使われている文字の表現方法
(より詳しい説明)
- JIS [ 1b 24 42 3e 70 4a 73 1b 28 42 ] ([]内は「情報」という文字をその文字コードで表現したもの)
- (日本語)シフトJIS [ 8f ee 95 f1 ]
- 日本語EUC [ be f0 ca f3 ]
- Unicode(UTF-8) [ e6 83 85 e5 a0 b1 ]
特殊な"文字"もある。
以下は文字コードでは表さない。
- フォント: 字形、活字。Finder → Application(アプリケーション) → Font Book
- ポイント: 出版で使われる大きさの単位。1ポイントは1/72インチ。
練習1:この授業ページの文字コードはなにか?
練習2:自分の名前の文字コードを調べよ。(ヒント:文字コードの調べ方)
UTF-8、シフトJIS、JISで調べよ。cc
練習3:
Unicodeという文字コードでは、日本語の「机」(desk)と中国語の「机」(機の簡体字)に同じ文字コードが割り当てられているという。
これで困ることはないのだろうか?
練習4:
PCによって使える文字に違いがあるだろうか?
機種依存文字というキーワードで検索してみよう。
練習5:
携帯電話の絵文字はどのように扱われているのだろうか?
可能なら携帯電話からECCSのメールアドレスにEメールを送って調べてみよ。
練習7:
日本語シフトJISや日本語EUCがあるのに、日本語Unicodeや中国語Unicodeはなぜないのか?
練習8:
日本語と中国語の対訳を作りたい。どの文字コードが使えるか?
yamaguch@mail.ecc.u-tokyo.ac.jp
Copyright 2012 Kazunori Yamaguchi 山口和紀@東京大学総合文化研究科