2008年05月16日 ウイグル文字とutf-8
_ ウイグル文字でhtml
今週はウイグル語というよりウイグル文字の勉強をした。目的は、homepageのどこかを見れば分かるでしょうが。ウイグル文字はアラビア文字系で、右から左に読む。htmlでは、utf-8を使うのが良いのだろうということで、<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">として、コードは
ھىدروگېنというように記述した。ちなみに、上の文字列は水素です。文字はアルファベットと対応がつけられているようなので、この変換スクリプトをrubyで書いて、いろいろ変換して表示させていくうちに、なんとなくは読めるようになってきた。 そうしているうちに気づいたのだが、ややこしいことに、前後の文字とのつながり方によって、文字の形が変わってしまいます。時には、元の文字が分からないぐらいに。ただ文字を並べるだけで、表示が変わるので、書くときにはそれほど意識する必要はないのだが、フォントはどんなしくみでこれを実現しているのだろう。しかし、困ったことに、いくつかの文字では、このつながったときに形が変わるべきなのに、変わらないということが起きている。おそらくこれは、アラビア語には無い文字の場合に、そのような処理が行われていないのではと予想しているが、確証は無い。ウイグル語のフォントも見付けたのだが、インストールするべきか迷っている。