文字コードについて

コンピュータの中の情報はすべて数字で保持しているので「文字」情報もコンピュータの中では「数字」であらわされています。01なら「あ」02なら「い」とかそんな感じです。この文字と数字の対応付けのルールのことを「文字コード」といいます。 文字にはアルファベット、数字、漢字、ひらがな、カタカナ、各国特有の文字もたくさんありそれらの文字と数字の対応付けも膨大な量があります。また、コンピュータができた始めのころにいろいろな文字コードがあちこちで決められたことによって、世界中にいくつかの文字コードができました。

このように、文字コードにいくつかの種類ができたことによって、データの文字コードとそれを開く側のアプリが期待する文字コードが異なると正しく表示できないという状況になります。これがよく言われる「文字化け」というやつです。

文字コードには、ASCII、JIS、SHIFT-JIS、EUC-JP、UTF-8などがあります(他にもあります)。

ASCIIはアルファベットと数字のみで、漢字やひらがな、カタカナには対応していません。

JIS、SHIFT-JIS、EUC-JPは日本で作られた文字コードで漢字やひらがな、カタカナにも対応してます。

そこで世界共通の文字コードが必要だということで、Unicodeという文字コードができました。

UTF-8はUnicodeの中のひとつで、現在はこれが主流の文字コードとなっています。

ちなみに、Windowsの標準の文字コードはSHIFT-JISで、現在ではこれが文字化けの原因として嫌われるようになりました。

webサイトを制作する時には、UTF-8を使うと良いでしょう。

参考記事

【超基本】文字コードについてざっくり理解 #初心者 - Qiita