UTF-8とUTF-16の違い | 仕組み解説

UTF-8とUTF-16は、Unicodeのコードポイントを実際のデータとして表すためのエンコーディングです。

一言でいうと

UTF-8はWebやファイル保存で広く使われ、UTF-16はJavaScript文字列の内部表現を理解する時に重要です。

同じUnicode code pointをUTF-8では1〜4 bytes、UTF-16では1〜2個の16-bit code unitsで表す違いを比較する図

UTF-8は、Unicodeの文字を1〜4バイトで表します。

英数字は1バイトで表せるため、英語中心のデータでは効率がよいです。現代のWebページ、JSON、ソースコード、API通信ではUTF-8がよく使われます。

<meta charset="UTF-8">

HTMLでは、文字化けを避けるためにUTF-8指定を明確にしておくのが基本です。

UTF-16は、Unicodeの文字を16ビット単位で表します。多くの日本語は1つの16ビット単位で表せますが、絵文字など一部の文字は2つの16ビット単位を使います。

JavaScriptの length や charCodeAt() は、このUTF-16コード単位に強く関係します。

console.log("あ".length); // 1
console.log("😀".length); // 2

UTF-16で1つのコードポイントを2つのコード単位で表す組み合わせを、サロゲートペアと呼びます。

const emoji = "😀";

console.log(emoji.length); // 2
console.log(emoji.charCodeAt(0).toString(16));
console.log(emoji.charCodeAt(1).toString(16));

見た目は1文字でも、内部では2つに分かれることがあります。

ファイルや通信ではUTF-8、JavaScript内部の文字列操作ではUTF-16を意識します。

UTF-8はWebやファイル保存でよく使われるエンコーディングで、UTF-16はJavaScriptの文字列操作を理解する時に重要です。文字化けを防ぐにはUTF-8、length や charCodeAt() の挙動を読むにはUTF-16を意識します。