UTF2 による表現は ASCII の上位互換ですので、 0x00-0x7f は ASCII 文字集合に当てはまります。 0x0080 から 0xffff までの文字の多バイトエンコーディングは、 全体が高位ビットがセットされたバイトで構成されています。 実際のエンコーディングは次の表によって表されています:
[0x0000 - 0x007f] [00000000.0bbbbbbb] -> 0bbbbbbb [0x0080 - 0x07ff] [00000bbb.bbbbbbbb] -> 110bbbbb, 10bbbbbb [0x0800 - 0xffff] [bbbbbbbb.bbbbbbbb] -> 1110bbbb, 10bbbbbb, 10bbbbbb
ある値に対して 1 つ以上の表現が存在する場合には (例えば 0x00 と 0xC0 0x80 と 0xE0 0x80 0x80)、 常に最も短い表現が使われます。 (ただし長い表現のものも正しくデコードされるでしょう。)
X-Open は最終的な 3 つのエンコーディングを用意しています:
[00000000.000bbbbb.bbbbbbbb.bbbbbbbb] -> 11110bbb, 10bbbbbb, 10bbbbbb, 10bbbbbb [000000bb.bbbbbbbb.bbbbbbbb.bbbbbbbb] -> 111110bb, 10bbbbbb, 10bbbbbb, 10bbbbbb, 10bbbbbb [0bbbbbbb.bbbbbbbb.bbbbbbbb.bbbbbbbb] -> 1111110b, 10bbbbbb, 10bbbbbb, 10bbbbbb, 10bbbbbb, 10bbbbbb
これらは提案されている完全な ISO-10646 31 bit Standard のために 用意されていますが、現在は実装されていません。