UTF-32/UCS-4

UTF-32 (ang. 32-bit unicode transformation format) – jeden ze sposobów kodowania znaków standardu Unicode. Sposób ten wymaga użycia 32-bitowych słów. Zestaw znaków jest też zdefiniowany w standardzie ISO 10646 jako UCS-4.

Kody obejmują zakres od 0 do 0x7FFFFFFF. Kod znaku zawsze ma długość 4 bajtów i w zapisie big endian przedstawia po prostu numer znaku w tabeli Unikodu. Możliwa jest również odwrotna kolejność – w zapisie little endian, co nakłada obowiązek używania znacznika kierunku BOM.

Stała długość kodu każdego znaku (w przeciwieństwie do m.in. UTF-8) jest dużą zaletą tego kodowania. Kodowanie to jest jednak bardzo nieefektywne - zakodowane ciągi znaków są dwa do czterech razy dłuższe niż ciągi tych samych znaków zapisanych w innych kodowaniach. Kodowanie to z tego powodu jest zwykle stosowane tylko w pamięci operacyjnej w celu ułatwienia obsługi i przetwarzania (np. obliczenie długości czy wycinanie ciągu znaków jest bardzo proste), na innych nośnikach (takich jak połączenia sieciowe czy dysk twardy) stosuje się zwykle bardziej efektywne UTF-8 lub UTF-16.

W systemach uniksowych kodowanie to jest najczęściej używane do wewnętrznego przechowywania napisów Unicode[1].


From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne