Unicode

Unicode je medzinárodný štandard kódovania znakov (písmen, číslic, atď) v počítači. Na rozdiel od predchádzajúcich štandardov sa Unicode snaží zahrnúť znaky v každej známej abecede. Vďaka tomu možno v jednom textovom dokumente zapísať texty z rôznych jazykov používajúcich rôzne písma.

Postup pri premene znaku na postupnosť bajtov má dva kroky. V prvom kroku sa znaku priradí nejaké prirodzené číslo. Názov "Unicode" označuje tento prvý krok. V druhom kroku sa prirodzené číslo zapíše ako postupnosť bajtov. Existuje viacero možných kódovaní, napríklad "UTF-8" a "UTF-16".

Slovenská abeceda v Unicode

Písmená "dz", "dž" a "ch" nemajú v Unicode osobitný kód; zapisujú sa ako dvojica písmen.

 dechexUTF-8
Aa 65 97 41 61 41 61
Áá193225 c1 e1c3 81c3 a1
Ää196228 c4 e4c3 84c3 a4
Bb 66 98 42 62 42 62
Cc 67 99 43 63 43 63
Čč26826910c10d4c 8c4c 8d
Dd 68100 44 64 44 64
Ďď 6810010e10fc4 8ec4 8f
Ee 69101 45 65 45 65
Éé201233 c9 e9c3 89c3 a9
Ff 70102 46 66 46 66
Gg 71103 47 67 47 67
Hh 72104 48 68 48 68
Ii 73105 49 69 49 69
Íí205237 cd edc3 8dc3 ad
Jj 74106 4a 6a 4a 6a
Kk 75107 4b 6b 4b 6b
Ll 76108 4c 6c 4c 6c
Ĺĺ31331413913ac4 b9c4 ba
Ľľ31731813d13ec4 bdc4 be
Mm 77109 4d 6d 4d 6d
Nn 78110 4e 6e 4e 6e
Ňň327328147148c5 87c5 88
Oo 79111 4f 6f 4f 6f
Óó211243 d3 f3c3 93c3 b3
Ôô212244 d4 f4c3 94c3 b4
Pp 80112 50 70 50 70
Qq 81113 51 71 51 71
Rr 82114 52 72 52 72
Ŕŕ340341154155c5 94c5 95
Ss 83115 53 73 53 73
Šš352353160161c5 a0c5 a1
Tt 84116 54 74 54 74
Ťť356357164165c5 a4c5 a5
Uu 85117 55 75 55 75
Úú218250 da fac3 9ac3 ba
Vv 86118 56 76 56 76
Ww 87119 57 77 57 77
Xx 88120 58 78 58 78
Yy 89121 59 79 59 79
Ýý221253 dd fdc3 9dc3 bd
Zz 90122 5a 7a 5a 7a
Žž38138217d17ec5 bdc5 be

Kódová oblasť "Basic Latin":

  0123 4567 89ab cdef
40  ABC DEFG HIJK LMNO
50 PQRS TUVW XYZ      
60  abc defg hijk lmno
70 pqrs tuvw xyz      

Kódová oblasť "Latin 1":

  0123 4567 89ab cdef
c0  Á   Ä     É    Í  
d0    Ó Ô      Ú   Ý  
e0  á   ä     é    í  
f0    ó ô      ú   ý  

Kódová oblasť "Latin Extended A":

  0123 4567 89ab cdef
100                ČčĎď
110                    
120                    
130            Ĺĺ   Ľľ 
140         Ň ň        
150      Ŕŕ            
160 Šš   Ťť            
170                 Žž 

Kódy písmen po sebe síce nenasledujú v abecednom poradí, ale to nevadí. Nie je možné vytvoriť univerzálne poradie písmen, ktoré by vyhovovalo všetkým abecedám. Ak má počítačový program zoradiť slová podľa abecedy, potrebuje poznať abecedu daného jazyka, a potom usporiada slová podľa daného poradia písmen, nie podľa ich kódov.

UTF-8

Kódovanie UTF-8 zakóduje každý znak Unicode premenlivým počtom bajtov. Znaky s číslami od 0 do 127 sa kódujú ako jeden bajt:

0gfedcba -> 0gfedcba

Znaky s číslami od 128 do 2047 sa kódujú ako dva bajty:

00000kji hgfedcba -> 110kjihg 10fedcba

Znaky s číslami od 2048 do 65535 sa kódujú ako tri bajty:

ponmlkji hgfedcba -> 1110ponm 10lkjihg 10fedcba

Znaky s číslami od 65536 do 1114111 (maximum v Unicode) sa kódujú ako štyri bajty:

000utsrq ponmlkji hgfedcba -> 11110uts 10rqponm 10lkjihg 10fedcba


Google