Унікод: Розніца паміж версіямі

[недагледжаная версія][недагледжаная версія]
Змесціва выдалена Змесціва дададзена
др clean up, replaced: ымбаля → імвала (9), = Вонкавыя спасылкі = → = Спасылкі =, га алфавіту → га алфавіта, ня → не , вэрс → верс (4), Зья using AWB
Радок 1:
'''Юніко́д''' ({{lang-en|Unicode|скарочана}}) — стандарт кадаваннякадзіравання сымбалаўсімвалаў, які дазваляе адлюстраваць літары і знакі амаль усіх пісьмовых моваўмоў.<ref name="techin">[http://www.unicode.org/standard/principles.html The Unicode® Standard: A Technical Introduction] {{ref-en}}</ref>
 
Стандарт быў прапанаваны ў [[1991]] годзе некамэрцыйнайнекамерцыйнай арганізацыяй «КансорцыюмКансорцыум Юнікоду» ({{lang-en|Unicode Consortium, Unicode Inc.|скарочана}}).<ref name="history">[http://www.unicode.org/history/publicationdates.html History of Unicode Release and Publication Dates] {{ref-en}}</ref><ref name="consort">[http://www.unicode.org/consortium/consort.html The Unicode Consortium] {{ref-en}}</ref> Выкарыстанне гэтага стандарту дазваляе надаць коды вельмі вялікай колькасці сымбаляўсімвалаў з розных [[пісьмо|сыстэмаўсістэм пісьма]]: у дакумэнтахдакументах з выкарыстаннем Юнікоду могуць разам выкарыстоўвацца кітайскія герогліфыіерогліфы, матэматычныя сымбалісімвалы, буквы [[Грэчаскі алфавіт|грэчаскага алфавітуалфавіта]], [[лацінскі алфавіт|лацінкі]] і [[кірыліца|кірыліцы]], а патрэба ў пераключэнні [[кодавая старонка|кодавых старонак]] адпадае.<ref name="foreword">[http://www.unicode.org/versions/Unicode5.2.0/Foreword.pdf Foreword] {{ref-en}}</ref>
 
Стандарт складаецца з двух асноўных раздзелаў: унівэрсальныуніверсальны набор сымбаляўсімвалаў ({{lang-en|UCS, universal character set|скарочана}}) і сямейства кадаванняўкадзіраванняў ({{lang-en|UTF, Unicode transformation format|скарочана}}). УнівэрсальныУніверсальны набор сымбалаўсімвалаў вызначае дакладную адпаведнасць сымбалаўсімвалаў [[код]]ам — элемэнтамэлементам [[#Кодавая прастора|кодавай прасторы]], якія ёсць неадмоўнымі [[цэлы лік|цэлымі лікамі]]. Сямейства кадаванняўкадзіраванняў вызначае машыннае выяўленне паслядоўнасці кодаў UCS.
 
Коды ў стандарце Юнікод раздзеленыя на некалькі частак. Частка з кодамі ад U+0000 да U+007F утрымлівае сымбалісімвалы з набору [[ASCII]] з адпаведнымі кодамі. Далей размешчаныя часткі сымбаляўсімвалаў розных пісьмовых сыстэмаўсістэм, пунктуацыйныя знакі і тэхнічныя сымбалісімвалы. Частка кодаў зарэзэрваванаязарэзерваваная для выкарыстання ў будучыні.<ref name="genstruct">[http://www.unicode.org/versions/Unicode5.2.0/ch02.pdf General Structure] {{ref-en}}</ref> Пад сымбалісімвалы кірыліцы выдзеленыя часткі знакаў з кодамі ад U+0400 да U+052F, ад U+2DE0 да U+2DFF і ад U+A640 да U+A69F.<ref name="euroscript">[http://www.unicode.org/versions/Unicode5.2.0/ch07.pdf European Alphabetic Scripts] {{ref-en}}</ref>
 
== Кодавая прастора ==
Хоць формы запісу UTF-8 і UTF-32 дазваляюць кадаваць да 2<sup>31</sup> ({{nowrap|2 147 483 648}}) кодавых пазыцыяўпазіцый, было прынятаепрынята рашэнне выкарыстоўваць толькі {{nowrap|1 112 064}} для сумяшчальнасці з UTF-16. Зрэшты, нават гэтага болейбольш за патрэбнае — сёння (у вэрсііверсіі 6.0) выкарыстоўваецца меньш за {{nowrap|110 000}} кодавых пазыцыяўпазіцый ({{nowrap|109 242}} графічных і 273 іншых сымбаляўсімвалаў).
 
Кодавая прастора падзеленаяпадзелена на 17 плоскасцяўплоскасцей па 2<sup>16</sup>={{nowrap|65 536}} сымбаляўсімвалаў. Нулявая плоскасць завецца базавай: у ёй размешчаныя сымбалісімвалы найбольш ужывальных пісьменнасцяўпісьменнасцей. Першая плоскасць выкарыстоўваецца пераважна для гістарычных альфабэтаўалфавітаў, другая — для рэдка ўжывальных герогліфаўіерогліфаў [[кітайскае пісьмо|кітайскага пісьма]], трэцяя зарэзэрваванаязарэзервавана для архаічных кітайскіх герогліфаўіерогліфаў.<ref name="archchinese">[http://unicode.org/roadmaps/tip/ Roadmap to the TIP] {{ref-en}}</ref> Плоскасці 15 і 16 выдзеленыя для выкарыстання ў прыватных выпадках.<ref name="genstruct" />
 
Для абазначэння сымбаляўсімвалаў Юнікоду выкарыстоўваецца запіс кшталту ''U+xxxx'' (для кодаў 0…FFFF), ''U+xxxxx'' (для кодаў 10000…FFFFF), ці ''U+xxxxxx'' (для кодаў 100000…10FFFF), дзе кожны ''x'' — [[Шаснаццаткавая сістэма злічэння|шаснаццатковая лічба]]. Напрыклад, сымбальсімвал «я» (U+044F) мае код 044F<sub>[[Шаснаццаткавая сістэма злічэння|16]]</sub> = 1103<sub>[[Дзесятковая сыстэмасістэма злічэння|10]]</sub>.
 
== СымбаліСімвалы-мадыфікатары ==
[[Выява:U nieskładovaje Unicode.svg|thumb|Камбінаваннем «у» з мадыфікатарам «брэвэ» можна атрымаць сымбальсімвал «[[ў]]».]]
Графічныя сымбалісімвалы ў Юнікодзе раздзяляюцца на падоўжаныя і непадоўжаныя. Непадоўжаныя сымбалісімвалы пры выяўленні не займаюць месца ў [[радок|радку]]. Да іх адносяць, у прыватнасці, знакі націску і іншую [[дыякрытыка|дыякрытыку]]. Як падоўжаныя, гэтак і непадоўжаныя сымбалісімвалы маюць уласныя коды. Падоўжаныя коды інакш называюць базавымі ({{lang-en|base characters|скарочана}}), а непадоўжаныя — мадыфікатарамі ({{lang-en|combining characters|скарочана}}); прычым апошнія няне могуць ужывацца асобна. Напрыклад, сымбальсімвал «á» можа быць ужыты як паслядоўнасць базавага сымбалюсімвалу «a» (U+0061) і мадыфікатара « ́» (U+0301), гэтак і як маналітны сымбальсімвал «á» (U+00C1).
 
Асаблівы тып мадыфікатараў — сэлектары варыянту напісання ({{lang-en|variation selectors|скарочана}}). Яны ўплываюць толькі на тыя сымбалісімвалы, для якіх такія варыянты вызначаныя. У вэрсііверсіі 5.0 стандарту варыянты напісання вызначаныя для шэрагу матэматычных сымбаляўсімвалаў, для сымбаляўсімвалаў традыцыйнага [[мангольскі альфабэталфавіт|мангольскага альфабэтуалфавіту]] і для сымбаляўсімвалаў [[мангольскае квадратнае пісьмо|мангольскага квадратнага пісьма]].
 
{{зноскі|2}}
 
== Спасылкі ==
== Вонкавыя спасылкі ==
* [http://www.unicode.org/ Афіцыйны сайт КансорцыюмуКансорцыуму Юнікоду] {{ref-en}}
 
[[Катэгорыя:Юнікод| ]]
[[Катэгорыя:Стандарты Інтэрнэту]]
[[Катэгорыя:Стандарты ISO]]
[[Катэгорыя:ЗьявілісяЗ'явіліся ў 1991 годзе]]
 
[[af:Unicode]]
Радок 36:
[[az:Unicode]]
[[be-x-old:Юнікод]]
[[bn:ইউনিকোড]]
[[zh-min-nan:Thong-iōng-bé]]
[[bg:Уникод]]
[[bn:ইউনিকোড]]
[[bs:Unikod]]
[[br:Unicode]]
[[bs:Unikod]]
[[ca:Unicode]]
[[etchr:Unicode/Cherokee]]
[[ckb:یوونیکۆد]]
[[cs:Unicode]]
[[da:Unicode]]
[[de:Unicode]]
[[et:Unicode]]
[[el:Unicode]]
[[en:Unicode]]
[[es:Unicode]]
[[eo:Unikodo]]
[[es:Unicode]]
[[nlet:Unicode]]
[[eu:Unicode]]
[[fa:یونی‌کد]]
[[fi:Unicode]]
[[fr:Unicode]]
[[ga:Unicode]]
[[gl:Unicode]]
[[kohe:유니코드יוניקוד]]
[[hy:Յունիկոդ]]
[[hi:यूनिकोड]]
[[hr:Unicode]]
[[ilohu:Unicode]]
[[idhy:UnicodeՅունիկոդ]]
[[ia:Unicode]]
[[noid:Unicode]]
[[ndsilo:Unicode]]
[[is:Unicode]]
[[it:Unicode]]
[[heja:יוניקודUnicode]]
[[jv:Unicode]]
[[ka:უნიკოდი]]
[[kk:Юникод]]
[[kn:ಯುನಿಕೋಡ್]]
[[ko:유니코드]]
[[ka:უნიკოდი]]
[[ks:یونیکوڈ]]
[[kk:Юникод]]
[[ku:Unicode]]
[[ky:Юникод]]
[[lv:Unikods]]
[[lt:Unikodas]]
[[hulv:UnicodeUnikods]]
[[mhr:Unicode]]
[[ml:യൂണികോഡ്]]
[[mn:Юникод]]
[[mr:युनिकोड]]
[[ms:Unicode]]
[[mnnds:ЮникодUnicode]]
[[nl:Unicode]]
[[ne:युनिकोड]]
[[new:युनिकोड]]
[[janl:Unicode]]
[[no:Unicode]]
[[nn:Unicode]]
[[mhrno:Unicode]]
[[nds:Unicode]]
[[pl:Unicode]]
[[pt:Unicode]]
Радок 96 ⟶ 98:
[[sk:Unicode]]
[[sl:Unicode]]
[[ckbsq:یوونیکۆدUnicode]]
[[sr:Unikod]]
[[sh:Unikod]]
[[fi:Unicode]]
[[sv:Unicode]]
[[tl:Unikodigo]]
[[ta:ஒருங்குறி]]
[[te:యూనికోడ్]]
[[th:ยูนิโคด]]
[[tg:Юникод]]
[[chr:Unicode/Cherokee]]
[[tl:Unikodigo]]
[[tr:Unicode]]
[[uk:Юнікод]]
Радок 114 ⟶ 113:
[[yi:יוניקאד]]
[[yo:Unicode]]
[[zh-yue:統一碼]]
[[zh:Unicode]]
[[zh-min-nan:Thong-iōng-bé]]
[[zh-yue:統一碼]]