Уніко́д (англ.: Unicode вымаўляецца як Юніко́д; скарачэнне ад Універса́льны код) — стандарт кадзіравання сімвалаў, які дазваляе адлюстраваць літары і знакі амаль усіх пісьмовых моў.[1]

Стандарт быў прапанован у 1991 годзе некамерцыйнай арганізацыяй «Кансорцыум Унікоду» (англ.: Unicode Consortium, Unicode Inc.).[2][3] Выкарыстанне гэтага стандарту дазваляе надаць коды вельмі вялікай колькасці сімвалаў з розных сістэм пісьма: у дакументах з выкарыстаннем Унікоду могуць разам выкарыстоўвацца кітайскія іерогліфы, матэматычныя сімвалы, літары грэчаскага алфавіта, лацінкі і кірыліцы, а патрэба ў пераключэнні кодавых старонак адпадае.[4]

Стандарт складаецца з двух асноўных раздзелаў: універсальны набор сімвалаў (англ.: UCS, universal character set) і сямейства кадзіровак (па-англійску: UTF, Unicode transformation format). Універсальны набор сімвалаў вызначае дакладную адпаведнасць сімвалаў кодам — элементам кодавай прасторы, якія ёсць неадмоўнымі цэлымі лікамі. Сямейства кадзіровак вызначае машынны запіс паслядоўнасці кодаў UCS.

Коды ў стандарце Унікод раздзелены на некалькі частак. Частка з кодамі ад U+0000 да U+007F утрымлівае сімвалы з набору ASCII з адпаведнымі кодамі. Далей размешчаны часткі сімвалаў розных пісьмовых сістэм, пунктуацыйныя знакі і тэхнічныя сімвалы. Частка кодаў зарэзервавана для выкарыстання ў будучыні.[5] Пад сімвалы кірыліцы выдзелены часткі знакаў з кодамі ад U+0400 да U+052F, ад U+2DE0 да U+2DFF і ад U+A640 да U+A69F.[6]

Назва па-беларуску

правіць

Назва "Юнікод" уяўляе сабой варварызм: слова (у фанетычнай форме) механічна перанесена з англійскай мовы ў беларускую.

Назва ж "Унікод" больш адпавядае ўнутранай логіцы беларускай мовы, бо:

  • мае яснае паходжанне (этымалогію) ад "Універсальны код";
  • адразу ўліваецца ў сямейства роднасных слоў, звязаных са ўсеагульнасцю і ўніверсальнасцю (унісон, універсітэт, універсал і г.д.).

Кодавая прастора

правіць

Хоць кадзіроўкі UTF-8 і UTF-32 дазваляюць кадаваць да 231 (2 147 483 648) кодавых пазіцый, было прынята рашэнне выкарыстоўваць толькі 1 112 064 для сумяшчальнасці з UTF-16. Зрэшты, нават гэтага досыць — сёння (у версіі 6.0) выкарыстоўваецца менш за 110 000 кодавых пазіцый (109 242 графічных і 273 іншых сімвалаў).

Кодавая прастора падзелена на 17 плоскасцей па 216=65 536 сімвалаў. Нулявая плоскасць называецца асноўнай: у ёй размешчаны сімвалы найбольш ужывальных пісьменнасцей. Першая плоскасць выкарыстоўваецца пераважна для гістарычных алфавітаў, другая — для рэдка ўжывальных іерогліфаў кітайскага пісьма, трэцяя зарэзервавана для архаічных кітайскіх іерогліфаў.[7] Плоскасці 15 і 16 выдзелены для выкарыстання ў прыватных выпадках.[5]

Для абазначэння сімвалаў Унікоду выкарыстоўваецца запіс на ўзор U+xxxx (для кодаў 0…FFFF), U+xxxxx (для кодаў 10000…FFFFF), ці U+xxxxxx (для кодаў 100000…10FFFF), дзе кожны xшаснаццатковая лічба. Напрыклад, сімвал «я» (U+044F) мае код 044F16 = 110310.

Сімвалы-мадыфікатары

правіць
 
Камбінаваннем «у» з мадыфікатарам «брэвэ» можна атрымаць сімвал «ў».

Графічныя сімвалы ва Ўнікодзе падзяляюцца на падоўжаныя і непадоўжаныя. Непадоўжаныя сімвалы пры запісе не займаюць месца ў радку. Да іх адносяць, у прыватнасці, знакі націску і іншую дыякрытыку. Як падоўжаныя, так і непадоўжаныя сімвалы маюць уласныя коды. Падоўжаныя коды яшчэ называюць асноўнымі (англ.: base characters), а непадоўжаныя — мадыфікатарамі (англ.: combining characters); прычым апошнія не могуць ужывацца асобна. Напрыклад, сімвал «á» можна закадзіраваць як паслядоўнасць асноўнага сімвала «a» (U+0061) і мадыфікатара « ́» (U+0301), а можна і як маналітны сімвал «á» (U+00C1).

Асаблівы тып мадыфікатараў — селектары варыянту напісання (англ.: variation selectors). Яны ўплываюць толькі на тыя сімвалы, для якіх такія варыянты вызначаны. У версіі 5.0 стандарту варыянты напісання вызначаны для шэрагу матэматычных сімвалаў, для сімвалаў традыцыйнага мангольскага алфавіта і для сімвалаў мангольскага квадратнага пісьма.

Зноскі

Спасылкі

правіць