Уницоде кодирање: кодирање стандардног карактера
Сваки корисник Интернет покушавапоставити једну или неку од својих функција које су најмање једном виделе на дисплеју написаним латиничним словима реч "Уницоде". Шта је то, научићете читајући овај чланак.
Дефиниција
Кодирање "Уницоде" је кодни стандардкарактера. Предложио га је непрофитна организација Уницоде Инц. 1991. године. Стандард је дизајниран тако да комбинира што више различитих типова симбола у једном документу. Страница која је створена на његовој основи може садржавати слова и хијероглифа са различитих језика (од руског до корејског) и математичких знакова. Сви ликови у овом кодирању се приказују без икаквих проблема.
Разлози за стварање
Некада давно, много пре појављивања јединственог система"Уницоде", кодирање је изабрано на основу жеље аутора документа. Из тог разлога, често читајући један документ, морали сте да користите различите табеле. Понекад је то требало урадити неколико пута, што је знатно компликовало живот обичног корисника. Као што је већ поменуто, решење овог проблема 1991. године предложила је непрофитна организација Уницоде Инц., која је предложила нови тип кодирања карактера. Позван је да комбинира морално застареле и разноврсне стандарде. "Уницоде" - кодирање, што је омогућило да у том тренутку постане незамисливо: да направите алат који подржава велики број знакова. Резултат је превазишао многе очекивања - појавили су се документи који су истовремено садржавали и енглески и руски текст, латински и математички израз.
Али претходило је стварање јединственог кодирањапотреба да се реши низ проблема који су настали због широког спектра стандарда који су већ постојали у то вријеме. Најчешће су:
- елиши списи или "каркозиабри";
- ограничени скуп знакова;
- проблем кодирања конверзије;
- дуплирање фонтова.
Кратка историјска дигресија
Замислите да је двориште 80-те године. Компјутерска технологија није толико распрострањена и има облик различит од данас. У то доба, сваки ОС је јединствен на свој начин и који је завршен од стране сваког ентузијаста за специфичне потребе. Потреба за размјеном информација претвара се у додатну ревизију свега на свијету. Покушај читања документа створеног под другим оперативним системом често приказује необичљив скуп карактера на екрану, а почињу игре са кодирањем. Није увек могуће то брзо учинити, а понекад се потребан документ може отворити шест месеци касније или чак касније. Људи који често размјењују информације стварају претворбене табеле за себе. А овде рад на њима открива занимљив детаљ: потребно их је створити у два правца: "од мог до твоје" и назад. Да би направио баналну инверзију рачунања, машина не може, јер у десној колони изворни код, а у левој колони - резултат, али на било који начин напротив. Ако је у документу било потребно да се користе неки посебни карактери, они су морали прво додати, а затим и објаснио партнеру шта је то потребно да се ови ликови не претворе у "кракозиабри". И не заборавимо да смо за свако кодирање морали развити или применити сопствене фонтове, што је довело до стварања великог броја дупликата у оперативном систему.
Замислите такође да сте на страници фонтоваВидећете 10 комада идентичних Тимес Нев Роман са малим нотацијама: за утф-8, УТФ-16, АНСИ, УЦС-2. Да ли схваташ да је развој универзалног стандарда био хитна нужда?
"Отац-креатори"
Порекло стварања Уницоде-а треба тражити 1987када је Јое Бецкер из Ксерок-а, заједно са Лее Цоллинс-ом и Марк Давис-ом из Аппле-а, започео истраживање практичног стварања универзалног скупа знакова. У августу 1988. Јое Бецкер је објавио нацрт предлога 16-битног међународног вишејезичног система кодирања.
После неколико месеци, Уницоде радна групаПроширен је тако што су укључили Кен Вхистлер и Мике Кернеган из РЛГ-а, Гленн Вригхт из Сун Мицросистемс-а, као и неколико других специјалиста који су омогућили финализацију прелиминарног стандарда кодирања.
Општи опис
Уницоде се заснива на појму симбола. Ова дефиниција се односи на апстрактну појаву која постоји у одређеном облику писања и реализује се кроз графехеме (њене "портрете"). Сваки знак је постављен у "Уницоде" јединственим кодом који припада одређеном блока стандарда. На пример, грахма Б је на енглеском и руском абецеди, али у Уницоде-у постоје 2 различита симбола. Они се претварају у мала слова, то јест, сваки од њих је описан помоћу кључа базе података, скупа својстава и пуног имена.
Предности Уницоде
Од остатка његових савременика који кодирају "Уницоде"разликовали су огромну количину знакова за "криптовање" ликова. Чињеница је да су његови претходници имали 8 бита, тј. Подржали су 28 карактера, али нови развој је већ имао 216 карактера, што је био велики корак напред. То је омогућило кодирање скоро свих постојећих и заједничких алфабета.
Са појавом "Уницоде" више није потребнокористе табеле конверзије: као јединствени стандард, једноставно негира њихову потребу. На исти начин, "пукотине" су потопљене у заборав - један стандард их је учинио немогућим, као и елиминисали потребу за креирањем дуплих фонтова.
Уницоде девелопмент
Наравно, напредак не стоји и од тадаПрва презентација је прошла 25 година. Међутим, кодирање "Уницоде" тврдоглаво задржава свој положај у свету. У многим аспектима ово је било могуће због чињенице да је постало лако имплементирано и постало широко распрострањено, препознавање од стране програмера (плаћеног) и опен соурце софтвера.
Не треба се претпоставити да смо данасИста Уницоде кодирања доступна је пре четврт века. Тренутно се његова верзија променила на 5.кк, а број кодираних знакова се повећао на 231. Они су одбили да користе већу снабдевање знакова како би и даље задржали подршку за Уницоде-16 (кодирања гдје је максимални број ограничен на 216). Од свог увођења на верзију 2.0.0, Уницоде Стандард је повећао број карактера који су укључени у њега, скоро 2 пута. Могућности раста се настављају у наредним годинама. Према верзији 4.0.0, већ је било потребно повећати стандард сам, што је учињено. Као резултат, "Уницоде" је пронашао врсту у којој га данас знамо.
Шта је још у Уницоде?
Поред огромног, стално растућегброј знакова, текстуалне информације о кодирању "Уницоде" имају још једну корисну особину. Ово је тзв. Нормализација. Умјесто скроловања читавог симбола документа помоћу симбола и замјене одговарајућих икона из кореспондирајуће табеле, користи се један од постојећих алгоритама нормализације. О чему се ради?
Умјесто губљења рачунских ресурсамашине за редовну проверу истог карактера, који могу бити слични у различитим алфабетом, користе посебан алгоритам. Омогућава вам да направите сличне симболе у одвојеном ступцу табеле за прегледање и да се већ позивате на њих, уместо да поново опишете све податке изнова и изнова.
Постоје четири таква алгоритма развијена и имплементирана. У сваком од њих, трансформација се одвија у складу са строго дефинисаним принципом, који се разликује од других, стога није могуће назвати било који од њих као најефикасније. Сваки је дизајниран за специфичне потребе, имплементиран и успешно искоришћен.
Стандардна дистрибуција
Преко 25 година своје историје, кодирање "Уницоде"примио је вероватно најчешће на свету. Програми и веб странице су такође прилагођени овом стандарду. Чињеница да данас Уницоде користи више од 60% Интернет ресурса може говорити о ширини апликације.
Сада знате када се појавио Уницоде стандард. Такође знате шта је и може се захвалити пуној вриједности проналаска који је направио тим специјалиста Уницоде Инц. пре више од 25 година.