Что ожидается нового в Юникоде 15
Я уже писал с большим опозданием про Юникод 14. Время не стоит на месте, и вышла версия 15-бета. Поехали?
Добавлений мало: 2 новых письменности, 20 эмодзи и 4488 символов, большая часть — иероглифы. Будет 149. 185 символов, плюс 63 старых управляющих.
Эмодзи
Начнём с того, что больше всего интересует нас в новом Юникоде,— эмодзи. Появилась кханда — символ сикхизма, состоящий из меча, чакры (местного индийского сюрикена) и двух сикхских ножей. Кто не знает: сикх всегда носит специальный кривой нож.
Из музыкальных инструментов — флейта/дудка и маракасы, из животных — лось, осёл, гусь, медуза, крыло. Из растений — гиацинт, стручок, имбирь. Из «колобков» добавился трясущийся/дрожащий, из рук — толкающая влево/вправо. Сердечки добавились голубое, серое и розовое. Появился знак радиосети.
Интересная история с веером. На Востоке много танцев с веерами, некоторые веера — настоящие произведения искусства. Но дело не только в этом: в западном языке эмодзи много ребусов — например: (простите, в роли веера — танцовщица)
💩🎯💃 = shit hits the fan — вброс «нетонущего» на вентилятор
💃♣️ = fan club — фан-клуб
Я лично недоволен разве что афро-гребнем, которым негры из своих кудрей делают умопомрачительные причёски. Не стоит добавлять его, не добавив гребня обычного.
Кави
Кави (старояванское письмо) — мёртвое письмо индийского происхождения, использовавшееся на островах Индонезии с VIII до XVI века. Оттуда происходит современное яванское письмо.
Мундари (алфавит Нага)
Мундари — австроазиатский язык, использующийся в Индии, Бангладеш и Непале. Хочется сказать «небольшой», но какой он небольшой с 1,5 миллионами в одной только Индии? — Эстония поменьше будет.
Пишут кто на чём горазд: латиницей, ори́ей, деванáгари, бенгальским. С 23-мя согласными на латинице потребуются умляуты. Индийское письмо лучше приспособлено под широкие алфавиты — но оно полуслоговое (т.н. абугида), а мундари — язык не индоевропейский. Так что не удивительно, что около 1950 некто Рохидас Наг придумал новый алфавит, и он даже прижился.
Сверху на таблице написано «Мундари бани» — одно из названий нового алфавита.
И почему-то индийцы любят добавлять собственные цифры, в каждой письменности свои, мундари не исключение. Знаки препинания обычные международные.
ККЯ
4000 иероглифов самого разного происхождения, в основном старые вьетнамские (современный Вьетнам пишет латиницей), а также найденные британскими исследователями в старых китайских газетах. Ничего особенного.
Для четырёх имевшихся иероглифов перерисовано изображение, причём все их типограф Эндрю Уэст уже нарисовал правильные. (Я и сам с ним советовался, когда работал над своей «Юникодией».)
Форматирование египетских иероглифов
Расширили форматирование египетских иероглифов. Как ни странно, Юникод нужен, чтобы кодировать имеющиеся тексты — и добавили несколько символов для египетских источников. Где-то иероглиф развёрнут, где-то часть затёрта…
Когда-то давно в Юникоде 2 (1996) сделали так называемый «великий корейский бардак» — передвинули блок хангыля. Прошло 25 лет, и в Юникоде 14 (2021) сделали беспрецедентную вещь — расширили блок «Ахом» на 16 символов. Точно так же в Юникоде 15 расширили блок форматирующих символов для иероглифов.
Кактовикские цифры
Эскимосы (или инуиты, если политкорректно) Канады и Аляски считают двадцатками, 74 они произносят как «три двадцатки, пятнадцать без одного». Цифры придуманы школьниками из городка Кактовик (Аляска) в 1980-е годы. В эскимосском нет слова «ноль», однако решили делать настоящую позиционную систему с основанием 20.
Пользуясь только арабскими десятичными цифрами, эскимосы были в числе худших по математике из всех США — а пользуясь и теми, и другими, они стали выше среднего уровня, примерно как двуязычный часто смотрит на мир с двух разных сторон. Эскимосы Канады также рекомендуют новую систему.
Кириллица
Добавились более 60 модифицирующих символов для кириллической записи транскрипции. Нечто подобное — правда, не в таком страшном объёме, как в этих вузовских учебниках — нам преподавали и в школе.
И не могу не рассказать о замене одного редкого глифа для церковных книг — символ A66E «Cyrillic letter Multiocular O». Вот такая необычная буква иногда применялась в выражении «многоокие серафимы».
С 2008 года, когда этот символ появился, в глифе было семь букв О, стало десять. В моей «Юникодии», кстати, это уже отмечено, откорректированные глифы я стараюсь ловить оперативно, хотя не всегда выходит: несколько десятков египетских иероглифов устаревшие (до Юникода 14), и просто не знаю, что с ними делать.
На Украине война, в любой момент могу пропасть, и перехожу на военные правила выпуска программы: блоки Юникода 15 будут, когда будет хоть что-то без тофу («квадратиков»). Хоть эти самые эскимосские цифры. (Основная работа — локализация на английский, и пока ей края нет).
Остальное не заслуживает детального рассмотрения. Сменили пару глифов — для современной буквы сунданского языка (Индонезия) и для древних (около IX века) орхоно-енисейских (тюркских) рун. Добавили три символа из турецкого Корана. В деванáгари добавили несколько знаков из джайнизма XVII века. В лаосском добавили двойную крышку для передачи религиозного языка пали.
Напоминаю: я пишу программу «Юникодия» — энциклопедию символов Юникода. Качать тут.








ИТ-проекты пикабушников
755 постов3.5K подписчиков
Правила сообщества
0. Запрещены посты вне тематики сообщества
1. Уважайте труд людей, пишите только конструктивную критику,
2. Не выкладывайте информацию по своему проекту чаще 2ух раз в месяц