Китайские иероглифы и обозначение их: Китайские иероглифы и их значение
Содержание
Китайская грамота
Слово «иероглиф» в русском языке стало нарицательным. Часто его используют для того, чтобы обозначить нечто непонятное и непостижимое. И правильно делают! Для людей, выросших в европейской культуре, иероглифы, действительно, часто становятся камнем преткновения.
Почему сложны иероглифы
Иероглиф – собирательное название для систем письменности, принятых в восточных языках: японском, китайском и, частично, корейском. Кстати, это слово известно еще со времен Древней Греции. Им в античности обозначали начертание «округлых» греческих букв, высеченных на камне.
Первые иероглифы появились в Китае еще в 16 веке до нашей эры. Из Поднебесной они были позаимствованы японцами и корейцами. Считается, что иероглифы помогают жителям Востока понимать письменность друг друга, даже не владея языком соседней страны. К примеру, в современном Китае насчитывается 3000 диалектов.
И их носители прекрасно понимают друг друга. Кстати, можно попробовать почитать текст на болгарском языке, чтобы убедиться: понимать письменный язык ближайших соседей можно и в Европе.
Особенность иероглифов состоит в том, что они обозначают не отдельные буквы, а слоги или слова (слова из одного слога часто встречаются в восточных языках). Сама по себе такая система письма не оригинальна. Она, к примеру, принята и в иврите, где отсутствуют гласные буквы, аналогичные звукам А и Е. Но, если в иврите всего-то 22 буквы, то счет китайских иероглифов идет на тысячи.
«Минимальным» объемом грамотности в Китае считается знание полутора-двух тысяч иероглифов. Такого объема достаточно сельским жителям и мелким служащим. Чтобы читать газеты и журналы, нужно иметь «лексикон» из 3000 иероглифов. Словари обычно содержат от 6 до 10 тысяч, а в словаре «Море китайских иероглифов», изданном в 1994 году, их насчитывается более 84 тысяч.
Главное отличие иероглифа от привычных нам латиницы и кириллицы – обилие графических элементов. Наши буквы, как правило, являются единым знаком, элементы которого не имеют собственного значения. В иероглифическом письме важны каждая черточка, точка или крючок. Если напечатан или написан иероглиф неразборчиво, носитель языка поймет его значение по контексту, как мы понимаем значение слов, написанных с ошибками. А вот европейцу придется туго: смысл фразы потеряется или изменится до неузнаваемости.
И это – проблемы не только тех, кому приходится изучать иероглифические языки. Чем большую роль играют восточные в мировой экономике, тем чаще нам приходится иметь дело с текстами на китайском, японском или корейском языках. А значит – и работать с ними.
Также по теме
Как работают системы распознавания
С латинской или кириллической письменностью системы распознавания (OCR) работают уже с уверенной, высокой скоростью. Многие программы способны «разобрать» не только печатный, но и письменный вариант текста.
Проблемой перестает быть и низкое качество оригинала, такие тексты система часто умеет не только распознавать, но и «на лету» исправлять. Но там, где носитель восточного языка справляется с особенностями начертания или качеством отображения текста благодаря своему мышлению, машина откровенно «пасует». Научить компьютер думать, как китайцы и японцы, смог только искусственный интеллект.
До недавних пор китайское и японское письмо распознавались OCR так же, как и европейские символы – на основе классификаторов. Выглядит алгоритм работы просто, строится от общего к частному. Система разделяет документ на страницы, каждая из них – на текстовые блоки, затем идут строки, слова, и, наконец, символы. Последнее – самое сложное. Для каждой буквы добавляются отдельные признаки начертания, символы и слова классифицируются, а система на основе классификации учится предлагать наиболее подходящие варианты «прочтения» текста.
Наверное, был бы очень занятным эксперимент, в котором один и тот же текст распознавался разными версиями одной и той же OCR. Сравнение результатов их работы стало бы отличной иллюстрацией того, как со временем совершенствовались такие решения. Повторимся: здесь важна не только точность распознавания, но и его скорость.
А теперь давайте усложним задачу и предложим OCR-системе в качестве виртуального задания распознать иероглифический текст. Если при работе с европейскими алфавитами приходится классифицировать самое большее – несколько десятков символов, то «китайская грамота» предполагает, что эту работу нужно сделать для тысяч иероглифов.
Необходимость распознать нечеткую копию или рукописный вариант делают такую задачу сверхсложной. А о скорости распознавания документа и ресурсах компьютера, которые необходимы для решения задачи, говорить не приходится. Поэтому вплоть до 2018 года работа OCR с иероглифическими документами была не слишком уверенной и совсем не быстрой.
Нейросети для иероглифов
Все изменилось в 2018 году. Специалисты компании ABBYY, которая развивает знаменитый FineReader уже два десятка лет, нашли решение для задач, связанных с распознаванием иероглифов. Было решено применить нейросети.
Первоначально в ABBYY решили использовать одну сверточную сеть для распознавания всех иероглифов. Такой шаг представлялся логичным: подобный тип нейронных сетей разрабатывался в том числе и для распознавания текста. Кроме того, у компании был успешный опыт ее применения для работы с рукописными латинскими символами.
Однако, оказалось, что одна нейронная сеть работает либо слишком плохо (совершает ошибки в распознавании), либо крайне медленно. Не помогало и использование сложных архитектур. Проблемой стало большое число классов, по которым приходилось обучаться нейронной сети.
И тогда в компании решили применить другой подход – использовать двухуровневую систему. В ней «алфавит» разбивается на группы похожих символов. Первая сеть анализирует изображение иероглифа и определяет, к какой группе он принадлежит. А дальше в работу включается вторая сеть, которая и проводит итоговую классификацию внутри группы.
Результат протестировали на коллекции японских и китайских текстов. Сравнение показало, что при использовании одной сети скорость работы системы составляет около 370 символов в секунду при качестве распознавания в 97%. В быстром режиме ей удавалось распознать 570 символов в секунду, но качество распознавания снижалось до 92%.
А вот двухуровневая сеть дала принципиально иные результаты. Обычный режим позволил обрабатывать 520 символов с более чем 97-процентным качеством, а быстрый – более 650 символов в секунду практически с таким же результатом работы.
Не только китайский и японский
Иероглифическое письмо – самый наглядный пример работы OCR со сложными задачами. Принципы и технологии распознавания, которые были реализованы для китайского и японского письма, могут применяться и для документов на других языках – хинди, тамильском или арабском.
К примеру, работа OCR с арабской вязью связана с необходимостью «разрезать» слово на символы. Но таких вариантов в этом языке оказалось слишком много. Специалисты ABBYY специально для него разработали end-to-end сеть и научили ее при помощи «набора» из сотен тысяч изображений текстов на арабском работать не с отдельными символами, а целыми словами. Кстати, такое решение отлично подошло и для распознавания европейских языков в том случае, если тексты набираются дизайнерскими шрифтами.
Сколько существует китайских иероглифов и сколько нужно выучить?
Китайская письменность претерпела более пяти тысяч лет эволюции и трансформации, что принесло с собой новые синограммы и варианты. Хотя некоторые словари могут содержать более 80 000 символов (85 568 для 中华字海 Zhōnghuà Zìhǎi, опубликованного в 1994 г., и до 106 230 для 异体字字典 Yìtǐzì Zìdiǎn, опубликованного в 2004 г.), большинство словарей содержат от 5000 до 6 символов.
Даже в последнем случае, так как большинство носителей английского языка не владеют всеми словами в последней версии Оксфордского словаря, на самом деле широко используются только от 3000 до 4000 китайских иероглифов.
Действительно, 中华字海 и 异体字字典 включают в себя редкие иероглифы, некоторые из которых очень специализированы, а другие — из писаний, восходящих к древним династиям, или использовались для расшифровки слов из разных китайских диалектов, которых нет в мандаринском диалекте китайского языка. Они также включают различные варианты, которые могли существовать или могли существовать одного и того же персонажа.
Хотя вопрос об общем количестве остается интересным с академической точки зрения, на практике гораздо разумнее учитывать количество символов, которые нужно знать, чтобы в определенной степени овладеть языком.
Между словами и символами есть разница
Первое, что нужно знать, это то, что изучение 3000 символов не означает, что вы будете знать 3000 слов. В китайском языке заданный набор символов обычно позволяет создавать гораздо большее количество слов. Следовательно, нет необходимости владеть 100 000 символов, чтобы иметь возможность транскрибировать более 100 000 слов Оксфордского словаря на китайский язык. Эквивалентный словарь обычно содержит от 5000 до 6000 различных символов.
>Подробнее о самых сложных китайских иероглифах
HSK: хороший справочник для изучающих китайский язык
подтвердить уровень владения китайским языком. Это экзамен в духе TOEFL или англо-саксонского IELTS, который проверяет словарный запас, грамматику, понимание и навыки выражения (письменно и устно). Он состоит из 6 различных уровней, соответствующих разным уровням владения языком.
>Подробнее о тесте HSK
разный уровень ПОЯСНЕНИЕ СО словами и символами КОЛИЧЕСТВО
Таким образом, зная 2633 иероглифов, вы сможете читать 98% современных китайских письменных документов.
Последние 2% — это редкие иероглифы, которые в основном встречаются в китайской литературе. Изучение более 2700 символов не принесет существенной выгоды, и лучше потратить время на освоение грамматики, а также лексики или выражений из HSK в реальных ситуациях.
Выучить китайский язык, особенно китайские иероглифы, не так сложно, как кажется. Хороший способ освоить их — изучать их шаг за шагом в соответствии с уровнем их частоты. Кроме того, каждый раз, когда изучаете новый иероглиф, составьте список разных слов, в которых встречается этот иероглиф. С другой стороны, если вы изучаете словарный запас, попробуйте разбить слово, чтобы проанализировать значение каждого символа по отдельности.
>Узнайте больше о различных способах изучения китайского языка
Если вам нужна помощь в подготовке к тесту HSK или если вы просто заинтересованы в изучении/улучшении своего китайского языка, попробуйте один из наших бесплатных демонстрационных онлайн-курсов китайского языка, нажав на ссылку ниже.
Хотите выучить китайский? Присоединяйтесь к нам, чтобы узнать больше!
Закон о стандартном разговорном и письменном китайском языке Китайской Народной Республики
(Принят на 18-м заседании Постоянного комитета Всекитайского собрания народных представителей девятого созыва 31 октября 2000 г., г. обнародован Указом Президента Китайской Народной Республики № 37 от 31 октября 2000 г. и вступил в силу с 1 января 2001 г.)
Глава I Общие положения
Статья 1 Настоящий Закон принят в соответствии с Конституцией с целью содействия нормализации и стандартизации стандартного устного и письменного китайского языка и его здорового развития, повышения его роли в общественной деятельности. и содействие экономическому и культурному обмену между всеми китайскими этническими группами и регионами.
Статья 2 Для целей настоящего Закона стандартный разговорный и письменный китайский язык означает путунхуа (общая речь с произношением, основанным на пекинском диалекте) и стандартизированные китайские иероглифы.
Статья 3 Государство популяризирует путунхуа и стандартизированные китайские иероглифы.
Статья 4 Все граждане имеют право изучать и использовать стандартный устный и письменный китайский язык.
Государство обеспечивает гражданам условия для изучения и использования стандартного разговорного и письменного китайского языка.
Местные народные правительства различных уровней и соответствующие ведомства при них должны принять меры по популяризации путунхуа и стандартизированных китайских иероглифов.
Статья 5 Стандартный устный и письменный китайский язык должен использоваться таким образом, чтобы способствовать защите государственного суверенитета и национального достоинства, объединению страны и единству всех этнических групп, а также социалистическому материальному прогрессу и этический прогресс.
Статья 6. Государство обнародует стандартные нормы устного и письменного китайского языка, управляет его использованием в обществе и поддерживает преподавание и научные исследования на языке, чтобы способствовать его нормализации, обогащению и развитию.
Статья 7. Государство награждает организации и отдельных лиц, внесших выдающийся вклад в области стандартного устного и письменного китайского языка.
Статья 8 Все этнические группы имеют право свободно использовать и развивать свои собственные устные и письменные языки.
Устный и письменный языки национальных меньшинств используются в соответствии с соответствующими положениями Конституции, Закона о региональной национальной автономии и других законов.
Глава II Использование стандартного разговорного и письменного китайского языка
Статья 9 Путунхуа и стандартные китайские иероглифы используются государственными органами в качестве официального языка, если иное не предусмотрено законами.
Статья 10 Путунхуа и стандартизированные китайские иероглифы используются в качестве основного языка в образовании и обучении в школах и других учебных заведениях, если иное не предусмотрено законодательством.
Путунхуа и стандартизированные китайские иероглифы должны преподаваться в школах и других учебных заведениях посредством курса китайского языка. Используемые учебники китайского языка должны соответствовать нормам общепринятого устного и письменного китайского языка.
Статья 11 Публикации на китайском языке должны соответствовать нормам общепринятого устного и письменного китайского языка.
При необходимости использования иностранных языков в публикациях на китайском языке прилагаются необходимые пояснения на стандартном китайском языке.
Статья 12. Путунхуа используется вещательными и телевизионными станциями в качестве основного языка вещания.
Если в качестве языков вещания необходимо использовать иностранные языки, вопрос подлежит согласованию с управлением телерадиовещания при Госсовете.
Статья 13 Стандартные китайские иероглифы используются в качестве основных иероглифов в сфере услуг. Если в вывесках, рекламных объявлениях, бюллетенях, указателях и т. д. используются как иностранный, так и китайский языки, в соответствии с требованиями торговли, в отношении китайского языка должны использоваться стандартные китайские иероглифы.
Людям, работающим в сфере услуг, рекомендуется использовать путунхуа при оказании услуг.
Статья 14 Стандартный устный и письменный китайский язык должен использоваться в качестве основного устного и письменного языка в следующих случаях:
(1) Разговорный и письменный язык для радиовещания, фильмов и телепередач;
(2) Письменный язык для объектов в общественных местах;
(3) Письменность на вывесках и в рекламных объявлениях;
(4) Наименования предприятий и других учреждений; и
(5) Упаковка и характеристики товаров, продаваемых в стране.
Статья 15 Стандартный разговорный и письменный китайский язык, используемый в обработке информации и продуктах информационных технологий, должен соответствовать нормам государства.
Статья 16. В отношении соответствующих положений настоящей главы местные диалекты могут использоваться при следующих обстоятельствах:
(1) когда государственные служащие действительно нуждаются в их использовании при исполнении служебных обязанностей;
(2) Если они используются в вещании с одобрения управления вещания и телевидения при Государственном совете или управления вещания и телевидения на уровне провинции;
(3) Там, где они необходимы в традиционных операх, фильмах и телевизионных программах и других видах искусства; и
(4) Там, где их использование действительно необходимо в публикациях, обучении и исследованиях.
Статья 17 В соответствии с соответствующими положениями настоящей главы, первоначальные сложные или вариантные формы китайских иероглифов могут быть сохранены или использованы при следующих обстоятельствах:
(1) в культурных реликвиях и исторических местах;
(2) Варианты форм, используемые в фамилиях;
(3) В произведениях искусства, таких как каллиграфия и резка печатей;
(4) Рукописные надписи и вывески;
(5) Если их использование требуется в публикациях, обучении и исследованиях; и
(6) Другие особые обстоятельства, если их использование одобрено соответствующими департаментами при Государственном совете.
Статья 18 «Схема китайского фонетического алфавита» должна использоваться в качестве инструмента транслитерации и фонетической записи стандартного устного и письменного китайского языка.
«Схема китайского фонетического алфавита» представляет собой унифицированную норму латинских букв для транслитерации имён китайцев и мест, а также китайских документов и используется в тех областях, где неудобно использовать китайские иероглифы или где нельзя использовать китайские иероглифы.
Китайские фонетические алфавиты должны использоваться в начальном образовании.
Статья 19 Все сотрудники, которым необходимо использовать путунхуа в качестве рабочего языка, должны уметь говорить на путунхуа.
Уровень путунхуа тех, кто использует путунхуа в качестве рабочего языка, таких как телеведущие, ведущие и ведущие программ, актеры и актрисы фильмов, сериалов и пьес, учителя и государственные служащие, должны соответствовать соответствующим стандартам, установленным государством; те, кто еще не достиг таких стандартов, в зависимости от обстоятельств должны пройти другую подготовку.
Статья 20 Путунхуа и стандартизированные китайские иероглифы должны преподаваться в классах для иностранцев, изучающих китайский язык.
Глава III Администрация и надзор
Статья 21 Отдел, отвечающий за работу, связанную с устным и письменным языком при Государственном совете, несет ответственность за планирование, руководство, управление и надзор за работой, связанной со стандартным разговорным и письменным китайским языком. .
Соответствующие департаменты Государственного совета должны управлять использованием стандартного разговорного и письменного китайского языка в своих департаментах.
Статья 22 Местные отделы, отвечающие за работу, связанную с устным и письменным языком, и другие заинтересованные отделы должны администрировать и контролировать использование стандартного разговорного и письменного китайского языка в своих административных районах.
Статья 23 Административные отделы промышленности и торговли при местных народных правительствах уровня уезда и выше должны администрировать и контролировать использование устной и письменной речи в названиях предприятий и товаров, а также в рекламных объявлениях.
Статья 24 Отдел, отвечающий за работу, связанную с устной и письменной речью при Государственном совете, должен издавать стандарты для теста путунхуа для различных классов.
Статья 25 Отдел, отвечающий за работу, связанную с устной и письменной речью при Государственном совете, или другие заинтересованные отделы должны организовать проверку перевода имен собственных, таких как имена иностранцев и иностранных мест, а также научных и технических терминов. на стандартный разговорный и письменный китайский язык.
Статья 26. Любой гражданин может высказывать критику и вносить предложения в случаях, когда использование устной и письменной речи противоречит нормам общепринятого устного и письменного китайского языка и нарушает соответствующие положения главы II настоящего Закона.
Если лица, указанные в части второй статьи 19 настоящего Закона, используют язык в нарушение соответствующих положений главы II настоящего Закона, соответствующие подразделения в порядке просвещения критикуют лиц, непосредственно ответственных за это; любой, кто отказывается исправить это, должен быть обработан заинтересованными подразделениями.