Хух-Хото, 22 января /Синьхуа/ -- Китайские лингвисты создали корпус монгольского языка, в который вошли 80 млн слов. Об этом сообщили в Академии общественных наук автономного района Внутренняя Монголия /Северный Китай/.
Корпус представляет собой электронный онлайновый массив текстов, в которых можно проводить поиск.
Ученые работали над проектом в течение 10 лет. За это время они записали на видео 4192 часа бытовой разговорной речи и более 4 тысяч часов официально-деловой речи. После этого полученные данные были переведены в письменный формат и оцифрованы.
Корпус получился репрезентативным не только за счет количественных характеристик, но и благодаря тому, что данные собирались среди 6725 респондентов не только в Китае, но и за рубежом. В частности, в Монголии и России.
При этом в Китае в сборе данных приняли участие Внутренняя Монголия и 7 других административных единиц провинциального уровня. В Монголии лингвисты работали с языковым материалом в 5 аймаках и городах. А в России -- в 97 населенных пунктах Республики Бурятия и Калмыкии.
Проект по созданию корпуса позволит стандартизировать и оцифровать язык, что крайне важно для его популяризации и защиты от исчезновения.
Как отмечают в академии общественных наук, нынешний корпус -- это только первая часть проекта, запущенного в 2005 году. В ближайшие 10 лет ученые пополнят имеющуюся базу другими языками алтайской семьи: даурским, эвенкийским, орочонским языком. К 2025 году объем корпуса вырастет до 200 млн слов. -0-