Китайские лингвисты создали корпус монгольского языка

2016-01-22 18:56:34 | Russian.News.Cn версия для печати

Хух-Хото, 22 января /Синьхуа/ -- Китайские лингвисты создали корпус монгольского языка, в который вошли 80 млн слов. Об этом сообщили в Академии общественных наук автономного района Внутренняя Монголия /Северный Китай/.

Корпус представляет собой электронный онлайновый массив текстов, в которых можно проводить поиск.

Ученые работали над проектом в течение 10 лет. За это время они записали на видео 4192 часа бытовой разговорной речи и более 4 тысяч часов официально-деловой речи. После этого полученные данные были переведены в письменный формат и оцифрованы.

Корпус получился репрезентативным не только за счет количественных характеристик, но и благодаря тому, что данные собирались среди 6725 респондентов не только в Китае, но и за рубежом. В частности, в Монголии и России.

При этом в Китае в сборе данных приняли участие Внутренняя Монголия и 7 других административных единиц провинциального уровня. В Монголии лингвисты работали с языковым материалом в 5 аймаках и городах. А в России -- в 97 населенных пунктах Республики Бурятия и Калмыкии.

Проект по созданию корпуса позволит стандартизировать и оцифровать язык, что крайне важно для его популяризации и защиты от исчезновения.

Как отмечают в академии общественных наук, нынешний корпус -- это только первая часть проекта, запущенного в 2005 году. В ближайшие 10 лет ученые пополнят имеющуюся базу другими языками алтайской семьи: даурским, эвенкийским, орочонским языком. К 2025 году объем корпуса вырастет до 200 млн слов. -0-

На главную страницу
RUSSIAN.NEWS.CN

Китайские лингвисты создали корпус монгольского языка

RUSSIAN.NEWS.CN 2016-01-22 18:56:34

Хух-Хото, 22 января /Синьхуа/ -- Китайские лингвисты создали корпус монгольского языка, в который вошли 80 млн слов. Об этом сообщили в Академии общественных наук автономного района Внутренняя Монголия /Северный Китай/.

Корпус представляет собой электронный онлайновый массив текстов, в которых можно проводить поиск.

Ученые работали над проектом в течение 10 лет. За это время они записали на видео 4192 часа бытовой разговорной речи и более 4 тысяч часов официально-деловой речи. После этого полученные данные были переведены в письменный формат и оцифрованы.

Корпус получился репрезентативным не только за счет количественных характеристик, но и благодаря тому, что данные собирались среди 6725 респондентов не только в Китае, но и за рубежом. В частности, в Монголии и России.

При этом в Китае в сборе данных приняли участие Внутренняя Монголия и 7 других административных единиц провинциального уровня. В Монголии лингвисты работали с языковым материалом в 5 аймаках и городах. А в России -- в 97 населенных пунктах Республики Бурятия и Калмыкии.

Проект по созданию корпуса позволит стандартизировать и оцифровать язык, что крайне важно для его популяризации и защиты от исчезновения.

Как отмечают в академии общественных наук, нынешний корпус -- это только первая часть проекта, запущенного в 2005 году. В ближайшие 10 лет ученые пополнят имеющуюся базу другими языками алтайской семьи: даурским, эвенкийским, орочонским языком. К 2025 году объем корпуса вырастет до 200 млн слов. -0-

010020070780000000000000011103291350365191