Проекты

Проблемы создания корпусов языков малочисленных народов России на примере Открытого корпуса вепсского и карельского языков

2018-2020 г.г.
рук. Крижановский А.А.
РФФИ, № 18-012-00117

Цель исследования состоит в построении и развитии открытого корпуса вепсского и карельского языков.

Будет продолжена работа по развитию и пополнению корпуса вепсского языка. Будут созданы корпус наречий карельского языка (собственно-карельского, ливвиковского и людиковского) и электронные словари этих наречий, связанные с корпусами, будет продолжена работа по развитию аппарата экстралингвистической разметки корпуса (сведения об авторе, тексте, информанте, месте записи и т. п.). На небольшом подкорпусе диалектных и младописьменных текстов вручную будет выполнена морфологическая и семантическая разметка текстов.

Результаты проекта (корпуса и словари вепсского и карельских языков) будут соответствовать мировому уровню, поскольку таких электронных лингвистических ресурсов в мире на данный момент нет. Наличие такого ресурса внесёт существенный вклад в решение ключевых проблем, связанных с сохранением и популяризацией вепсского и карельского языков, находящихся под угрозой исчезновения, а также изучением взаимодействия русского языка и его диалектов с прибалтийско-финскими языками народов Карелии.

Название корпуса (Открытый корпус вепсского и карельского языков) отражает важную особенность данного проекта, которая заключается в открытости и доступности результатов, а именно:

1) исходный код разработанной компьютерной программы для работы с корпусом и словарем будет распространяться с открытой лицензией (free software);

2) данные корпуса и словаря будут находиться в открытом доступе с открытой лицензией;

3) через сайт Корпуса в разделе “Словарь” пользователям будет доступен поиск по словарю, в разделе “Корпус” - поиск по текстам корпуса; редакторы смогут редактировать и пополнять словарь и корпус;

4) результаты научных исследований станут общественным достоянием в виде публикаций.
Последние изменения: 9 апреля 2024