Институт прикладной семиотики Научная деятельность Фундаментальные и прикладные разработки Национальный корпус татарского языка «Туган тел»

Национальный корпус татарского языка «Туган тел»

Сайт: tugantel.tatar

Национальный корпус татарского языка «Туган тел» является лингвистическим ресурсом современного литературного татарского языка, предназначенным для широкого круга пользователей - лингвистов, специалистов в области татарского, тюркского и общего языкознания, типологов, преподавателей татарского языка, деятелей культуры, а также для всех, кто изучает и интересуется татарским языком. Данный электронный корпус является базовой составляющей программно-инструментального комплекса для исследования и разработок в тюркских языках.

Проект разработки электронного корпуса включает:

разработку концептуальной модели корпуса татарских текстов.
формирование текстовой коллекции, ее техническая и орфографическая нормализация.
разработку методологии лингвистической аннотации татарских текстов в части системы морфологической разметки и способов ее автоматизации.
реализацию функции поиска в корпусе и визуализация результатов поиска.
разработку методологии лингвистической аннотации в части системы семантико-синтаксической разметки и способов ее автоматизации.

Для управления данными корпуса разработана специализированная система управления лингвистическими данными – система «корпус-менеджер». Эта система ориентирована на работу с тюркскими языками, но может быть использована для работы с электронными корпусами других языков. Поисковая система корпуса позволяет реализовать поиск по:

Словоформе;
Лемме (лексеме);
Набору морфологических параметров.

Поисковая система также поддерживает поиск минус-слов (слова, которые требуется исключить из поиска), поиск по части слова, поиск с использованием логических формул, фразовый поиск; таким образом, пользователь может задавать сложные запросы, обусловленные спецификой своего исследования.

В целях быстрого и удобного извлечения результатов поиска для их дальнейшей обработки в прикладных приложениях разработаны программные инструменты Corpus API – набор функциональных API, позволяющих извлекать и представлять в различных форматах выборки по корпусу на основе заданных критериев.

Проект выполняется в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014-2020 годы».

Корпус включает татарские тексты различных жанров общим объемом более 180 млн. словоупотреблений (на декабрь 2019 года).

Последнее обновление: 8 декабря 2025 г., 16:40