Национальный корпус татарского языка «Туган тел»

Сайт: tugantel.tatar

 

Национальный корпус татарского языка «Туган тел» является лингвистическим ресурсом современного литературного татарского языка, предназначенным для широкого круга пользователей - лингвистов, специалистов в области татарского, тюркского и общего языкознания, типологов, преподавателей татарского языка, деятелей культуры, а также для всех, кто изучает и интересуется татарским языком. Данный электронный корпус является базовой составляющей программно-инструментального комплекса для исследования и разработок в тюркских языках.

 

Проект разработки электронного корпуса включает:

  • разработку концептуальной модели корпуса татарских текстов.
  • формирование текстовой коллекции, ее техническая и орфографическая нормализация.
  • разработку методологии лингвистической аннотации татарских текстов в части системы морфологической разметки и способов ее автоматизации.
  • реализацию функции поиска в корпусе и визуализация результатов поиска. 
  • разработку методологии лингвистической аннотации в части системы семантико-синтаксической разметки и способов ее автоматизации.

Для управления данными корпуса разработана специализированная система управления лингвистическими данными – система «корпус-менеджер». Эта система ориентирована на работу с тюркскими языками, но может быть использована для работы с электронными корпусами других языков. Поисковая система корпуса позволяет реализовать поиск по:

  • Словоформе;
  • Лемме (лексеме);
  • Набору морфологических параметров.

Поисковая система также поддерживает поиск минус-слов (слова, которые требуется исключить из поиска), поиск по части слова, поиск с использованием логических формул, фразовый поиск; таким образом, пользователь может задавать сложные запросы, обусловленные спецификой своего исследования.

В целях быстрого и удобного извлечения результатов поиска для их дальнейшей обработки в прикладных приложениях разработаны программные инструменты Corpus API – набор функциональных API, позволяющих извлекать и представлять в различных форматах выборки по корпусу на основе заданных критериев.

 

Проект выполняется в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014-2020 годы».

 

Корпус  включает татарские тексты различных жанров общим объемом более 180 млн. словоупотреблений (на декабрь 2019 года).

Последнее обновление: 8 декабря 2025 г., 16:40

Все материалы сайта доступны по лицензии:
Creative Commons Attribution 4.0 International