Институт лингвистики Кафедры и центры Кафедра компьютерной лингвистики

Кафедра компьютерной лингвистики

Контакты

Адрес: 125267, Москва, Миусская пл., д. 6., корпус 2., комн. 211

Телефон: +7 (499) 973-42-53

e-mail: coling-rsuh@abbyy.ru

Заведующий кафедрой: Владимир Павлович Селегей (e-mail: vp_selegey@il-rggu.ru)

Общая информация

Кафедра компьютерной лингвистики была открыта в Институте лингвистики РГГУ в 2011 году при участии компании ABBYY и поддержке российского отделения IBM. Кафедра готовит профессиональных лингвистов, способных эффективно работать в области разработки инновационных языковых компьютерных технологий. С 2012 года кафедра будет осуществлять подготовку магистрантов по программе «Компьютерная лингвистика» направления «Фундаментальная и прикладная лингвистика».

Компьютерная лингвистика является относительно новой областью научной и инженерной деятельности. Актуальность создания данной магистерской программы определяется тем, что в последние 10-15 лет наблюдается бурное развитие этой области, связанное со всё растущим влиянием Интернета и появлением огромного количества новых технических устройств, важнейшей частью которых являются естественно-языковые интерфейсы. Кроме того, в современной лингвистике происходит стремительный переход от традиционных методов получения языковых данных к корпусным методам, требующим серьёзного развития компьютерных технологий.

Очевидная, возрастающая год от года потребность в специалистах, способных участвовать в разработке соответствующих технологий, не подкреплена ещё, к сожалению, наличием адекватного образовательного стандарта в системе российского образования. Предлагаемая программа является одной из первых попыток определения того, какие именно специалисты требуются отрасли.

Область деятельности, связанная с решением задач автоматической обработки Естественного Языка (ЕЯ) и именуемая «Компьютерная лингвистика», требует подготовки специалистов двух принципиально отличающихся направлений: лингвистов и инженеров. Эти направления базируются на двух совершенно разных системах образования:

  • «Компьютерная лингвистика для инженеров» является частью т.н. Computer Science. В рамках этого направления готовятся инженеры, способные эффективно решать задачи автоматической обработки ЕЯ, опираясь на необходимые для конкретной задачи существующие лингвистические ресурсы и модели. Кафедра способствует появлению таких специалистов, взаимодействия с техническими вузами. В частности, с участием кафедры компьютерной лингвистики РГГУ создаётся «параллельная» магистерская программа по компьютерной лингвистике для инженеров в МФТИ.
  • «Компьютерная лингвистика для лингвистов» является разделом теоретической и прикладной лингвистики. В рамках этого направления готовятся лингвисты, способные решать задачи создания формальных языковых моделей и выполненных на их основе лингвистических ресурсов, обладающих необходимыми свойствами для их применения в задачах автоматической обработки ЕЯ. Именно это направление реализуется магистерской программой «Компьютерная лингвистика», созданной силами кафедры.

Важнейшим обстоятельством является то, что специалисты, подготовленные в рамках этих двух направлений, являются необходимыми участниками любых серьезных проектов в области автоматической обработки ЕЯ. И хотя они выполняют существенно различающиеся функции, умение эффективно взаимодействовать между собой является ключевым фактором в успехе таких проектов. Основы такого взаимодействия закладываются в программах за счет серьёзной инженерной и математической подготовки лингвистов (и соответствующей лингвистической подготовки инженеров).

Таким образом, подготовка магистров по компьютерной лингвистике в данной программе основывается на глубоком изучении фундаментальных основ лингвистики с акцентом на методы создания операциональных формальных моделей языковой системы, адекватных сложности таких задач обработки естественного языка, как распознавание и синтез речи, машинный перевод, семантический анализ и понимание текста, интеллектуальный поиск.

Специфика кафедры отражена в следующих разделах:

  1. Формальные модели языка (с акцентом на перспективах прикладного использования);
  2. Инструментальное направление: специализированные языки и пакеты для лингвистов (типа NLTK, R И т.п.), имеющиеся ресурсы (от грамматик и парсеров до онтологий);
  3. Прикладное направление (отдельные важные задачи NLP, как они решаются, как используется лингвистика);
  4. Математическая и инженерная подготовка. Статистика, формальные грамматики, представление о методах машинного обучения.

Магистрантам направления «Компьютерная лингвистика» кафедра читает следующие курсы:

  • Математические основы компьютерной лингвистики. Обзорный курс основных математических методов, применяемых в компьютерной лингвистике: математическая логика; теория вероятностей и статистика; формальные грамматики; теория алгоритмов, в частности - понятие сложности алгоритма; машинное обучение;
  • Программирование лингвистических задач (NLTK и R). Задача курса – обучение студентов работе с доступными интерпретаторами на основе языка Python. Краткое введение в методы программирования в целом;
  • Общая и компьютерная лексикография (по программе Lexicom). Курс знакомит студентов с принципами современной системной лексикографии; с новыми методиками лексикографической работы, включая корпусные методы. Рассматриваются современные компьютерные системы создания словарей, анализируются новые тенденции в лексикографии (вики-проекты, экспертные методы оценки филиации и т.п);
  • Модели и методы автоматической обработки текста (NLP/АОТ). Обзорный курс, состоящий из двух частей (матричный, с разными лекторами): основные лингвистические модели + основные решаемые задачи. Курс методически связан с курсом «Математические основы лингвистических исследований». Первая часть курса носит резюмирующий характер и опирается на системные знания о языке, полученные магистрами в ходе обучения в бакалавриате по лингвистическим специальностям (эти знания являются необходимыми для сдачи вступительного экзамена);
  • Лингвистические и онтологические модели. Идеологически очень важный курс, перебрасывающий мостик между лингвистическими и экстралингвистическими моделями. В курсе рассматривается интерфейс между лексико-семантическими и онтологическими описаниями (в частности, проект Игоря Богуславского). Анализируются современные лингво-онтологические ресурсы (*net), современные проекты «мэппинга» между ними (Марта Палмер и К);
  • Корпусная лингвистика. Рассматриваются проблемы создания и оценки корпусов. Интернет как корпус. Методы автоматического создания корпусов. Анализ методов использования корпусов в лингвистических исследованиях (оценка значимости полученных статистических результатов).
  • Лингвистическое аннотирование и разметка. Языки и методы разметки, начиная с XML. Идеологически близко курсу Хови;
  • Машинный перевод;
  • Методы оценки NLP-приложений;
  • Формальные модели и ресурсы основных мировых языков (неиндоевропейских);
  • Информационный поиск;
  • Вопросно-ответные системы (спецкурс IBM);
  • Специализированные лингвистические базы данных.

Студентам Института Лингвистики (специалитет, бакалавриат, магистратура) кафедра читает следующие курсы:

  • Введение в компьютерную лингвистику;
  • Компьютерная лингвистика. Основные задачи и технологии;
  • Современные методы социолингвистики;
  • Автоматический перевод
  • Лингвистические основы машинного перевода;
  • Основы информатики;
  • Основные направления лингвистического обеспечения новых информационных технологий (компьютерный анализ текстов);
  • Информатика и информационные технологии в лингвистике;
  • Автоматическая обработка естественного языка;
  • Автоматическая обработка текста, Автоматическая генерация текстов-описаний изображений;
  • Компьютерное обеспечение переводческой деятельности;
  • Корпусная лингвистика.

Студенты проходят практику в компании ABBYY.

См. также страницу кафедры компьютерной лингвистики на сайте компании ABBYY.

Список сотрудников кафедры компьютерной лингвистики

Владимир Павлович Селегей – директор по лингвистическим исследованиям компании ABBYY, заведующий кафедрой компьютерной лингвистики
«Введение в компьютерную лингвистику»
контактный адрес электронной почты: vp_selegey@il-rggu.ru

Владимир Иванович Беликов – доктор филологических наук, профессор
«Компьютерная социолингвистика»
контактный адрес электронной почты: vi_belikov@il-rggu.ru

Леонид Лейбович Иомдин – кандидат филологических наук, доцент
«Автоматический перевод», «Лингвистические основы машинного перевода», «Лингвистическая и онтологическая семантика»
контактный адрес электронной почты: ll_iomdin@il-rggu.ru

Александр Чедович Пиперски – кандидат филологических наук, доцент
«Технологии обработки текста и звучащей речи», «Корпусная лингвистика», «Основы информатики», «Введение в компьютерную лингвистику», «Информатика и информационные технологии в лингвистике», «Статистические модели в лингвистике»
контактный адрес электронной почты: ac_piperski@il-rggu.ru

Сергей Александрович Шаров – кандидат физико-математических наук, доцент
«Математические основы компьютерной лингвистики», «Корпусная лингвистика», «Методы искуственного интеллекта в компьютерной лингвистике»
контактный адрес электронной почты: sa_sharov@il-rggu.ru

Алексей Андреевич Сорокин - кандидат физико-математических наук, преподаватель 
«Математические основы лингвистики», «Методы классификации и машинное обучение»
контактный адрес электронной почты: aa_sorokin@il-rggu.ru

Даниил Владимирович Селегей - преподаватель
«Программирование лингвистических задач»
контактный адрес электронной почты: dv_selegey@il-rggu.ru

Анна Ульянова – секретарь кафедры
контактный адрес электронной почты: av_ulyanova@il-rggu.ru

Документы

Положение о кафедре

План работы кафедры на 2013-2014 учебный год

Тематика курсовых работ

Тематика дипломных работ

Методические рекомендации по выполнению курсовых и дипломных работ для лингвистов (ТиПЛ/ЯиТК, ФиПЛ) и переводчиков (ПиП, ТиПМК)