Аннотации некоторых курсов

1. Автоматический анализ устной речи.

Курс призван дать магистрантам общее представление о спектре задач, решаемых при анализе живой устной речи, показать разнообразие подходов к изучению устных текстов. С опорой на литературные источники, корпусные данные и возможности компьютерных анализаторов устной речи в рамках курса демонстрируются наиболее продуктивные методы работы с устным материалом; демонстрируются ключевые характеристики устного дискурса, наиболее рельефно отличающие этот вид использования языка от письменного модуса; разбираются принципы создания дискурсивной транскрипции; обсуждаются вопросы сегментации и организации локальной структуры устного текста.

2. Компьютерная лингвистика. Основные задачи и технологии.

Цель курса – познакомить магистрантов с компьютерной лингвистикой как научно-практическим направлением, его краткой историей и местом в системах гуманитарного знания и информационных приложений, задачах, связанных с обработкой основных лингвистических и текстовых параметров языковых произведений, а также с методами и технологиями, использующимися в рамках компьютерной лингвистики.

3. Компьютерный синтаксический анализ текстов на естественном языке.

Курс «Компьютерный синтаксический анализ текстов на естественном языке» является междисциплинарным курсом, предназначенным для ознакомления магистрантов с тем, как используются в системах автоматического анализа текстов те синтаксические модели, которые разрабатываются в теоретической лингвистике.
Предлагаемый курс является модифицированной для лингвистов сокращенной версией курса по синтаксическому анализу, который читается автором для инженеров специализации «Компьютерная лингвистика» в МФТИ и ВМК МГУ. Полный курс включает также систематическое изложение алгоритмов синтаксического анализа, предложенных в рамках некоторых из подходов. Для наиболее подготовленных магистрантов вторая часть инженерного курса может предлагаться как спецкурс по технологиям синт.анализа.

4. Корпусная лингвистика.

Цель курса – познакомить магистрантов с наиболее актуальными современными компьютерными корпусами текстов и лексикографическими ресурсами, программами обработки текста, с технологиями создания собственных исследовательских корпусов, научить применять методы создания собственных исследовательских корпусов, работы с корпусными данными, методы обработки этих данных в собственных научных исследованиях.

5. Лингвистическая и онтологическая семантика.

Курс призван дать магистрантам общее представление о месте семантики в современной теоретической и компьютерной лингвистике. С одной стороны, курс позволит студентам ознакомиться с основными достижениями современной семантики как раздела лингвистики, соответствующего глубинным уровням представления языковых выражений. Слушатели курса получат представление об основных положениях различных семантических теорий. С другой стороны, студенты познакомятся с относительно новой отраслью семантической науки – онтологической семантикой, которая ориентирована на экстралингвистическое описание устройства мира в целом и отдельных предметных областей. Студенты получат представление о том, как идеи и методы лингвистической и онтологической семантики используются в решении актуальных практических задач компьютерной лингвистики. Будет продемонстрирована связь лингвистической и онтологической семантики со смежными дисциплинами теоретической и компьютерной лингвистики, а также информационных технологий:

6. Лингвистические основы машинного перевода.

В курсе, предназначенном для магистрантов кафедры «Компьютерная лингвистика», рассматриваются основные лингвистические подходы к решению задачи машинного перевода текста с одного естественного языка на другой, а также некоторых других задач автоматической обработки текстов.

7. Лингвистическое аннотирование и разметка текстов.

Курс «Лингвистическое аннотирование/разметка текстов» представляет одно из наиболее актуальных направлений исследований и разработок в современной компьютерной лингвистике. Лингвистическое аннотирование текстов является сегодня одновременно:
• одним из наиболее эффективных инструментов лингвиста для получения данных о языке из размеченных корпусов;
• наиболее эффективным способом применения методов машинного обучения в компьютерной лингвистике.
Существенно, что между этими двумя направлениями, ориентированными на несколько различающиеся цели, имеется положительная обратная связь: прогресс в совершенствовании стандартов и технологий ручного аннотирования приводит и к прогрессу систем автоматического аннотирования, что, в свою очередь, обеспечивает возможность проведения лингвистических исследований на корпусах текстов таких объемов, на которых принципиально невозможно ручное аннотирование.

8. Методы оценки систем АОТ.

Курс «Методы оценки систем АОТ (Автоматического Анализа Текстов)» представляет принципиально новое направление в профессиональной программе подготовки специалистов по специальности «Компьютерная лингвистика».
Современная компьютерная лингвистика сформировалась как полноценная научная дисциплина только после формирования двух составляющих:
• научно-технологической: соответствующие методы рассматриваются в основных курсах программы;
• верификационной: методы сравнительной оценки систем АОТ, ставшие признанными стандартами для всего научного сообщества, - они и рассматриваются в данном курсе.
В системах AOT важно быстро получить количественную оценку того, насколько один подход к решению проблемы лучше другого, либо насколько изменение одного параметра системы влияет на результаты ее работы в целом. Кроме того, современные требования к методике представления научных работ требуют наличия специального раздела в тексте (т.н. evaluation), в котором исследователь обязан провести оценку своей разработки по тем стандартными методикам, которые международно приняты для соответствующей области исследований. Только это позволяет зачастую объективно оценить научный вклад исследователя, учитывая различие в подходах, не позволяющее проводить сравнительную оценку напрямую.
К сожалению, как показывает опыт рецензирования научных работ, представляемых на различные конференции российскими исследователями, имеется заметное отставание в этой сфере, которое затрудняет молодым российским исследователям выход на международную арену, даже если в работах получены достойные результаты.

9. Общая и компьютерная лексикография.

Предметом данной дисциплины являются лексикография как комплекс теоретических знаний, методов практической словарной работы и современных технологий создания словарей.
  Необходимость такого курса вызвана тем, что хотя теоретическая лексикография и является частью лингвистики, реальная практика создания словарей далеко не всегда соответствует современным теоретическим воззрениям. К сожалению, бòльшая часть современных словарей делается лексикографами, не имеющими адекватной теоретической подготовки в области лексической семантики. С другой стороны, теоретические представления, не поддержанные реальной практической работой с языковым материалом, не получают должной верификации на реальных языковых данных в условиях масштабных лексикографических проектов.

10. Основные направления лингвистического обеспечения новых информационных технологий (компьютерный анализ текстов).

Цель данного курса - познакомить магистрантов с современными методами и моделями, используемыми в различных модулях лингвистического обеспечения систем автоматической обработки текста. Курс закладывает теоретическую и практическую базу для разработки и тестирования различных модулей автоматического анализа текста и извлечения информации из текста.

11. Программирование лингвистических задач.

Курс «Программирование лингвистических задач» относится у инструментальному блоку программы подготовки магистров по специальности Компьютерная Лингвистика. Общей целью этого блока является оснащение магистра необходимыми рабочими инструментами и компьютерными технологиями решения как исследовательских, так и прикладных задач.
Курс лингвистического программирования является базовым курсом инструментального блока, тесно связанным с дисциплинами математической и инженерной подготовки «Математические основы компьютерной лингвистики», «Методы ИИ в компьютерной лингвистике»
Профессиональный лингвист должен обладать сегодня навыками, позволяющими ему провести лингвистическое исследование с помощью компьютера, пользуясь всем арсеналом имеющихся технологических решений. Эти решения, однако, часто являются по сути библиотеками программ с программным интерфейсом или даже открытими (Open Source) кодами. Работа с такими инструментами требует владения основами программирования.
В отличие от авторов некоторых альтернативных программ подготовки компьютерных лингвистов мы не рассматриваем в качестве приоритетной для выпускников область т.н. стартапов: небольших проектов, в которых участникам по необходимости приходится решать сразу несколько задач: от лингвистики до программирования и маркетинга. Однако, подготовка, полученная магистром данной специальности при изучении курсов инструментального блока должна быть достаточной для приемлемого уровня решения и таких задач. При этом нужно учитывать, что в коммерческих проектах такого рода конкурентное преимущество будут иметь все же профессиональные инженеры, получившие направленную экспресс-подготовку по лингвистике.
Это определяет разумную глубину и тематическую достаточность курсов инструментального цикла для компьютерных лингвистов в отличие от подготовки инженеров по этой специальности.

12. Типология грамматических категорий и грамматических систем.

Курс призван дать магистрантам представление о типологическом разнообразии грамматических категорий различных частей речи в языках мира; о современных методах типологически-ориентированного описания грамматических категорий и грамматических систем; показать связь между исследованием грамматических категорий и изучением других компонентов языка; отразить разнообразие проблем, возникающих при изучении грамматических категорий и грамматических систем и многообразие предлагаемых в современной лингвистике их решений.

13. Формальные модели и ресурсы мировых языков.

Курс призван дать магистрантам общее представление о тех проблемах, с которыми сталкивается компьютерная лингвистика при обработке текстов на разноструктурных языках и создании формальных моделей этих языков, а также показать связь между компьютерной лингвистикой и основными направлениями современной теоретической лингвистики. Курс должен продемонстрировать, что многие задачи компьютерной лингвистики чрезвычайно лингвоспецифичны и могут быть решены только при глубоком понимании теоретических проблем, традиционно находящихся в ведении лингвистической типологии и сопоставительного языкознания. Особое внимание в курсе планируется уделить неиндоевропейским языкам.

14. Научно-исследовательская практика.

Необходимой частью полноценной профессиональной подготовки лингвиста по программе «Компьютерная лингвистика» должно быть закрепление полученных знаний в результате участия в научно-исследовательских проектах, соответствующих современному уровню мировой науки.
В качестве базы научно-исследовательской практики (НТП) могут выступать проекты двух видов:
• Реальные научно-технические проекты, в которых участвует кафедра компьютерной лингвистики. Особенностью таких проектов является особый инженерный прагматизм, связанный с необходимостью эффективной реализации поставленных исследовтельских задач в определенные сроки.
• Учебные проекты, основанные на специально подобранных учебных задачах и технологиях, вовлекающих в сферу практической реализации знания, которые могут быть еще не востребованы в доступных для участия реальных проектах.
Научно-исследовательская практика является также инструментом специализации магистрантов, и в такой разнообразной по методам и задачам области, как компьютерная лингвистика, невозможно и нецелесообразно ограничиваться в качестве основы НТП единственным учебным или реальным проектом.

15. Производственная практика.

Задачей производственной практики магистров специальности Компьютерная Лингвистика является, прежде всего, приобретение навыков профессиональной работы в составе команды специалистов, работающей над реальным проектом в области автоматической обработки языка.
Такая практика дает магистранту возможность получить опыт работы в проекте, где необходимо взаимодействие между лингвистами и инженерами, и объективно оценить уровень практической полезности и эффективности полученных в ходе обучения знаний.
В качестве проектной базы производственной практики магистров данной специальности предполагается использовать научно-технические проекты, в которых участвует кафедра Компьютерной Лингвистики. Предполагается привлекать магистров к следующим основным проектам:
• Проекту Brains, Mind and Machine, реализуемого по программе ScTech для сколковского университета с участием МГУ и MIT;
• Проект Compreno компании ABBYY, связанный с задачами многоязычного семантического поиска;
• Проект создания автоматического Интернет-корпуса Русского языка (совместный проект с участием МФТИ и Лидского университета, рук. С.А. Шаров).

Основной целью производственной практики является учебно-методическая: получение магистрами навыков работы в составе команд реальных проектов в области автоматической обработки языка.
При этом характер предлагаемых для прохождения практики проектов позволяет ставить и научные цели, прежде всего, анализ полноты, непротиворечивости и операциональности существующих языковых описаний и ресурсов для решения практических задач АОТ.