Российская высшая школа приступает к обучению студентов по специальности "компьютерная лингвистика". По мнению экспертов, представителей академической и отраслевой среды, все необходимые условия для этого созрели: отечественная наука имеет в этой сфере серьезную основу, на рынке видно определенное повышение спроса на таких профессионалов, есть интересен к подобной деятельности со стороны молодежи, выбирающей для себя жизненный путь, имеется готовность оказания спонсорской (методической, технической, финансовой) поддержки развитию этого направления в вузах со стороны ИТ-отрасли.
Именно с этих тезисов началось обсуждение данной темы на круглом столе, состоявшемся в середине мая в Российском государственном гуманитарном университете (РГГУ), на котором было объявлено о старте проекта, реализуемого под эгидой Института лингвистики РГГУ, компаний ABBYY и IBM. Было объявлено о создании двух кафедр компьютерной лингвистики, одной в самом РГГУ, второй - в Московском физико-техническом институте (МФТИ). Комментируя этот анонс директор Института лингвистики Максим Кронгауз напомнил, что лингвистика - это издавна существующая наука об устройстве и принципах функционирования естественного языка, имеющая хорошую историю развития в нашей стране. Подготовка специалистов в этой области является одним из давних профильных направлений РГГУ, проводимой под игидой руководимого им института. Сейчас ежегодно выпускается 60-80 студентов данного профиля.
Компьютерную лингвистику можно определить как междисциплинарную область разработки методов решения различных полезных задач обработки естественного языка (любого языка!) с помощью ИТ. Данное направление также имеет свою историю, в том числе отечественную (как минимум 30-40 лет), но до сих пор целенаправленной подготовкой специалистов в этой области наша высшая школа практически не занималась. В последние же годы потребности рынка серьезно изменились и потому пора активно заниматься этим направлением, наверстывая упущенное время.
С практическим применением компьютерной лингвистики каждый день имеют дело почти все пользователи ПК - это, например, проверка правописания, грамматики и стиля в тестовых редакторах. Давно и широко присутствуют на рынке различные средства распознавания печатных и рукописных текстов. Можно также назвать распознавание (диктовка, слитная) и синтез речи, машинный перевод текста и речи, генерацию текста, поиск нужного документа по запросу в информационных ресурсах, реферирование (смысловое сжатие), анализ содержания текстов (классификация; кластеризация; установление сходства, фильтрация нежелательных документов, анализ тональности и пр.), вопросно-ответные системы и системы логического вывода и разного рода другие системы извлечения знаний.
Компьютерная лингвистика особенно активно развивается во всем мире в последнее десятилетие в связи с растущим влиянием Интернета и появлением большого числа новых технических устройств с естественно-языковыми интерфейсами. Помимо уже перечисленных направлений важным является также создание инструментов и методов для собственно лингвистических исследований (область пересечения интересов теоретической и компьютерной лингвистик).
Актуальность задачи целенаправленной подготовки специалистов по компьютерной лингвистики обозначалась уже давно, отметил Максим Кронгауз. Проблема видна хотя по тому, что в мировых научных исследованиях по данной теме недостаточно представлены как русский язык (как объект изучения), так и отечественная наука в целом. При этом парадокс заключается в том, что как раз российские компании - разработчики в этой сфере занимают заметное место в мировой табели о рангах, и более того как раз подобные направления в силу наличия в стране общего научно-образовательного ресурса могу стать основой для расширения присутствия России на мировом ИТ-рынке.
Серьезные, причем нарастающие кадровые трудности испытывает все российское направление языковых технологий: как ИТ-компании, ведущие разработки, так и заказчики, которым данные средства нужны для повышения эффективности работы. Кадровая проблема усугубляется еще и тем, что для "доводки" собственного уровня квалификации по данной теме выпускникам вузов порой приходится уезжать для дополнительного образования за рубеж, где они чаще всего и остаются. "Я рад, что мы - вузы и компании - достигли понимания в решении наших взаимных проблем и договорились о начале тесного сотрудничества в этой сфере", - добавил представитель РГГУ.
Об актуальности данной темы с точки зрения мирового ИТ-рынка сказала заместитель генерального директора Научно-технического центра IBM Катерина Фроловичева: "Наибольшая часть ценной информации содержится в виде текстов на естественном языке. В связи с этим стратегическим приоритетом становится разработка инструментов, которые могут извлекать и анализировать информацию из огромных массивов неструктурированных данных".
Руководить обеими новыми кафедрами в РГГУ и МФТИ будет директор по лингвистическим исследованиям компании ABBYY Владимир Селегей. Поясняя факт открытия таких структур одновременно в двух вузов, он обратил внимание на то, что компьютерная лингвистика реализуется на стыке гуманитарных и технических наук, поэтому сотрудничество двух ведущих в своих областях вузов (в том числе использование пересекающихся пулов преподавательских кадров, общие исследовательские проекты) является не просто полезным, но и необходимым. При этом подготовка специалистов на каждой кафедре будет иметь свою специфику, определяемую разной базовой подготовкой студентов, а также различиями в применяемых системах образования.
Комментируя этот момент, декан факультета инноваций и высоких технологий МФТИ Валерий Кривцов отметил, что подготовка специалистов в физтехе изначально была основана на использовании модели базовых кафедр, создаваемых в СССР ведущими НИИ страны, где получали специализированную подготовку студенты старших курсов. Эта же система широко используется в вузе и сейчас, свои базовые кафедры там имеет значительное число российских ИТ-компаний (в том числе и ABBYY, основатели которой - выпускники МФТИ начала 1990-х). Он подчеркнул, что такая форма сотрудничества института с отраслью самым позитивным образом отражается на развитии общей системы обучения, обеспечивая высокий уровень качества подготовки специалистов, а значит, и конкурентоспособности вуза.
Говоря о конкретных планах работы, Владимир Селегей сообщил, что специализация "компьютерная лингвистика" будет основана на базовой дисциплине "фундаментальная и прикладная лингвистика" и дополнена рядом специальных курсов и участием студентов в конкретных исследовательских проектах. Специальные предметы будут даваться в той или иной мере всем студентам, интересующимся этой тематикой. Конкретно же первые группы студентов по степеням (отдельно) бакалавр и магистр по новой специальности в составе 4-5 человек будут формироваться в новом учебном году, через несколько лет обе кафедры надеются выйти на уровень ежегодного выпуска примерно десяти специалистов (по каждой научной степени).