Нейронный перевод: новый тренд и его перспективы

Этой статьей мы начинаем серию публикаций на тему машинного перевода. Работая над тем, чтобы включить в экосистему smartCAT решения сторонних разработчиков, мы готовимся к вступлению в эру конвергенции, начало которой прозорливо спрогнозировал Яп ван дер Мер в своей презентации на конференции TAUS в 2013 году. Наша цель — не просто развиваться вместе с другими участниками отрасли, а возглавить этот процесс при помощи самых современных технологий.

Прочитать статью Япа полностью можно на сайте TAUS.

Внимание! Оригинал этой статьи был опубликован в англоязычном разделе блога в марте. В ней идет речь о новой нейронной технологии переводов, которую с недавнего времени используют Google и Microsoft. Мы перевели этот текст на русский с помощью обновленного майкрософтовского онлайн-переводчика (Гугл обещает включить нейронные переводы в этой языковой паре в начале мая). Под каждым абзацем есть кнопка, которая переключает текст с нейронного русского на человеческий. Пост-редактуру по нашей просьбе выполнил Ваагн Малоян. Мы предложили ему прокомментировать свой первый опыт работы с таким текстом. Читайте наше небольшое интервью с Ваагном в конце статьи.

В ноябре прошлого года Google и корпорация Майкрософт объявили о том, что они обновили свои двигатели перевода с помощью систем нейро-машинного перевода (НМТ). Обе компании отметили значительный рост объема выпускаемой продукции, с тем чтобы потребовать, чтобы улучшение перевешивает все усилия, предпринятые в течение последних десяти лет. Корпорация Майкрософт, в свою очередь, создала демонстрационную страницу, показывающую впечатляющий прогресс в точности и свободном владении НМТ технологиями по сравнению с предыдущим, старшими (Статистический компьютерный перевод). Хотя как Google, так и корпорация Майкрософт в настоящее время поддерживают только десятки самых популярных языков, компании ясно заявили, что достигнута важная веха, и они хотят работать над развитием технологии и добавлением новых языков.В ноябре прошлого года компания Google и корпорация Microsoft объявили об обновлении своих переводческих движков с помощью систем нейро-машинного перевода (НМТ). Обе компании отметили значительное повышение качества машинного перевода. По утверждению представителей Google достигнутые улучшения превосходят суммарные итоги усилий, предпринятых за последние десять лет в этом направлении Microsoft, в свою очередь, наглядно показывает на специальной демонстрационной странице, насколько NMT позволяет повысить точность и разборчивость машинного перевода по сравнению с прежним методом SMT (статистический машинный перевод). В настоящее время число наиболее распространенных языков, поддерживаемых Google и Microsoft можно посчитать по пальцам. Однако обе компании собираются активно развивать NMT и повышать количество поддерживаемых языков. По их мнению достигнута важная веха в технологии машинного перевода.
Переключить

Принципы NMT

Искусственные нейронные сети стали оставаться и уже доказали свою эффективность в наукоемких отраслях. Не будет долго до того, как эта технология станет обыденной, и для широкой публики объявление о НМТ послужило введением. «Искусственные нейронные сети (NN) являются практичными, элегантными и математически увлекательными моделями для машинного обучения. Они вдохновлены центральными нервными системами людей и животных — более мелкие вычислительные единицы (нейроны) соединяются друг с другом, чтобы сформировать сложную сеть, способную учиться и адаптироваться», – объясняет доктор Марек Рей, научный сотрудник Кембриджского университета.Искусственные нейронные сети, активно используемые при обработке данных в различных отраслях, уже успели наглядно продемонстрировать свою эффективность. Объявление о внедрении NMT компаниями Google и Microsoft стало первой презентацией широкой публике новой технологии, которая вскоре должна стать частью нашей повседневной жизни. «Искусственные нейронные сети (НС) — это практичные, элегантные и завораживающие математические модели машинного обучения. Их создателей вдохновили принципы работы центральных нервных систем людей и животных, в которых крошечные информационные блоки (нейроны) объединяются вместе, формируя сложную сеть, способную к обучению и адаптации», – такое объяснение дает доктор Марек Рей, ученый из Кембриджского университета.
Переключить

Такие сложные модели, как Google и Microsoft Build, требуют больших наборов данных и их производительность зависит от обширных вычислительных ресурсов. НМТ учится на переводе путем обработки массивных коллекций существующих переводов на разные языковые пары. В отличие от метода поверхностного анализа, который основывается на приобретении сходства из двуязычных текстов, Новая технология не просто соответствует слову и фразам, а тщательно изучает взаимоотношения между двумя языками. Он анализирует каждый сегмент в тексте и пытается понять его контекст, поэтому определяя значение каждого слова в сегменте, который необходимо перевести. Не смотря на грамматические правила, семантику и структуру, НМТ находит озарения и лингвистические структуры даже человеческий ум не может раскрыться. Затем он деконструирует полные предложения на исходном языке и перестроит их на целевом языке. «Ключевой вещью в моделях нейронных сетей-это то, что они могут лучше обобщать данные», – говорит исследователь Арул Менезес. «С помощью предыдущей модели, независимо от того, сколько данных мы выбросили, они не смогли сделать основные обобщения. В какой-то момент больше данных просто не делают их лучше».Сложные модели, подобные тем, что разрабатываются Гуглом и Майкрософтом, работают с большими массивами данных; их производительность зависит от мощных вычислительных ресурсов. Системы NMT учатся переводить, обрабатывая многочисленные собрания существующих переводов в различных языковых комбинациях. В отличие от метода SMT, основанного на поиске схожих выражений в двуязычных текстах, в новой технологии не просто сопоставляются слова и фразы, но и тщательно изучаются взаимоотношения между двумя языками. Нейронные алгоритмы анализируют каждый кусочек текста и пытаются распознать его контекст, определяя таким образом значение каждого слова в переводимом секторе. Технология NMT выходит за рамки грамматических правил, семантики и языковой структуры, обнаруживая неожиданные лингвистические шаблоны и делая открытия, на которые не способен даже разум человека. Затем целые предложения на исходном языке деконструируются и вновь восстанавливаются уже на целевом языке. «Ключевым моментом в моделях нейронных сетей является их улучшенная способность к обобщению данных» , – отмечает Арул Менезес, руководитель группы машинного перевода Microsoft AI and Research. — «Предыдущая модель была не способна к обобщениям, вне зависимости от того, сколько данных мы вводили в систему. В какой-то момент увеличение количества данных переставало приводить к улучшению перевода».
Переключить

GNMT демонстрирует высокую точность при переводе определения из Википедии с английского на французский.

Мнения экспертов

Крис Вендт в корпорации Майкрософт звучит энтузиазмом: «Нейронные сети приносят качество языков со значительно отличающейся структурой предложения, скажем, Английский ⇌ Японский, вплоть до уровня качества языков с аналогичной структурой предложения, скажем, Английский ⇌ Испанский. Я смотрел на много японских на английский язык: Наконец-то это понятно».Крис Вендт из Microsoft полон энтузиазма: «Нейронные сети повышают качество машинного перевода в языковых парах с совершенно различными структурами предложений, таких как, скажем, английский и японский, до уровня перевода между языками, в которых предложения строятся схожим образом, к примеру, в английском и испанском. Я изучил множество текстов, переведенных с помощью NMT с японского на английский. Мое заключение: перевод наконец-то стал осмысленным».
Переключить


Даже несмотря на то, что для некоторых языковых пар очевидна более высокое качество и более высокий уровень звука, в настоящее время мы являемся свидетелями первых дней технологии, а человеческие переводчики никоим образом не могут быть заменены компьютерами. По мере того, как инженеры Google Мозги Куок V. Ле и Майк Шустер, «машинный перевод не решается» с нейронной MT.

Хотя качество машинного перевода в некоторых языковых комбинациях значительно улучшилось и переведенные тексты стали ближе к человеческим, технология NMT все еще находится в самом начале своего развития, так что переводчикам не следует опасаться, что их заменят машинами. Как отмечают инженеры подразделения Google Brain Куок В. Ли и Майк Шустер, NMT «далеко не решает проблему машинного перевода».

Переключить

Роланд Миртенс, выступавший на семинаре на Гала 2017 год, о одном крупном недостатке НМТ по сравнению с поверхностными и даже на основе правил МТ — он не обрабатывает редкие слова очень хорошо, а в нынешнем состоянии не может эффективно использовать глоссарии.Роланд Мертенс из компании Infor, выступая на вебинаре в рамках конференции GALA 2017, высказал мнение, что у NMT, по сравнению с SMT и даже системами машинного перевода на основе правил, имеется существенный недостаток: он плохо справляется с редкими словами и, в настоящий момент, неэффективно использует глоссарии.
Переключить

«Первая волна НМТ решений — это в основном общие системы, которые явно улучшаются в большинстве языков по сравнению с существующими общими решениями, особенно для специалистов по оценке людских нагрузок. Хотя мы должны проявлять осторожность в отношении прогресса, есть основания для оптимизма, и мы можем ожидать дальнейшего улучшения качества, поскольку наше понимание тайны «скрытых слоев» глубокого обучения улучшает», эксперт Кирти Ваши признается. Что касается НМТ систем в контексте профессионального перевода, то он утверждает, что они являются наиболее полезными «должны быть адаптируемыми/адаптируемыми для конкретных коммерческих целей, т. е. им необходимо изучать конкретную терминологию и конкретную область клиента. Всесторонняя настройка займет значительно больше времени вычислительной техники, и все требования к качественным данным будут только усиливаться».«Первая волна NMT-решений — это в основном довольно общие системы, которые по сравнению с существующими SMT-системами демонстрируют значительный прогресс для большинства языковых комбинаций, особенно если оценивать их с человеческой точки зрения. Выражать бурный восторг по этому поводу пока преждевременно, однако для оптимизма имеется достаточно оснований. По мере углубления в проблему «скрытых слоев» в глубоком обучении можно ожидать дальнейшего улучшения качества машинного перевода», — считает независимый консультант по вопросам машинного перевода Кирти Ваши. Касаясь роли NMT в контексте профессионального перевода, он отмечает, что извлечь максимальную пользу можно лишь «при настройке и адаптации NMT-систем к поставленным бизнес-целям, т.е. обучая их конкретной терминологии и давая на обработку материалы, тематически связанные с заказанной работой. Полномасштабная настройка системы займет значительно больше времени, необходимого для обработки информации, а уровень требований к качеству данных будет постоянно повышаться».
Переключить

Другие разработчики NMT

Google и корпорация Майкрософт не являются единственными игроками в поле. Вообще-то, Систран был первым запуском своего чистого нейронного аппаратного перевода. Яндекс также проходила мимо «нейронного» пути, чтобы сделать редкие языки доступными в своем собственном двигателе перевода, и недавно объявила, что он ставит машинный перевод в ядро новой стратегии ии. Баиду и Амазонка также упомянули о своих собственных НМТ инициативах. Прошлым летом Facebook внедрил свой диптекст-двигатель AI, который использует архитектуру глубоко нейронной сети для улучшения автоматического перевода должностей в новостях. И Адессамад Ечихаби SDL говорит: «Подобно Google, SDL активно изучит и вкладывает в нейронную гору MT».Google и Microsoft — далеко не единственные игроки в этой области. Первый движок «чисто нейронного машинного перевода» был запущен компанией Systran. «Яндекс» также внедряет «нейронные» решения в свой переводческий движок, чтобы добавить в него редкие языки. А совсем недавно Александр Крайнов, который отвечает в компании за проекты, использующие искусственный интеллект, объявил, что нейронный машинный перевод займет ключевое место в новой стратегии ИИ «Яндекса». О своих разработках в области NMT объявили также компании Baidu и Amazon. Прошлым летом Facebook представил свой ИИ-движок DeepText, использующий архитектуру глубокой нейронной сети для улучшения автоматического перевода публикаций в новостной ленте. Абдессамад Эчихаби из компании SDL заявляет, что «SDL, как и Google, активно проводит исследования и вкладывает большие средства в системы нейронного машинного перевода».
Переключить

Попросила представить комментарий к этой должности, Габор Бессенеи, директор по морфологической локализации, поделился, что надвигающаяся версия 3.0 Глобалес будет основана на НМТ. По его мнению, технология является прорывом и намного больше, чем просто шумиха. По сравнению со старшими должностными людьми, она обеспечивает разумное, хотя и не всегда безупречное производство, что делает разницу в процессе после редактирования, говорит Габор. Во многих случаях машинный перевод будет таким же грамматическим, как и профессиональный перевод на человека, и это лишь вопрос формулировок. Например:
Габор Бессенеи, руководитель компании Morphologic Localisation, в ответ на просьбу дать комментарий к этой статье, сообщил, что новая версия 3.0 программы Globalese будет основана на системе NMT. По его мнению, речь идет не о пустой шумихе, а о настоящем технологическом прорыве. Полученные переводы, по мнению Габора, хоть и далеки от совершенства, но по качеству значительно превосходят тексты, полученные с помощью систем SMT, а это значит, что процесс пост-редактирования сильно облегчится. Во многих случаях машинный перевод грамматически не уступает профессиональному (человеческому) переводу, отличаясь лишь выбором слов. Например:
Переключить

Original (in German): Der Rechnungsführer sorgt für die gebotenen technischen Vorkehrungen zur wirksamen Anwendung des FWS und für dessen Überwachung.

Reference human translation: The accounting officer shall ensure appropriate technical arrangements for an effective functioning of the EWS and its monitoring.

Globalese NMT: The accounting officer shall ensure the necessary technical arrangements for the effective use of the EWS and for its monitoring.

Кстати, пользователи smartCAT первыми получат возможность оценить преимущества системы NMT Globalese благодаря интеграции между технологиями.

Осторожность не помешает

Ложное свободное владение НМТ, как правило, демонстрирует в некоторых случаях проблему, которая может привести к тому, что даже сезонный редактор будет ошибочно. Вот почему каждый, кто начинает работать с технологией, должен занять время, чтобы обновить свои знания о том, как работает перевод нейронных машин, и выяснить, какие ловушки ожидают. Как Крис Вендт, руководитель основной группы программы Microsoft Research машинного перевода, прокомментировал эту проблему, когда нейронный и Статистический машинный перевод сравнивается с головой, «статистические выиграют от точности и нейронных побед на свободном владении». Поэтому имейте в виду, что для разных языков результат может не совпадать, а иногда нейронный мозг может играть хитрости, особенно с именами, названиями и местами.В некоторых случаях может показаться, что NMT отлично владеет тематикой. Такая ложная компетентность может ввести в заблуждение даже опытного пост-редактора. Поэтому каждый, кто приступает к работе с данной технологией, должен посвятить какое-то время изучению принципов работы нейронного машинного перевода и выяснить, каких ловушек можно ожидать. Сравнивая между собой системы статистического и нейронного машинного перевода, Крис Вендт из Microsoft заметил, что «SMT выигрывает по точности, а NMT — по плавности языка». Поэтому имейте в виду, что результаты перевода на разных языков могут отличаться, а время от времени нейронный мозг может выкинуть фокус, особенно, если речь идет об именах, названиях и топонимах.
Переключить

NMT уже в smartCAT!

Технологиям нейронного машинного перевода предстоит пройти долгий путь, но дорога эта наверняка будет полна приятными сюрпризами. Несмотря на все разговоры о том, что технологии в конце концов оставят переводчиков без работы, специалисты считают, что помощь искусственного интеллекта в переводческом деле будет лишь способствовать повышению качества, учитывая постоянно увеличивающиеся объемы информации, которая нуждается в переводе. Недавний пост на странице компании Slator в Фейсбуке продемонстрировал, насколько высоко участники индустрии оценивают потенциал новой технологии.

Именно этими соображениями руководствуется команда smartCAT, давая своим пользователям доступ к мощным инструментам перевода. NMT-движки компаний Google и Microsoft теперь можно использовать непосредственно в редакторе наряду с системами SMT. Задействовать обе NMT-системы в работе над проектами очень просто: выберите нужный проект, перейдите на вкладку «Ресурсы», выберите опцию «Платная услуга» в разделе «Машинный перевод», щелкните по значку шестеренки и включите те движки, которые хотите использовать в работе над проектом. Имейте в виду, что в настоящее время системой NMT поддерживаются далеко не все языковые пары, однако разработчики заверяют, что в скором времени число доступных языков увеличится. NMT от Microsoft, как и обычный машинный перевод, предоставляется бесплатно, если пользователь дает согласие на использование своих переводов корпорацией Microsoft для улучшения работы движка. В противном же случае использование NMT и обычных движков Google и Microsoft будет стоить одинаково.

Мы попросили Ваагна Малояна, который сделал пост-редактуру нейронного машинного перевода этой статьи, ответить на несколько вопросов.

Павел: Что вы думаете об NMT как о технологии в целом? В переводческом сообществе относятся к новому поколению MT либо с любопытством, либо с опаской — многие переводчики считают, раз машина стала переводить лучше, то все скоро могут остаться без работы.

Ваагн: Я считаю, что NMT может значительно облегчить задачу переводчика и приветствую использование данной технологии. Однако не думаю, что машина в ближайшие годы сможет заменить переводчика. Перевод — это передача информации от одного человека другому в той форме, в которой они оба мыслят. Чтобы справиться с этим, машина должна научиться думать как человек. А значит, она перестанет быть машиной. Мне кажется, до этого дня мы с вами вряд ли доживем.

Павел: Насколько я понимаю, это ваш первый опыт пост-редактирования нейронного машинного перевода. Какие у вас впечатления? Есть ли отличия от МТ предыдущего поколения?

Ваагн: Честно говоря, отличия пока что в худшую сторону. Язык перевода оказался менее богатым и разнообразным, нежели предлагался до сих пор в системе SMT. Общий смысл текста стал чуть более понятен, но для меня это не важно, поскольку английским я владею свободно. Каждое предложение пришлось переписывать заново, так что речь идет скорее не о пост-редактуре, а о полноценном переводе. Думаю, однако, что при увеличении количества обрабатываемых двуязычных переводов, уровень работы NMT может радикально повыситься. Очень надеюсь на это.

Павел: Сколько времени заняла эта задача? Чисто субъективно, NMT может повысить вашу производительность?

Ваагн: Четыре часа. С помощью прежней системы я бы справился за три. Так что пока что предпочту пользоваться прежней системой.

Павел: Расскажите, пожалуйста, немного о себе.

Ваагн: Я по образованию физик и инженер-материаловед. Параллельно с основной учебой закончил трехгодичный курс технического перевода и получил диплом. Нерегулярно переводил, начиная с 1996 года. Регулярным переводом занялся в 2011 году, начав с локализации сайтов, а затем поступив на работу в медийное издание в качестве переводчика и копирайтера по новостям технической тематики. Работаю на фрилансе с 2014 года. В августе 2016-го зарегистрировался в smartCAT, с тех пор участвовал в нескольких сотнях проектов и перевел около 200 тысяч слов. Основной иностранный язык у меня немецкий, а английский — на втором месте.

А что вы думаете о новой функции? Поделитесь своими мыслями в комментариях! Если у вас возникли трудности при использовании этих или других функций, пожалуйста, свяжитесь со специалистами технической поддержки по адресу support@smartcat.ai или через меню на сайте.


Статью подготовили:

Павел Доронин,
Product Analyst

Максим Рар,
м̶о̶д̶у̶л̶ь̶ ̶з̶а̶п̶и̶с̶и̶ ̶к̶о̶н̶т̶е̶н̶т̶а̶
Content Creator

Ваагн Малоян,
переводчик