Пропустить навигацию.
Главная
Сайт Павла Палажченко

Машинный перевод — от утопии к науке и обратно

Почти у каждого «действующего переводчика» есть свое мнение о возможности машинного перевода – как правило, отрицательное. Может быть, мы «ревнуем», боимся потерять работу? Моему поколению это уж точно не грозит. А вообще-то я не сомневаюсь, что у этой идеи большое будущее — в том смысле, что попытки будут продолжаться. Публикую здесь интервью с математиком Игорем Ашмановым, по поводу которого меня просили высказаться журналисты с «Утра России» (я не смог), и интервью Дмитрия Ермоловича, который в пределах минимального времени изложил позицию, близкую моей. Мнение г-на Ашманова, что для «машинного перевода ответственных текстов [...] реальный временной горизонт — 7-8 лет», безусловно, будет опровергнуто в течение ближайших семи-восьми лет.

Космические технологии более доступны, чем машинный перевод

Игорь Ашманов, кандидат физико-математических наук

Машинному переводу как идее — более 50 лет. Какое-то время казалось, что задача будет вот-вот решена. Не буду утомлять датами и названиями проектов, скажу лишь, что ничего не вышло.

Первые попытки подступиться к проблеме в 1960-70-х годах закончились поражением, на сцене остались только электронные словари — перевод «слово за слово».

У нас есть машинный перевод Google и отечественный Promt, готовые к использованию продукты, но выглядят они тоже скорее как поражение. Переводчика-человека за такое качество работы сразу уволили бы.

Постепенно стало ясно, что машинный перевод — это не проходная задача информатики, а вершина прикладной лингвистики, ее Эверест.

Поговорить с машиной

Таких Эверестов, в общем, даже два: машинный перевод и диалог с машиной на естественном языке. На основе второй задачи сформулирован тест Тьюринга на искусственный интеллект: считается, что ИИ будет создан, когда человек, общаясь с машиной, не сможет отличить ее от человека. Никаких других тестов на «машинное сознание» у нас нет.

Эти две задачи — перевод и общение — примерно эквивалентны по сложности.

Но прежде чем обсуждать, как решать задачу машинного перевода и можно ли ее решить, зададимся вопросами: что же это за задача и зачем ее решать. Со времен Вавилонской башни языковый барьер между людьми — один из самых сложных; и все же — для чего?

Первое. Общее понимание текстов на чужих языках — для быстрого прочтения инструкции к бытовой электронике или лекарству, быстрого ознакомления с сайтом и т.п. Эта задача уже решена Google и Promt — с низким качеством, зато для многих пар языков.

Второе. Составление ответственных текстов на другом языке: заверенного перевода, важных документов, художественной литературы. Машинного перевода для решения этой задачи нет. Объем рынка — до $30 млрд в год; нынешний рынок машинного перевода — не более $300 млн.

Третье. Свободное общение на чужом языке (в турпоездке, в социальных сетях и т.п.). Таких продуктов, дающих приемлемое качество, — тоже нет. И уж тем более у нас нет универсального коммуникатора из фантастических романов, такой коробочки, чтобы положил на стол — говоришь в нее, а из нее слышен перевод.

Фразы не клеятся

Как удалось решить задачу N1? Первые лет тридцать машинный перевод пытались сделать на правилах и синтаксическом разборе предложения. Основная проблема всех таких алгоритмических методов — сложность, безудержное ветвление миллионов вариантов и огромный перебор; невозможно пройти перевод одной фразы в отладчике. Для шахмат удалось выработать средства ограничения перебора, а для машинного перевода — нет. Вершина такого подхода — системы типа Promt, качество которых оставляет желать лучшего, особенно на длинных фразах, где синтаксический разбор и перебор разваливаются.

В 1990-х годах возник статистический перевод с самообучением по параллельным текстам, когда развитие поисковых машин дало минимально необходимый запас таких текстов. Вершина — переводчик Google. Главная проблема здесь — нехватка параллельных образцов для всех вариантов входных фраз и неумение системы «сшивать» длинные согласованные фразы.

Однако качество статистического перевода постепенно растет, он вовсю используется для общения. Во всяком случае, нигерийские письма с просьбой помочь обналичить деньги от «жены Каддафи» уже приходят на «русском».

Заметим, что как далеко не у всех стран есть своя космическая промышленность, так не у всех есть и свой поисковик, антивирус или машинный переводчик. Более того, космические технологии более доступны, они есть у большего числа стран. В России было больше десяти проектов машинного перевода, сейчас живы 3-4. В большинстве стран такого нет и не было.

Вселенная смыслов

Есть представление, что настоящий машинный переводчик требует создания сильного искусственного интеллекта, обладающего «пониманием» или даже «самосознанием». Это представление навеяно фантастикой и голливудскими фильмами и неверно в двух смыслах: а) для качественного перевода достаточно программирования и работы с данными, а не «самосознания машины»; б) никто не знает, что вообще такое понимание (сознание).

Человечество не смогло выработать удовлетворительного определения (или определителя) разума, сознания и понимания. Конечно, в первую очередь, из-за рекурсии — чтоб понять понимание, нужно понимание. Трудно определить предмет через самого себя, именно поэтому Тьюринг выбрал для искусственного интеллекта феноменологическое определение — через разумность внешнего общения.

В тексте же смысла вообще нет. Текст — лишь ключ для запуска процесса создания смысла. Смысл рождается в голове пишущего, потом кодируется текстом и воспроизводится (с потерями) в голове читающего. Этот факт хорошо иллюстрируется примером Виталия Файна: девушка говорит парню «помнишь июль?». Для всех остальных в этом тексте есть только атомарный смысл — что-то про июль. А для этих двоих — целая Вселенная смыслов, спрятанная не в тексте.

И все же рассчитывать на появление «хорошего» машинного перевода в ближайшие годы безо всякого «истинного понимания смысла» — можно.

Через четыре года...

До универсального коммуникатора — недалеко. Распознавание речи вот-вот заработает хорошо: Siri в iPhone и голосовой поиск Google — оба от Nuance — это наглядно показывают. Для бытовых ситуаций в чужой языковой среде (знакомство, шопинг, паспортный контроль) надо распознавать всего 200-300 шаблонов в каждом случае, и можно переспрашивать! Уже ясно, что это будет мобильный телефон или планшет, с переводом где-то там, на сервере, в «облаке». Я оцениваю время появления первых доступных образцов в 3-4 года.

Пишут, что в американской армии уже раздают устройства голосового перевода с английского на арабский и обратно. С теми самыми тремястами фразами. Ну, там «руки за голову», «кто твой командир», «где спрятал бомбу» и т. д.

Перспективы машинного перевода ответственных текстов — туманны. Я думаю, реальный временной горизонт здесь — 7-8 лет. Конечно, это будут гибридные системы — алгоритмическо-статистические, с довольно тяжелой лингвистикой.

Но я боюсь, что никто извне не даст нам избавленья — ни Apple, ни Google: никто, кроме нас самих, не сделает хороший машинный перевод для сотни языков народов России и СНГ.

Машинный перевод

Уважаемый Павел Русланович!
1) Что-то с капчей - хотел оставить коммент после поста о машинном переводе - не принимает капчу и все! Попыток 40 сделал, увы...
2) Из архива газеты "Волжская коммуна":
13 января 1956 г.

Институтом точной механики и вычислительной техники Академии наук СССР сконструирована быстродействующая электронная счетная машина «БЭСМ». За одну секунду машина совершает в среднем 7000-8000 арифметических действий. Машина может быть использована не только для решения математических задач. В порядке пробы недавно эта машина производила перевод научно-технического текста с английского на русский язык. Научный сотрудник С.Н. Разумовский подтвердил правильность переведенного текста.
(см. пост на моем блоге, http://perevod99.blogspot.com/2011/01/blog-post_25.html)
На эту же тему см. также мой пост "непохожий перевод"
http://perevod99.blogspot.com/2007/11/don-believe-in-segregating-sexes.h...

Уважаемый

Уважаемый Сергей, не совсем понял суть проблемы с капчей. Дело в том, что зарегистрированным пользователям капча не показывается, а незарегистрированные на данный момент вообще не имеют права оставлять комментарии. Со мной вы можете по-прежнему связаться через нашу почтовую страничку.

Админ