Пропустить навигацию.
Главная
Сайт Павла Палажченко

Машинный перевод — от утопии к науке и обратно

Почти у каждого «действующего переводчика» есть свое мнение о возможности машинного перевода – как правило, отрицательное. Может быть, мы «ревнуем», боимся потерять работу? Моему поколению это уж точно не грозит. А вообще-то я не сомневаюсь, что у этой идеи большое будущее — в том смысле, что попытки будут продолжаться. Публикую здесь интервью с математиком Игорем Ашмановым, по поводу которого меня просили высказаться журналисты с «Утра России» (я не смог), и интервью Дмитрия Ермоловича, который в пределах минимального времени изложил позицию, близкую моей. Мнение г-на Ашманова, что для «машинного перевода ответственных текстов [...] реальный временной горизонт — 7-8 лет», безусловно, будет опровергнуто в течение ближайших семи-восьми лет.

Космические технологии более доступны, чем машинный перевод

Игорь Ашманов, кандидат физико-математических наук

Машинному переводу как идее — более 50 лет. Какое-то время казалось, что задача будет вот-вот решена. Не буду утомлять датами и названиями проектов, скажу лишь, что ничего не вышло.

Первые попытки подступиться к проблеме в 1960-70-х годах закончились поражением, на сцене остались только электронные словари — перевод «слово за слово».

У нас есть машинный перевод Google и отечественный Promt, готовые к использованию продукты, но выглядят они тоже скорее как поражение. Переводчика-человека за такое качество работы сразу уволили бы.

Постепенно стало ясно, что машинный перевод — это не проходная задача информатики, а вершина прикладной лингвистики, ее Эверест.

Поговорить с машиной

Таких Эверестов, в общем, даже два: машинный перевод и диалог с машиной на естественном языке. На основе второй задачи сформулирован тест Тьюринга на искусственный интеллект: считается, что ИИ будет создан, когда человек, общаясь с машиной, не сможет отличить ее от человека. Никаких других тестов на «машинное сознание» у нас нет.

Эти две задачи — перевод и общение — примерно эквивалентны по сложности.

Но прежде чем обсуждать, как решать задачу машинного перевода и можно ли ее решить, зададимся вопросами: что же это за задача и зачем ее решать. Со времен Вавилонской башни языковый барьер между людьми — один из самых сложных; и все же — для чего?

Первое. Общее понимание текстов на чужих языках — для быстрого прочтения инструкции к бытовой электронике или лекарству, быстрого ознакомления с сайтом и т.п. Эта задача уже решена Google и Promt — с низким качеством, зато для многих пар языков.

Второе. Составление ответственных текстов на другом языке: заверенного перевода, важных документов, художественной литературы. Машинного перевода для решения этой задачи нет. Объем рынка — до $30 млрд в год; нынешний рынок машинного перевода — не более $300 млн.

Третье. Свободное общение на чужом языке (в турпоездке, в социальных сетях и т.п.). Таких продуктов, дающих приемлемое качество, — тоже нет. И уж тем более у нас нет универсального коммуникатора из фантастических романов, такой коробочки, чтобы положил на стол — говоришь в нее, а из нее слышен перевод.

Фразы не клеятся

Как удалось решить задачу N1? Первые лет тридцать машинный перевод пытались сделать на правилах и синтаксическом разборе предложения. Основная проблема всех таких алгоритмических методов — сложность, безудержное ветвление миллионов вариантов и огромный перебор; невозможно пройти перевод одной фразы в отладчике. Для шахмат удалось выработать средства ограничения перебора, а для машинного перевода — нет. Вершина такого подхода — системы типа Promt, качество которых оставляет желать лучшего, особенно на длинных фразах, где синтаксический разбор и перебор разваливаются.

В 1990-х годах возник статистический перевод с самообучением по параллельным текстам, когда развитие поисковых машин дало минимально необходимый запас таких текстов. Вершина — переводчик Google. Главная проблема здесь — нехватка параллельных образцов для всех вариантов входных фраз и неумение системы «сшивать» длинные согласованные фразы.

Однако качество статистического перевода постепенно растет, он вовсю используется для общения. Во всяком случае, нигерийские письма с просьбой помочь обналичить деньги от «жены Каддафи» уже приходят на «русском».

Заметим, что как далеко не у всех стран есть своя космическая промышленность, так не у всех есть и свой поисковик, антивирус или машинный переводчик. Более того, космические технологии более доступны, они есть у большего числа стран. В России было больше десяти проектов машинного перевода, сейчас живы 3-4. В большинстве стран такого нет и не было.

Вселенная смыслов

Есть представление, что настоящий машинный переводчик требует создания сильного искусственного интеллекта, обладающего «пониманием» или даже «самосознанием». Это представление навеяно фантастикой и голливудскими фильмами и неверно в двух смыслах: а) для качественного перевода достаточно программирования и работы с данными, а не «самосознания машины»; б) никто не знает, что вообще такое понимание (сознание).

Человечество не смогло выработать удовлетворительного определения (или определителя) разума, сознания и понимания. Конечно, в первую очередь, из-за рекурсии — чтоб понять понимание, нужно понимание. Трудно определить предмет через самого себя, именно поэтому Тьюринг выбрал для искусственного интеллекта феноменологическое определение — через разумность внешнего общения.

В тексте же смысла вообще нет. Текст — лишь ключ для запуска процесса создания смысла. Смысл рождается в голове пишущего, потом кодируется текстом и воспроизводится (с потерями) в голове читающего. Этот факт хорошо иллюстрируется примером Виталия Файна: девушка говорит парню «помнишь июль?». Для всех остальных в этом тексте есть только атомарный смысл — что-то про июль. А для этих двоих — целая Вселенная смыслов, спрятанная не в тексте.

И все же рассчитывать на появление «хорошего» машинного перевода в ближайшие годы безо всякого «истинного понимания смысла» — можно.

Через четыре года...

До универсального коммуникатора — недалеко. Распознавание речи вот-вот заработает хорошо: Siri в iPhone и голосовой поиск Google — оба от Nuance — это наглядно показывают. Для бытовых ситуаций в чужой языковой среде (знакомство, шопинг, паспортный контроль) надо распознавать всего 200-300 шаблонов в каждом случае, и можно переспрашивать! Уже ясно, что это будет мобильный телефон или планшет, с переводом где-то там, на сервере, в «облаке». Я оцениваю время появления первых доступных образцов в 3-4 года.

Пишут, что в американской армии уже раздают устройства голосового перевода с английского на арабский и обратно. С теми самыми тремястами фразами. Ну, там «руки за голову», «кто твой командир», «где спрятал бомбу» и т. д.

Перспективы машинного перевода ответственных текстов — туманны. Я думаю, реальный временной горизонт здесь — 7-8 лет. Конечно, это будут гибридные системы — алгоритмическо-статистические, с довольно тяжелой лингвистикой.

Но я боюсь, что никто извне не даст нам избавленья — ни Apple, ни Google: никто, кроме нас самих, не сделает хороший машинный перевод для сотни языков народов России и СНГ.

Машинный перевод

Уважаемый Павел Русланович!
1) Что-то с капчей - хотел оставить коммент после поста о машинном переводе - не принимает капчу и все! Попыток 40 сделал, увы...
2) Из архива газеты "Волжская коммуна":
13 января 1956 г.

Институтом точной механики и вычислительной техники Академии наук СССР сконструирована быстродействующая электронная счетная машина «БЭСМ». За одну секунду машина совершает в среднем 7000-8000 арифметических действий. Машина может быть использована не только для решения математических задач. В порядке пробы недавно эта машина производила перевод научно-технического текста с английского на русский язык. Научный сотрудник С.Н. Разумовский подтвердил правильность переведенного текста.
(см. пост на моем блоге, http://perevod99.blogspot.com/2011/01/blog-post_25.html)
На эту же тему см. также мой пост "непохожий перевод"
http://perevod99.blogspot.com/2007/11/don-believe-in-segregating-sexes.h...

Уважаемый

Уважаемый Сергей, не совсем понял суть проблемы с капчей. Дело в том, что зарегистрированным пользователям капча не показывается, а незарегистрированные на данный момент вообще не имеют права оставлять комментарии. Со мной вы можете по-прежнему связаться через нашу почтовую страничку.

Админ

Машинный перевод

Павел Русланович, если и когда Вам будет интересно, приглашаю прочитать мои скептические аргументы по поводу машинного перевода:
Четвертая серия
http://perevod99.blogspot.com/2012/03/blog-post_02.html
(там есть ссылка на этот Ваш пост и цитата из него)
и Безнадёга
http://perevod99.blogspot.com/2011/05/blog-post_30.html
с перечнем названий голливудских фильмов в российском прокате.

Согласен (с оговорками)

Мое отношение к машинному переводу - тоже скептическое. Просто жизненный опыт подсказывает...

К тому времени, когда в 1966 году я начинал учиться в МГПИИЯ им. Тореза, Отделение машинного перевода на переводческом факультете уже благоразумно переименовали в Отделение структурной и прикладной лингвистики. И все-таки многим казалось, что решение проблемы, так сказать, не за горами. Но хотя за это время в сфере компьютерной техники произошло несколько революций и быстродействие машин и возможности их памяти продолжают расти, я не думаю, что мы приблизились к подлинной автоматизации перевода. Другое дело - определенная степень автоматизации отдельных переводческих процессов (machine assisted translation vs. machine translation). Я не являюсь противником электронных словарей, TRADOSов и даже гугловского "переводчика" - он все же может дать представление о содержании материалов (скажем, статей или сайтов) на совсем незнакомом тебе языке.

Хороший переводчик будет нужен всегда.

Что касается "перевода" названий фильмов, то в огромном количестве случаев это скорее "подбор" более или менее удачного и более или менее близкого к оригиналу названия, имеющего шанс "зацепить" зрителя. Иногда получается превосходно: Some Like It Hot - "В джазе только девушки", иногда довольно ужасно: The Hurt Locker - "Повелитель бурь" (впрочем я ума не приложу, что можно было бы предложить взамен).

Машинный перевод неграмотных фраз и текстов

Вот, сегодня написал в тему еще один пост на моем блоге:
Сбой речевого кода
http://perevod99.blogspot.com/2012/04/blog-post_04.html
Может быть, заинтересует.

Не затягивайте

Зачем сопротивляться неизбежному ?

В Google Translator Kit есть два режима, когда вы загружаете файл TranslationMemory (tmx): Share и Don't share.

Фактически же в конце месяца все эти файлы, в каком бы их режиме ни загружали, переходят в глобальную память Google Translate, предложение за предложением обучая эту глобальную машину нашим сигнальным системам и их связям.

Конец письменной работе наступит быстро, и оттягивать его бессмысленно, поэтому Share ! Чем быстрее мы научим глобальную машину своим сигнальным системам, тем быстрее она научит нас новой, еще неведомой сигнальной системе, которой, скорее всего, станет просто мысль.

шутка

анекдоты от машины

Почетная грамота СКОММ/ЮНЕСКО вручается такому-то за 20 лет неуплаченных взносов :) 20 years' outstanding contribution

"Конец письменной работе"...

...не наступит, как бы мы ни "обучали глобальную машину нашим сигнальным системам и их связям". Потому что к "сигнальным системам и их связям" всё не сводится. Вот что интересно: проблемы, которые казались непреодолимыми в эпоху зарождения идеи машинного перевода, давно решены, а до реального машинного перевода все так же далеко. См., например, http://www.perevesty.ru/article1.shtml.

Новый аргумент по поводу машинного

Две мысли по поводу перевода
http://perevod99.blogspot.ru/2012/11/blog-post_23.html

Прошу любить и жаловать.