Для американских военных, действующих в Афганистане и Ираке, создается автоматическая система голосового перевода, работающая на обычном смартфоне.
На фоне – пустыня Афганистана, песок и пыль. Или – зеленые Кавказские горы. На КПП останавливают для осмотра подозрительный автомобиль. Напряженный момент для всех участников сцены, зачастую не понимающих языка друг друга, вынужденных общаться несколькими словами и энергичными жестами. Слишком опасно, слишком велика цена недопонимания.
Чтобы минимизировать шанс ошибки, инженеры и программисты по заданию Пентагона создают систему, которую можно было бы использовать с обычным смартфоном, и которое возьмет на себя все «трудности перевода». Работа ведется в рамках финансируемого агентством DARPA проекта TRANSTAC – пока ее участники концентрируются на языке пушту, но уже в ближайшее время начнется работа по переводу с другого афганского языка, дари, а также иракского диалекта арабского языка.
Пользование системой просто: первый собеседник произносит фразу в свой смартфон. На первом шаге система распознает фразу и превращает ее в текстовый файл, который передается на второй шаг, для автоматического перевода. Наконец, третий шаг состоит в использовании программного синтезатора речи, произносящего переведенный текст.
Конечно, все мы представляем, сколь странно может выглядеть результат автоматического перевода. К примеру, перевод первой фразы этого абзаца на английский и обратно с помощью сервиса «Переводчик Google» выдал такую версию: «Конечно, мы все себе, как страна может быть похож на результат автоматического перевода». И конечно, разработчикам системы, предназначенной для столь ответственной работы, пришлось самым тщательным образом удостовериться, что вероятность ошибки минимальна.
Они провели масштабное исследование на фокус-группах, куда вошли американские солдаты, реально участвовавшие в боевых действиях в Афганистане. На этой основе было подготовлено 25 типовых сценариев, и система перевода была апробирована на них. Сюда вошли и ситуации досмотра зданий и автомобилей на КПП, и типичные вопросы местных жителей, и темы, связанные с подготовкой афганских вооруженных сил. В тестах системы участвовали американские морпехи и природные носители языка пушту, они общались без всякого предварительного сценария.
По результатам этих испытаний участники диалога оценивали реальную простоту пользования и доступность перевода. Дополнительную оценку давали независимые эксперты, просматривавшие видеозаписи их общения. Теперь, по результатам предварительного тестирования представители DARPA должны отобрать лучший предварительный вариант системы из трех испытанных – и тогда инженеры возьмутся за ее окончательную доработку.
Мы, кстати, рассказывали о том, как устроены современные программы автоматического перевода. Читайте статью «Трудности перевода».
По пресс-релизу NIST
Трудности перевода: Моя твоя не понимать
Давняя мечта многих людей – быть полиглотом, понимать и свободно изъясняться на любом иностранном языке – сегодня отчасти стала реальностью. Быстро понять суть иностранного текста, англоязычного web-сайта и даже спросить у прохожего в незнакомой стране, как найте гостиницу, нам помогают «электронные полиглоты» – программы-переводчики, или системы машинного перевода.
Может быть, наступит время, когда в мозг человека будут вживлять специальные «чипы», с помощью которых мы сами сможем свободно говорить на любом языке и понимать речь иностранного собеседника. Но есть еще одна проблема: скорость! Только сверхчеловек, герой научно-фантастического романа, сможет справиться с переводом нескольких десятков страниц за одну минуту. В обычной жизни необходимо потратить немало часов или даже дней, чтобы освоиться с иноязычным текстом, и это при условии, что мы владеем нужным иностранным языком. Поэтому в данном случае системы машинного перевода представляют собой очень полезный инструмент, который поможет быстро преодолеть языковой барьер и к тому же сэкономить большое количество времени.
Разговор по понятиям
Понятие – сущ., ср. [логически расчлененная общая мысль о предмете]; idea, notion; concept(ion); comprehension.
Что же такое машинный перевод (МП)? Если ответить кратко, это связный перевод текста с одного языка на другой, выполняемый компьютерной программой. Причем в отличие от словаря, программа не делает подстрочный перевод каждого слова в отдельности, а выполняет именно связный перевод с учетом грамматических, синтаксических и других особенностей языка. Существуют различные технологии разработки систем МП, о которых речь пойдет ниже, однако суть машинного перевода состоит именно в выполнении программой связного перевода текста на основе анализа особенностей входного и выходного языков.
Как же программе удается на выходе представить связный текст с учетом грамматики языка? На сегодняшний день широко известны два основных подхода к разработке систем машинного перевода: МП на основе правил (алгоритмов) (rule-based machine translation) и статистический МП (statistical-based machine translation).
Адекватный перевод
Адекватный – (или адэкватный), прил. [лат., филос. – вполне соответствующий оригиналу]; appropriate, good (профессиональный, хороший); adequate (достаточный).
Технология, которая называется rule-based machine translation (то есть основанная на обработке лингвистических алгоритмов), на сегодняшний день применяется наиболее широко. Ее использует большинство разработчиков: SYSTRAN (Франция), Linguatec (Германия) и российская компания ПРОМТ.
При работе по этой технологии система МП сначала анализирует исходный текст: проводит морфологический анализ слов в предложении, затем синтаксический анализ и на заключительном этапе выполняет синтез предложений в переведенном тексте. Таким образом, система проводит большую работу, формируя связный перевод предложения на основе информации о каждом слове и согласуя между собой все члены предложения. Такой алгоритм работы отчасти сродни работе человека-переводчика: он также анализирует текст, ищет варианты перевода в своей «словарной базе», применяет правила, то есть сначала анализирует текст, а потом синтезирует вариант перевода.
Перевод по статистике
Перевод – сущ., муж. [действие по передаче содержания текста на одном языке средствами другого языка, а также его результат]; translation; version; interpretation.
Вторая технология перевода – статистический машинный перевод – получила широкое распространение совсем недавно благодаря разработкам компании Google. Поисковый портал Google представил пользователям онлайновый сервис с BETA-версиями некоторых языковых направлений, разработанных на основе статистической технологии.
В процессе работы система анализирует огромные словарные базы парных фрагментов (фраз из двух-трех слов) – оригинал фрагмента и его перевод. Программа вычисляет наиболее вероятную последовательность слов выходного языка, которую она считает соответствующей переводу исходного текста. В отличие от традиционных систем перевода статистическая программа не учитывает в своей работе грамматические правила, что, безусловно, отражается на качестве перевода. Нередки случаи, когда вместо связного перевода статистический переводчик выдает совершенно несогласованные предложения, лишенные всякого смысла.
Существует мнение, что статистический машинный перевод более перспективен и на выходе предлагает более качественный перевод, чем традиционная технология. Но пока практика доказывает обратное. Одна из причин низкого качества перевода статистической системы – недостаточный объем словарных баз. Яркие примеры перевода (отрывки новостей информационного агентства Reuters) с английского языка на русский представлены в таблице 1. Переводы были выполнены с помощью системы PROMT (машинный перевод на основе правил) и онлайн-портала Google (статистический машинный перевод). Из приведенных примеров видно, что на данный момент сервис Google не всегда справляется с переводом имен и названий, возникают сложности с согласованием членов предложения, и получившийся вариант перевода больше напоминает подстрочник. Вполне вероятно, что в будущем разработчикам удастся повысить качество переводов, выполняемых этим методом МП, однако есть опасение, что такой системе не хватает применения лингвистических алгоритмов, анализа особенностей входного и выходного языков (принцип, на базе которого действуют традиционные системы).
Машинный перевод, основанный на правилах, также имеет погрешности и на данный момент не может предложить идеального качества перевода. Однако в целом перевод, основанный на применении правил, выглядит более гладко, и смысл текста понятен сразу. Налицо преимущество традиционной технологии МП, по крайней мере такова ситуация на сегодняшний день.
Два в одном
1. два, один –числ. 2. два в одном [напр. шампунь и кондиционер в одном флаконе]; two-in-one; two-in-one preparation (парф.).
Недавно разработчики систем МП начали обсуждать идею объединения обеих технологий машинного перевода – традиционного и статистического методов МП – с целью нейтрализовать недостатки того и другого. Есть мнение, что это позволит усилить традиционную технологию перевода и добиться положительного синергетического эффекта.
Человек против машины: кто кого?
Человек – сущ., муж. (Homo sapiens) [в зоологическом отношении составляет отдельное семейство отряда приматов]; person, man, human being, individual; body; bones; fellow.
Современные программы-переводчики научились более-менее связно переводить большие объемы информации с самых разных языков. Однако многие из нас могут поспорить, что качество перевода электронного толмача совершенно не соответствует результату труда человека-переводчика. Не стоит делать поспешные выводы: сегодняшние системы МП – это действительно умные программы, которые пусть и не заменят труд переводчика на 100%, но могут значительно облегчить его.
Сегодняшние системы МП укомплектованы большим количеством полезных инструментов для повышения качества перевода текстов из различных областей знаний. В частности, можно зарезервировать (сохранить) названия организаций или имена, и тогда программа оставит их непереведенными, что позволит избежать нелепостей при переводе (см. пример в таблице 2).
Кроме того, можно подключать к системе словари, содержащие специализированную лексику. Такие словари обычно предлагают сами разработчики программ. Есть еще одна полезная возможность: пользователь может самостоятельно создавать собственные словари и заносить в них именно те варианты перевода, которые ему необходимы. Подключение пользовательского словаря также позволит корректно перевести необходимую информацию. В современных системах перевода можно задавать правила перевода (настраивать перевод местоимений и модальных глаголов в зависимости от разных условий, задавать тип текста и др.), предлагать на выбор несколько вариантов перевода одного слова (варианты представлены в скобках) и сохранять заданные настройки в виде шаблонов, чтобы не задавать их каждый раз заново.
Освоение полезных возможностей программы помогает на выходе получить достойное качество перевода и существенно сократить время на его редактирование. Важно учитывать и то, что с помощью системы перевода мы можем всего за несколько секунд получить доступ к необходимой информации (получить черновой вариант перевода), то есть сэкономить время и быстро обработать большой объем текста, что сегодня актуально как никогда.
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Чтобы писать комментарии Вам необходимо зарегистрироваться либо войти на сайт под своим именем.
» Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации. Зарегистрируйтесь на портале чтобы оставлять комментарии
Материалы предназначены только для ознакомления и обсуждения. Все права на публикации принадлежат их авторам и первоисточникам. Администрация сайта может не разделять мнения авторов и не несет ответственность за авторские материалы и перепечатку с других сайтов. Ресурс может содержать материалы 16+