Вы здесь

Как работают программы машинного перевода?

Машинный перевод
29/12/15

Машинный перевод, хоть и не любим большинством переводчиков, является инструментом, который часто используется для решения таких задач в интернете, как переписка с иностранными партнерами, быстрый перевод сайтов, не имеющих официальной локализованной версии на родном языке, перевод комментариев и моментальных сообщений.

На базе информации, добытой таким образом, можно понять, о чем идет речь в целом, и нужен ли более точный и подробный перевод.

Программы машинного перевода можно разделить на переводящие пословно, по предложениям, и потекстово; на онлайн-сервисы и программы для персональных компьютеров. При этом с машинным переводом чаще всего ассоциируются с онлайн-сервисами, переводящими пофразово.

Чтобы понять, насколько программе сложно перевести не то что статью на сайте, но даже короткую фразу, которая будет отправлена как комментарий или личное сообщение, рассмотрим как такие программы работают.

Программе, чтобы переводить, требуется «знать» не только базовые правила грамматики двух языков и исключения к ним, но и уметь определить класс каждого слова, и прочие его атрибуты, такие как одушевленность или неодушевленность существительных, переходность глаголов.

Когда дело доходит до перевода, то программы действуют по следующей схеме:

  • Подготовительный этап: сначала предложение разбивается на слова, производится их морфологический анализ и поиск в словаре значений их лексем. Потом производится синтаксический анализ предложения, в ходе которого выделяются придаточные предложения и определяется функция каждого отдельного слова.  
  • Лексический трансфер — каждому слову присваивается перевод на основе выявленного контекста, грамматической формы оригинала, а также пометок, сделанных в словарных статьях.
  • Затем производится структурный трансфер — на этом этапе каждому слову присваивается место в предложении,  устанавливаются структурные связи и производятся необходимые перестановки.
  • Наконец, выбранным переводам слов придаются нужные (по мнению программы) грамматические формы.  

 

Также различия есть и в механизме выбора вариантов перевода. Здесь подразделение идет на машинный перевод на базе лингвистических правил и на статистический метод машинного перевода. Первый базируется на доскональном анализе всех существующих правил, которые имеют жесткую привязку к конкретной языковой паре. Второй метод — статистический — выбирает на основе вероятности того, что конкретный вариант будет верным. Эта вероятность высчитывается по итогам анализа параллельных текстов на заданную тематику.

Программы, работающие на основе первого механизма, имеют большую точность и стабильность результата, особенно, когда производится перевод между языками с сильно разнящейся структурой и порядком слов. Однако для их создания требуются большие усилия по оснащению программы арсеналом баз и словарей, что сказывается и на скорости перевода. Кроме того необходима тщательная настройка параметров под заданную тематику, и полученные тексты звучат неестественно. Статистический метод  работает быстрее, но проигрывает по фактору «надежности»: перевод может получиться или неожиданно хорошим, или очень плохим.

В качестве примера программы, работающей на основе лингвистических правил можно привести GramTrans. По статистическому методу работают Asia Online и всем известный Google Translate.

В силу того, что у обоих методов есть свои недостатки, разработаны и гибридные системы, к которым относится, например, система Promt. Суть работы подобных программ такова: в соответствии с лингвистическими правилами формируется не один, а несколько вариантов перевода. Затем статистические механизмы выбирают из них наиболее вероятный. Хоть времени и оперативной памяти это и не экономит, но делает результат настолько гладким, насколько это возможно без вмешательства человека.

Если бы задача компьютера в машинном переводе ограничивалась только быстрым перебором большого количества вариантов, записанных в различных статьях специальных словарей, то результат был бы куда лучше, чем мы имеем сейчас. Сложность скорее заключается в выборе значения, которое говорящий придает своим словам. А в этом плане человеческий язык нестабилен и переменчив, что делает машинный перевод таким сложным процессом.  

Наверх