Машинный перевод. Уровень 1.0.

Как и обещали, продолжаем анализировать работу машинных переводчиков. В этой статье проверим, как Гугл и Яндекс справляются с официально-деловым стилем речи. Может быть, в отличие от результатов нашей первой статьи, на этот раз онлайн переводчикам удастся добиться большего успеха?

Как обычно, выберем одно простое и одно сложное высказывание.  То есть одно предложение, понятное человеку с высшим или даже средним образованием без специальной подготовки. И одно посложнее, на корпоративном или профессиональном жаргоне. В качестве понятного всем высказывания предлагаем взять цитату главы Минкомсвязи Николая Никифорова.

Целевая планка, которую мы ставим для социального доступа в интернет в малых населённых пунктах, в месяц со скоростью 10 мегабит составляет около 50–70 рублей. 

В предложении есть пара клишированных фраз, очевидно соотносящихся со своими английскими аналогами – «целевая планка» (target price/level/price limit) и «доступ в интернет» (Internet access). Интерес представляет и сочетание «малый населенный пункт». Важно, будут ли три слова распознаны словарем как единое сочетание «town/township/small town». Надеемся, что вишенкой на торте будет правильный перевод единиц измерения скорости интернета.

«Целевая планка» не взята, и виной этому неверный выбор «планки». Русскому человеку очевидно, что планка здесь – некий уровень или максимум, но не физическая полоса.

Small settlement – отличный вариант, слушателю вполне понятен. Проблем не возникло ни с мегабитами, ни с рублями. Если бы качество перевода можно было измерить в баллах, этот перевод получил бы 90 баллов из 100. Давайте посмотрим, также ли успешен Яндекс?

«Целевая планка» по-прежнему не взята, но предлагаемый вариант кажется немногим лучше. В любом случае, слушающий, услышав непонятное сочетание «target strip/target bar» попросту выпустит из поля зрения непонятное слово и обратит внимание только на target. В остальном перевод так же хорош, как и в Гугл.

А теперь давайте проверим корпоративный жаргон. Типовое предложение мы выдумаем, но каждый офисный сотрудник найдет в нем что-то родное. Именно таким языком пишутся письма, на нем ведутся совещания, и именно такой язык приходится чаще всего переводить корпоративным переводчикам.

Наш стаф закомитился сдать проект раньше дедлайна, но айтишники, когда софт тестили, нашли много багов, и гендир отменил нам бонусы.

Все жаргонизмы здесь являются заимствованиями из английского. Забавная игра – перевод с заимствованных слов в обратную сторону. Давайте проверим, как словари транслируют те же единицы в обратную сторону. Кстати, все мы помним про глокую куздру. Так вот, даже не понимая смысл слова, машина может различать его грамматическую форму. И, по идее, транслировать если не смысл слова, то его морфологическую форму.

Wow, блестяще. За исключением недочетов вроде перевода «закомититься» как «быть обязанным» вместо «добровольно взять на себя обязательство», «подписаться». Морфология учтена: айтишники превратились в IT people (пусть не staff, guys или Department, и так хорошо). Не распознанным оказался лишь генеральный директор. Не потому ли, что полностью калькой не является? То есть, хотя оба слова и заимствованы изначально, такая сокращенная форма существует только в русском.

А еще любопытно, что Гугл пишет нашего генерального директора с большой буквы. Не смеем верить, что машина разгадала директора как должность. Скорее всего, она решила, что это имя. Почему бы и нет — Тимур, Артур… Гендир.

В Яндексе налицо лучшее понимание русского «закомититься», присутствует сема «решить», а надо бы «решить» + «официально обязаться». «Сдать проект» — finalize the project, implement the project, но уж точно не экзаменационное «pass», как предлагает Гугл. В сравнении с «pass» яндексовское “hand over the project” звучит намного лучше. Далее нас ожидает гениальное преобразование «айтишников» в it specialists. Морфология учтена. Хотя нам все больше кажется, что это не морфологическая трансляция, а просто включение в базу слова «айтишники». Чтобы понять, учет ли это морфемы, поищем перевод слов с непонятным корнем и понятным суффиксом (человек, имеющий отношение к корню слова).

Да, это не учет морфологии. Это наличие занесенного в словарь слова. Либо «кошатница» есть в списках, либо ее нет. И действительно, размечтались! Есть гаишники, есть продажники. Но MSU people нет (ясное дело, MSU students/graduates – это уже высший пилотаж).

Кстати, в битве странных слов с ярковыраженными морфологическими признаками иногда побеждает Яндекс, а иногда Гугл, и предсказать победу невозможно.

И все бы было у Гугла хорошо, да только….

Не то чтобы при переводе в обратную сторону у словарей получалось лучше. Допустим, они не разбираются в русских морфемах, но уж в английских семах разбираться должны?

С переводом на английский мы разобрались. В следующей статье мы посмотрим на машинные переводы уже с английского на русский. И кто знает, может быть, перевод на русский будет намного лучше?

Кстати, если вы не согласны с чем-то в этом мини-исследовании, большое вам спасибо! Это значит, вы прочли наш текст и готовы выдвинуть контраргументы. Обязательно напишите все, что вы думаете, в комментариях.

1 комментарий

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *