Времена года

История и опыт использования машинного перевода. Какие бывают СМП. Текст научной работы на тему «Машинные системы перевода: качество и возможности использования»

1947 - дата рождения машинного перевода (МП) как научно­го направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Вине­ру, в котором рассматривал задачу перевода текстов с одних язы­ков на другие как еще одну область применения техники дешиф­рования. За этим письмом последовало множество дискуссий.

1947 - А. Бут и Д. Бриттен разработали подробный «код»
для пословного машинного перевода.

1948 - Р. Риченс предложил правила разбиения словоформ
на основу и окончание.

1952 - первая конференция по МП в Массачусетском тех­нологическом институте.

1954 - представлена первая система МП - IBM Mark II - русско-английская, которая имела словарь в 250 единиц и 6


грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП.

1967 - специально созданная в США Комиссия Националь­ной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу о том, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом.

70-е годы - возрождение интереса к работам в области МП. С развитием вычислительной техники появились новые воз­можности машинной реализации лингвистических алгоритмов.

80-е годы - время работы персональных компьютеров зна­чительно подешевело, машинный перевод наконец-то стал эко­номически выгодным.

90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet/ Intranet. Преимущества использования машинного перевода осо­бенно очевидны при получении онлайнового перевода.

В 1990 г. Ларри Чаилдс, специалист по машинному перево­ду, предложил следующую классификацию систем машинного перевода:

FAMT (Fully-automated machine translation) - полностью ав­
томатизированный машинный перевод;

НАМТ (Human-assisted machine translation) - машинный
перевод при участии человека;

МАНТ (Machine-assisted human translation) - перевод, осу­
ществляемый человеком с использованием компьютера.

Как переводит компьютер

Машинный перевод - это такая специфическая область применения компьютеров, в проблемах которой почти каждый ощущает себя более или менее специалистом.

Во-первых, очевидно, что чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания боль­ших словарей для систем.


Во-вторых, ясно, что система должна переводить предложе­ния типа «Привет, как дела?». Значит, еще одна проблема - на­учить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам пере­водится, а значит, есть еще одна проблема: записать все эти пра­вила в виде программы. Вот, собственно, и все.

Самое интересное, что эти проблемы действительно явля­ются основными при разработке систем машинного перевода, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

Словарь

Методы организации больших баз данных достаточно хоро­шо разработаны, но для перевода не менее, а может быть, и бо­лее важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соот­ветствовать обыкновенному русскому слову «программа»? И вообще, большой словарь - это словарь, который содержит много словарных статей, или словарь, который позволяет рас­познать много слов из текста?

При ближайшем рассмотрении оказывается, что, например, существительные в русском языке изменяются по падежам и по числам, т.е. для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как прави­ло, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, со­держащие слова «программу», «программе», «программы» и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова «программа» с соответству­ющей словоформой из текста. Поэтому для описания и входно­го, и выходного языка в системе должен существовать некото­рый формальный метод описания морфологии, на котором ос­новывается выбор единицы словаря.

Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной ста­тьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, она не­обходима для выполнения программой собственно процедур перевода. Какая же информация нужна в словарной статье и как должны быть описаны правила перевода для того, чтобы про­грамма переводила?

Грамматика

Тут необходимо сделать небольшое историческое отступле­ние, поскольку машинный перевод как область прикладной лингвистики имеет драматическую историю. В 1950-х годах прак­тически с появлением первых вычислительных машин возник­ла идея машинного перевода, кстати, сам термин «машинный перевод» существует именно с тех времен. Кажущаяся простота задачи породила некоторую лингвистическую эйфорию, и было начато несколько глобальных проектов по созданию систем пе­ревода для разных языков. Ни один из них не привел к созда­нию работающих систем, и в 1967 г. специальная комиссия На­циональной Академии наук США объявила машинный перевод неперспективным и не заслуживающим финансирования. Толь­ко в начале 80-х годов лингвисты более или менее оправились от столь сурового вердикта и возобновили исследования в обла­сти МП. Конечно, во многом это оживление было связано с развитием вычислительной техники вообще и с интересом к проблемам искусственного интеллекта как области применения компьютеров в частности.

Глобальные проекты по-прежнему были ориентированы на решение задачи перевода в целом. В них рассматривались раз­работка описания лексических единиц в словаре и разработка алгоритмов перевода как разные задачи. Появилось множество лингвистических работ, предлагающих структуру описания свойств живого слова в словарной статье машинного словаря. Не появ-


лялось только реальных коммерческих систем, в которых эти исследования хоть как-то соединялись бы. Все системы, кото­рые так или иначе существовали, имели скромное дополнение «экспериментальная» или «прототип». Но реально ни одна из таких систем никогда не была доработана до системы массового использования. Это происходило потому, что применяемые ме­тоды описания перевода при переносе их в естественную среду (т.е. при применении к произвольным текстам) приходили в противоречие с методами, предлагаемыми для формирования словарных статей.

В то же время локальные проекты были ориентированы на решение только узких задач. Установкой разработчиков было получение хоть каких-то практических результатов.

Хотя оба эти подхода не дали коммерческих систем, работы, которые проводились в этом направлении, позволили осознать сложность задачи и, по крайней мере, установить узкие места в подобных разработках. Так или иначе, но именно из локальных проектов появились системы перевода, которые сейчас предла­гаются конечному пользователю.

Оказалось, что очень продуктивно рассматривать систему перевода не как транслятор, задачей которого является перевод текста, допустимого с точки зрения входной грамматики, а как некоторую сложную систему, задачей которой является получе­ние результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамма­тики, с которой работает система.

Вместо принятого лингвистического подхода, предполагаю­щего выделение последовательных процессов анализа и синте­за предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с объектно-ори­ентированной организацией, основанной на иерархии обрабатыва­емых компонентов предложения.

Сначала поясним некоторые определения. Вместе с разви­тием машинного перевода как области прикладной лингвисти­ки появились и классификации систем. Стало принято делить системы перевода на системы типа TRANSFER и системы типа

INTERLINGUA. Это разделение основано на особенностях ар­хитектурных решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структу­ры в аналогичную структуру выходного языка (TRANSFER) и за­тем синтез выходного предложения по полученной структуре.

Системы типа INTERLINGUA предполагают априори нали­чие некоторого метаязыка структур (INTERLINGUA), на кото­ром можно описать все структуры как входного, так и выходно­го языков в общем случае. Поэтому алгоритм перевода в систе­ме типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения вы­ходного языка. «Единственная» сложность в этом случае - раз­работать сам метаязык и описать естественный язык в соответ­ствующих терминах.

Несмотря на то что эта классификация существует и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится ваша система, не было раз­работано еще ни одной реальной системы, основанной на принципе INTERLINGUA.

Хотелось бы надеяться, что эти сведения позволят потенци­альным пользователям систем перевода понять, что создание системы машинного перевода - задача не такая уж простая и, что называется, наукоемкая. Следовательно, количество дей­ствительно пригодных к использованию систем перевода, кото­рое может появляться в единицу времени, принципиально ог­раничено.

2.2.3. Классификация систем

1. Системы машинного перевода (МП)

Системы машинного перевода - программы, осуществ­ляющие полностью автоматизированный перевод. Главным


критерием программы является качество перевода. Кроме этого, для пользователя важным является удобство интер­фейса, легкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита, пополне­ния словаря. С появлением Интернета основные поставщики систем МП включили в свои продукты web-интерфейсы, обеспечив при этом их интеграцию с остальным программ­ным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода web-страниц, элек­тронных писем и онлайновых разговорных сеансов.

2. Системы с функцией Translation Memory (TM)

Системы с функцией Translation Memory (TM) предостав­ляют средства для так называемого Machine-assisted human translation (МАНТ) - перевода, выполняемого человеком с помощью машины.

Они основаны на технологии Translation Memory (TM) в противоположность МП, машинному переводу. Идея зак­лючается в хранении базы данных переводов, сделанных профессиональным переводчиком, для того чтобы в процес­се перевода предлагать человеку уже готовый перевод фразы или куска текста, если он уже был однажды переведен. При­чем совпадение фразы не обязательно должно быть букваль­ным, а может определяться критериями «похожести», зало­женными в программу, с возможностью их настройки пользо­вателем. ТМ-программы очень полезны в ситуациях, в кото­рых необходимо сделать перевод обновленной версии доку­мента, переведенного ранее. Такая необходимость возника­ет при поддержке мультиязычных сайтов. Программа быст­ро обнаружит в документе места, подвергшиеся изменениям со времени предыдущей версии документа, и человеку оста­нется перевести только эти изменившиеся части. ТМ-про­граммы значительно повышают эффективность работы пе­реводчика, избавляя его от рутинной, повторяющейся рабо­ты. Во многих фирмах, занимающихся переводом, владение одной из таких программ является существенным критери­ем при приеме на работу.


3. Контролируемый язык и машинный перевод на основе базы знаний

В системах на основе контролируемого языка реализован пе­реход от свободного входного языка к контролируемому входно­му языку. Контроль входного языка предусматривает определен­ные ограничения лексики, грамматики, семантики. Контроли­руемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

■-

4. On-line переводчики

Службы онлайнового перевода выполняют перевод прямо в окне броузера, не требуя установки программы на компью­тер пользователя. Достаточно большое количество ссылок на бесплатные сервисы машинного перевода с указаниями на­правлений переводов приведено по адресу http://rivendel. com/~ric/resources/free. html.

Как правило, существует ограничение на объем вводимо­го текста.

Бесплатный онлайновый перевод можно сделать также по адресам:

Http://www.t-mail.com/;

Http://www.freetranslation.com/.

5. Словари on-line

Наиболее полный список словарей представлен по адре­су http://members.aol.com/Mgierhake/trans.html. В словарях on-line существует возможность поиска, есть строка ввода и меню для выбора входного и выходного языка. Среди слова­рей данного вида известны LOGOS ONLINE DICTIONARY (английский, французский, немецкий, испанский, итальян­ский, чешский), TRADOS MultiTerm, Langenscheidt"s New College Dictionary on-line и т.д.

6. Услуги по переводу в Интернете

Практически каждая компания - производитель систем МП предлагает услуги по переводу. Например, на странице

Languge Partners International (http://www.languagepartners. com/reg-forms/inq-trans.html) организована служба перево­дов, которая обрабатывает любой электронный документ с помощью систем МП и отправляет обратно без редактиро­вания. Пользователь может предоставить термины для по­полнения словаря по своей тематике (за дополнительную плату) или сам его создать. Скорость перевода - 1 рабочий день. Стоимость - 0,04 доллара за слово (приблизительно 8 долларов за страницу). За дополнительную плату предос­тавляются услуги по сканированию. Направления перевода: английский-французский-английский, английский-не­мецкий-английский, английский-итальянский-английс­кий, английский-испанский-английский, английский- португальский -английский, английский-японский-анг­лийский, английский-русский-английский. Однако чаще всего пользователю предоставляется возможность выбора: получить только машинный перевод, либо машинный пере­вод с последующим редактированием профессиональным переводчиком, либо перевод, выполненный профессио­нальным переводчиком. Такого рода сервис можно встре­тить по адресу http://www.plustranslation.com/ (сервис ком­пании Transparent Language). Цена варьируется от 0,01 дол­лара за слово при машинном переводе до 0,38 при переводе с участием переводчика. Подобные услуги есть у SYSTRAN, L&H, Langscheidt, Language Engineering Corporation.

2.2.4. Инновационные технологии компании ПРОМТ

Ведущие сотрудники компании ПРОМТ начали заниматься исследованиями в области прикладной лингвистики и изучать модели построения систем машинного перевода более 20 лет на­зад, в конце 1970-х годов. Исследования велись в лаборатории ин­женерной лингвистики ЛГПИ им. А.И. Герцена (ныне педагоги­ческий университет). Накопленный теоретический багаж лег в основу технологий МП, разрабатываемых в компании ПРОМТ.


За 10 лет с момента основания компании ПРОМТ удалось создать передовые технологии МП, в основе которых заложены современные лингвистические алгоритмы, разработки в облас­ти математического моделирования и нейронных сетей. На базе этих технологий были разработаны системы машинного пере­вода, которые по качеству на 30% превосходят ведущие миро­вые аналоги.

В 2000 г. компания ПРОМТ выпустила семейство систем МП на основе нового ядра перевода. В новом ядре реализованы тех­нологии расширенных сетей переходов и формализма нейрон­ных сетей, что вывело машинный перевод на качественно но­вый уровень, а также последние разработки в области алгорит­мов семантического анализа и синтаксического разбора.

Новым шагом в развитии МП компании ПРОМТ стало ис­пользование технологии F2F, обеспечивающей сохранение всей форматной информации в процессе перевода, что позволило осуществлять перевод сложноформатированных документов без потери форматных признаков.

Помимо развития собственно технологии машинного пере­вода, были приложены специальные усилия к тому, чтобы реа­лизовать в новых системах возможность лингвистической на­стройки, которая обеспечивает значительное улучшение каче­ства перевода для специализированных текстов.

В частности, появление поддержки тематик в новом ядре позволило кардинально изменить подход к переводу специали­зированных текстов. Использование тематик решило проблему лингвистической настройки системы на специализированные тексты и обеспечило эффективность их сохранения.

Легкость и удобство лингвистического администрирования систем МП было реализовано на базе следующих технологий:

AutoDetect для реализации автоматического определения
темы документа;

SmartFolders для предварительного задания тематики пере­
вода всем документам, находящимся в определенной папке;

KeyWords - выбор тематики на основе предварительного за­
данного списка ключевых слов;

SmartURL - возможность предварительного задания тема­тики перевода для конкретного URL.

Компания ПРОМТ предлагает онлайновые сервисы перево­да текста, web-страниц и электронных писем для английского, немецкого, французского, испанского, итальянского и русско­го языков. Для перевода специализированных текстов можно подключать тематические словари.

Перевод текста. Позволяет переводить любые тексты, на­бранные в окне перевода или скопированные из буфера обмена (Clipboard).

Перевод web-страниц. Позволяет полностью переводить web-страницы, включая гиперссылки, с сохранением исходного форматирования.

Перевод электронной почты. Позволяет переводить и от­правлять электронные письма непосредственно в онлайне.

WAP-переводчик. Новый сервис перевода для пользователей мобильных телефонов.

  • I. Религия имеет несколько исторических форм и прошла длительный путь развития
  • I. Характеристика состояния сферы создания и использования информационных и телекоммуникационных технологий в Российской Федерации, прогноз ее развития и основные проблемы
  • I.) История возникновения и развития компьютерных вирусов
  • II Основные этапы и главные сражения Великой Отечественной войны (2 часа)

  • Содержание:
    Введение ……………………………………………………….………………. 3
    1.1 Что такое машинный перевод?...................... .............................. ................ 5
    1.2 Начало машинного перевода ……..………….……...….………………… 8
    1.3 Этапы развития машинного перевода …………………….………….…. 12
    1.4 Современный машинный перевод ……………..……………………….. 15
    1.5 Машинный перевод в Интернете …….………………… ……………….. 18
    Заключение ……………………………………………………………………. 21
    Литература …….……………………...………………………………………. . 22

    Введение.
    Механизация перевода – это старейшая мечта человечества. Но в XX веке такая мечта стала реальностью. Во многом это связано с постоянным стремлением общества к глобализации и даже с этническими конфликтами и политическими катаклизмами, с упрочнением социально-экономических связей между государствами, интеграции многих ранее «закрытых» стран в мировое сообщество. Знание иностранных языков - это не только полезный навык в повседневной жизни, но также одно из основных требований при приеме на работу. В настоящее время необходимость в знании одного или даже нескольких иностранных языков приобретает всё более явную актуальность. Знание языка (английского или немецкого) необходимо не только в поездке в отпуск за границу, но также и на приеме деловых партнёров из-за рубежа, в обыденной жизни при чтении новостей или просмотре фильмов. Поэтому, большое количество рутинных обыденных и повседневных операций, которые не требовали ранее знания иностранного языка, сегодня, ввиду развития процессов международной интеграции и повсеместному стремлению бизнеса к глобализации, становятся всё более затруднительными, если опираться только на один язык. В связи с этим, на сегодняшний день, всё более востребованными становятся услуги переводчиков, выполняющих на профессиональном уровне переводы на английский, немецкий и другие языки и языковые пары. Однако сегодня одного только знания иностранных языков бывает недостаточно, поскольку объём информации, которую необходимо ежедневно переводить, существенно возрос. Вместе с тем, эта задача успешно решается, и ни для кого не составляет труда всего за несколько секунд перевести контракт или контент иностранного сайта. А всё потому, что переводом в этом случае занимается программа-переводчик: человек не успевает и глазом моргнуть, а перевод уже готов.
    Но и сегодня, как и прежде, реальность не совершенна. Нет ни одной системы машинного перевода, которая при нажатии всего нескольких кнопок могла бы сделать безупречный перевод любого текста на любом языке без вмешательства или хотя бы редакции человека. Пока это только планы на далекое будущее, если подобного идеала вообще можно достичь, так как многие подвергают данное предположение сомнению.

    1.1 Что такое машинный перевод?

    Машинный перевод - это процесс перевода, выполняемый специальной компьютерной программой, который позволяет преобразовать текст на одном естественном языке в эквивалентный по содержанию текст на другом языке. Так же называется направление научных исследований, связанных с построением подобных систем.
    Современный машинный, или автоматический перевод можно рассмотреть во взаимодействии компьютерной программы с человеком:

        С постредактированием, когда исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
        С предредактированием, когда человек приспосабливает текст к обработке машиной, например, устраняет возможные неоднозначные прочтения, упрощает и размечает текст, после чего начинается программная обработка.
        С интерредактированием, при котором человек вмешивается в работу системы перевода, разрешая трудные случаи.
        Смешанные системы, включающие, например, одновременно пред- и постредактирование.
    Основной целью машинного перевода, как науки является разработка алгоритма, который полностью автоматизирует процесс перевода.
    Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L 1 – L 2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.
    Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:
    1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.
    2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области. Включает определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста, производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие или отсутствие контекстных определителей значения.
    3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани , ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).
    4. Синтез выходных словоформ и предложения в целом на выходном языке.
    В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей.
    Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором), в содержание термина «машинный перевод» входит представление о том, что главную, бoльшую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок. В то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в словарях такого рода в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

    1.2 Начало машинного перевода.

    Технология машинного перевода, как научное направление, имеет уже почти вековую историю, а первые идеи автоматизации переводческого процесса появились еще в XVII столетии.
    Как принято считать, причинами возникновения машинного перевода явился бурно растущий со 2-ой половины XX века поток информации на разных языках различных стран и континентов, необходимость ее усвоения для научно-технического прогресса, недостаточность квалифицированных (особенно в отдельных областях) переводчиков, а также высокая стоимость их подготовки.
    О разработке новых способов перевода впервые задумался английский изобретатель Чарльз Бэббидж, предложивший в конце 1830-х гг. проект первого в истории компьютера. Суть работы прибора состояла в использовании потенциала машинной памяти для хранения словарей. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Однако воплотить в жизнь свою идею Бэббиджу так и не удалось.
    Теоретической основой начального периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами машинного перевода были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947 года. Именно тогда, директор отделения естественных наук Рокфеллеровского фонда Уоррен Уивер разработал меморандум, в котором определил задачу текстового перевода с одних языков на другие как еще одну область применения техники дешифрования. В своем письме Норберту Винеру Уоррен Уивер впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.
    Вслед за этим последовало бурное обсуждение идеи автоматизированного перевода и теоретическая разработка первых технологий. Высказывались предположения о полной замене человека-переводчика электронными системами, многие профессиональные переводчики опасались в ближайшем будущем остаться без работы. Идеи Уивера легли в основу подхода к машинному переводу, основанного на концепции interlingva: стадия передачи информации разделена на два этапа; на первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.
    Тот же Уоррен Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. Системы машинного перевода в те годы довольно сильно отличались от современных систем. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка машинного перевода активно поддерживалась военными; при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.
    Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.
    Вскоре, началось финансирование исследований, и в 1952 году состоялась первая конференция в Массачусетском технологическом институте по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.
    В 1954 общественности были предъявлены первые результаты: фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент. Он вошёл в историю как так называемый Джорджтаунский эксперимент, на котором была представлена первая версия электронного переводчика. В ходе эксперимента был продемонстрирован полностью автоматический перевод более 60 предложений с русского языка на английский . Презентация положительно повлияла на развитие машинного перевода в последующие 12 лет.
    Эксперимент был задуман и подготовлен с целью привлечения общественн ого и правительственного внимания. Парадоксально, но в его основе лежала довольно простая система : она была основана всего на 6 грамматических правилах , а словарь включал 250 записей. Система была специализированной: в качестве предметной области для перевода была выбрана органическая химия . Программа выполнялась на мэйнфрейме IBM 701 .
    В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе НИИ математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.
    Демонстрация Джорджтаунского эксперимента была широко освещена в СМИ и воспринята как успех. Она повлияла на решение правительств некоторых государств , в первую очередь США , направить инвестиции в область вычислительной лингвистики . Организаторы эксперимента уверяли, что в течение трёх-пяти лет проблема машинного перевода будет решена. Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда других городов. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков. В настоящее время исследования ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.

    1.3 Этапы развития машинного перевода.

    В результате такого успешного старта развития машинного перевода, казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет. При этом акцент делался на развитие полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс. Профессиональные переводчики всерьез опасались в скором времени остаться без работы...
    Однако исследования по машинному переводу за свою историю переживали как подъемы, так и спады. В 1950-х годах в исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества машинного перевода в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем. В результате этого первые системы машинного перевода сводились к пословному (слово за словом) переводу текстов без какой-либо синтаксической, а тем более смысловой целостности.
    В 1959 году философ Й. Бар-Хиллел выступил с утверждением, что высококачественный полностью автоматический перевод не может быть достигнут в принципе. Он исходил из того, что выбор того или иного перевода обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею машинного перевода, как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз"). Но это выступление самым неблагоприятным образом отразилось на развитии машинного перевода в США. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП. Этому в сильнейшей степени способствовала публикация так называемой «Черной книги машинного перевода» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного машинного перевода. Комиссия пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике машинного перевода, однако полного сворачивания исследований, в особенности теоретических, не произошло. И первые системы перевода продолжали пользоваться популярностью в военных и научных учреждениях СССР и США.
    Новый этап развития технологий машинного перевода начался в 1970-х годах. Этот подъём был связан с появлением вычислительной техники - появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти. Программисты отказались от идеи создания “идеальной” машины-переводчика: новые системы разрабатывались с целью многократного увеличения скорости перевода информации, но с обязательным участием человека на различных стадиях процесса перевода для достижения наилучшего качества работы.
    О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и NASA); кроме того, CEC заказывает разработку французско-английской и итальянско-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испанско-английского направления (система SPANAM); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг., впоследствии развились в полноценные коммерческие системы. В нашей стране разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.
    Очередной этап исследований в области машинного перевода – это 90-е года прошлого века. Связано это, конечно же, с колоссальным прогрессом современных персональных компьютеров, появлением качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста и, конечно же, с появлением глобальной компьютерной сети Интернет. Всё это придало новый стимул работам по машинному переводу, привлекло в данную область новые значительные инвестиции и увенчалось серьезными практическими результатами. А именно, появились достаточно эффективные системы машинного перевода и компьютерные словари для работы на персональном компьютере; произошло объединение систем машинного перевода с системами оптического распознавания текста и проверки орфографии. Были созданы специальные средства машинного перевода для работы в Интернет, обеспечивающие либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц, позволяющий преодолевать языковой барьер и осуществлять навигацию по иностранным сайтам.

    1.4 Современный машинный перевод.

    Сегодняшние программы-переводчики имеют гораздо более широкий «кругозор» и действуют на основе более совершенных переводческих технологий. Системы перевода активно используются во всем мире в случаях, когда требуется быстро понять смысл текста или часто переводить большие объемы информации. Некоторым разработчикам на сегодняшний день удалось достичь весьма приемлемого качества перевода по отдельным языковым направлениям.
    Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя. Человеку предоставляется лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий.
    В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик, если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.
    В рамках технологии машинного перевода существует два подхода: традиционный (основанный на правилах) и статистический (основанный на статистической обработке словарных баз). Традиционный метод МП используется большинством разработчиков систем перевода. Работа такой программы включает в себя несколько этапов и, по сути, заключается в использовании лингвистических правил (алгоритмов). Соответственно, создание такого электронного переводчика включает в себя разработку правил и пополнение словарных баз системы. От разработки необходимых алгоритмов зависит качество перевода на выходе. Богатый словарь системы также позволяет справиться с переводом самых разнообразных по тематике текстов. Статистический метод действует совсем по иному принципу. В его основе лежат математические методы для получения перевода. Точнее, весь принцип работы подобной системы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода.
    В России с помощью традиционного способа машинного перевода разрабатываются программные продукты компании ПРОМТ - единственного в нашей стране производителя программ-переводчиков. В настоящее время компания ПРОМТ – ведущий разработчик систем автоматизированного перевода и обладает колоссальным технологическим багажом, что позволяет разрабатывать системы перевода с различными функциональными возможностями. Уникальные технологии построения систем перевода и оригинальные алгоритмы работы с текстами на естественных языках стали тем базисом, на котором были созданы все программные продукты компании, и который обеспечил возможность разработки широкого спектра решений для автоматизированного перевода с одного языка на другой. Программные продукты компании ПРОМТ одинаково полезны как для решения бизнес-задач, так и для домашнего использования. В последнее время особое внимание компания ПРОМТ уделяет созданию специальных средств и технологий для профессиональных переводчиков. В настоящее время системы ПРОМТ выполняют перевод для 24 языковых направлений . Генеральный словарь для одной языковой пары содержит от 40 до 200 тысяч словарных статей, которые в свою очередь содержат структурированное описание различной лингвистической информации, необходимой системе для работы сложнейших алгоритмов анализа и синтеза текста. Словари по тематикам содержат специфические слова и выражения, характерные для предметной области, их объем может меняться от 5 до 50 тысяч словарных статей. Например, для англо-русской и русско-английской систем разработаны специализированные словари, охватывающие более 50 различных тематик.

    1.5 Машинный перевод в Интернете.

    Онлайновый перевод информации в Интернете становится все более популярным. Интернет стремительно превращается из преимущественно англоязычной в многоязычную среду, что вынуждает владельцев Web-сайтов предоставлять информацию на нескольких языках. Наиболее часто к услугам МП прибегают информационные и поисковые сайты, которые стремятся привлечь на свои страницы разноязычных пользователей. Так, на канадском информационно-поисковом портале InfiniT (http://www.infiniT.com) открылся новый сервис переводов. На сайте теперь доступен онлайновый перевод текста с английского и немецкого языков на французский язык и обратно. Увеличение числа посетителей портала обусловлено возможностью онлайнового перевода Web-страниц. Для этого пользователю достаточно указать только адрес Web-страницы, выбрать направление перевода и нажать кнопку перевода. В результате через несколько секунд пользователь получает полностью переведенную Web-страницу с сохранением форматирования.
    Новый сервис позволяет ликвидировать языковую проблему в канадском Интернете, где в силу исторических особенностей широко используются два языка: английский и французский. Кроме того, онлайновый переводчик открывает доступ к сайтам на немецком языке тем жителям Канады, которые не владеют иностранными языками. Сервис работает на базе серверного Интернет-решения компании ПРОМТ под названием PROMT Internet Translation Server version 2.0. Проект был реализован совместно с компанией Softissimo, которая занимается продвижением продуктов компании ПРОМТ под торговой маркой REVERSO. Интересной особенностью Web-сайтов, знакомящих с программами МП, электронными словарями и другими программами лингвистической поддержки, является то, что с работой многих программных продуктов можно познакомиться в интерактивном режиме, используя версию, установленную на сервере и имеющую шлюз для удаленного общения через Web-интерфейс. На сервере Web-издательства "ИнфоАрт" (http://www.
    infoart.ru/misc/dict) организована интерактивная демонстрация словарей Lingvo и "МультиЛекс". Вы можете ввести слово или словосочетание и мгновенно получить перевод, толкование, примеры употребления и устойчивые словосочетания.
    Наиболее универсальным является PROMT Internet. Купив этот пакет, вы получите сразу несколько программ для перевода Web-страниц, и не только их. Можно с уверенностью сказать, что возможностей данного набора приложений вполне достаточно для полноценной работы с документами на английском, французском и немецком языке. Если вы предполагаете использовать универсальную переводящую программу WebTranSite 98 или броузер WebView больше, чем другие части пакета PROMT Internet, и при этом желаете сэкономить немного денег, то можете приобрести эти продукты по отдельности. В таком случае WebTranSite 98 придется по вкусу тем, кто часто переводит небольшие фрагменты текста не только из Интернет, но и из офисных, почтовых и других программ, а также из системы интерактивной справки.
    WebTranSite 98 подходит не только для перевода Web-страниц. Она достаточно универсальна и позволяет обрабатывать фрагменты
    и т.д.................

    Лекция № 8 Тема: Назначение систем машинного перевода.

    Назначение машинного перевода

    Машинный перевод (МП), или автоматический перевод (АП),-интенсивно развивающаяся область научных исследований, экспериментальных разработок и уже функционирующих систем (СМП), в которых к процессу перевода с одного естественного языка (ЕЯ) на другой привлекается ЭВМ. СМП открывают быстрый и систематический доступ к информации на иностранном языке, обеспечивают оперативность и единообразие в переводе больших потоков текстов, в основном научно-технических. Работающие в промышленном масштабе СМП опираются на большие терминологические банки данных и, как правило требуют привлечения человека в качестве пред-, интер- или постредактора. Современные СМП, в особенности те, которые опираются при переводе на базы знаний в определенной предметной области, относят к классу систем искусственного интеллекта (ИИ).

    Основные сферы использования МЦ

    1. В отраслевых службах информации при наличии большого массива или постоянного потока иноязычных источников. Если СМП используются для выдачи сигнальной информации, постредактирование не требуется.

    2. В крупных международных организациях, имеющих дело с многоязычным политематическим массивом документов. Таковы условия работы в Комиссии Европейских сообществ в Брюсселе, где вся документация должна появляться одновременно на девяти рабочих языках. Поскольку требования к переводу здесь высоки, МП нуждается в постредактировании.

    3. В службах, осуществляющих перевод технической документации, сопро­вождающей экспортируемую продукцию. Переводчики не справляются в требуемые сроки с обширной документацией (так, спецификации к самолетам и другим сложным объектам могут занимать до 10000 и более страниц). Структура и язык технической документации достаточно стандартны, что облегчает МП и даже делает его предпочтительным перед ручным переводом, так как гарантирует единый стиль
    всего массива. Поскольку перевод спецификаций должен быть полным и точным, продукция МП нуждается в постредактировании.

    4. Для синхронного или почти синхронного перевода некоторого постоянного потока однотипных сообщений. Таков поток метеосводок в Канаде, который должен появляться одновременно на английском и французском языках.

    Помимо практической потребности делового мира в СМП, существуют и чисто научные стимулы к развитию МП: стабильно работающие экспериментальные системы МП являются опытным полем для проверки различных аспектов общей теории понимания, речевого общения, преобразования информации, а также для создания новых, более эффективных моделей самого МП.

    С точки зрения масштаба и степени разработанности СМП можно разбить на три основных класса: промышленные, развивающиеся и экспериментальные.

    Лингвистическое обеспечение систем машинного перевода

    Процесс МП представляет собой последовательность преобразований, при­меняемых к входному тексту и превращающих его в текст на выходном языке, который должен максимально воссоздавать смысл и, как правило, структуру исходного текста, но уже средствами выходного языка. К лингвистическому обеспечению СМП относится весь комплекс собственно лингвистических, металингвистических и так называемых «экстралингвистических» знаний, которые используются при таком преобразовании.

    В классических СМП, осуществляющих непрямой перевод по отдельным предложениям (пофразный перевод), каждое предложение проходит последо­вательность преобразований, состоящую из трех частей (этапов): анализ -> трансфер (межъязыковые операции)->синтез. В свою очередь, каждый из этих этапов представляет собой достаточно сложную систему промежуточных преобразований.

    Цель этапа анализа построить структурное описание (промежуточное представление, внутреннее представление) входного предложения, | Задача этапа трансфера (собственно перевода)-преобразовать структуру входного предложения во внутреннюю структуру выходного предложения. К этому этапу относятся и замены лексем входного языка их переводными эквивалентами (лексические межъязыковые преобразования). Цель этапа синтеза-на основе полученной в результате анализа структуры построить правильное предложение выходного языка.

    Лингвистическое обеспечение стандартной современной СМП включает:

    1) словари;

    2) грамматики;

    3) формализованные промежуточные представления единиц анализа на разных этапах преобразований.

    Помимо стандартных, в отдельных СМП могут иметься и некоторые нестандартные компоненты. Так, экспертные знания о ПО могут задаваться с помощью специальных концептуальных сетей, а не в виде словарей и грамматик.

    Механизмы (алгоритмы, процедуры) оперирования с имеющимися словарями, грамматиками и структурными представлениями относят к математико-алгоритмическому обеспечению СМП.

    Одно из необходимых требований к современным СМП-высокая модульность. С лингвистически содержательной точки зрения это означает, что анализ и следующие за ним процессы строятся с учетом теории лингвистических уровней. В практике создания СМП различают такие уровни анализа:

    Досинтаксический анализ (в него входит морфологический анализ - МорфАн, анализ оборотов, неопознанных элементов текста и др.);

    Синтаксический анализ СинАн (строит синтаксическое представление предложения, или СинП); в его пределах может выделяться ряд подуровней, обес­печивающих анализ разных типов синтаксических единиц;

    Семантический анализ СемАн, или логико-семантический анализ (строит аргументно-предикатную структуру высказываний или другой вид семантического
    представления предложения и текст);

    Концептуальный анализ (анализ в терминах концептуальных структур,отражающих семантику ПО). Этот уровень анализа используется в СМП, ориен­тированных на очень ограниченные ПО. По сути дела, концептуальная структура является проекцией схем ПО на лингвистические структуры, часто даже не на семантические, а на синтаксические. Только для очень узких ПО и ограниченных классов текстов концептуальная структура совпадает с семантической; в общем случае полного совпадения не должно быть, так как текст подробнее любых
    концептуальных схем.

    Синтез теоретически проходит те же уровни, что и анализ, но в обратном направлении. В работающих системах обычно реализован только путь от СинП до цепочки слов выходного предложения.

    Лингвистическое разграничение разных уровней может проявляться также в разграничении используемых в соответствующих описаниях формальных средств (набор этих средств задается для каждою уровня отдельно). На практике часто задаются отдельно лингвистические средства МорфАн и совмещаются средства СинАн и СемАн. Но разграничение уровней может оставаться только содержательным при использовании в их описаниях единого формализма, пригодного для представления информации всех выделяемых уровней.

    С технической точки зрения модульность лингвистического обеспечения означает отделение структурного представления фраз и текстов (как текущих, временных знаний о тексте) от «постоянных» знаний о языке, а также языковых знаний от знаний ПО; отделение словарей от грамматик, грамматик - от алгоритмов их обработки, алгоритмов « от программ. Конкретные соотношения различных модулей системы (словари-грамматики, грамматики - алгоритмы, алгоритмы - программы, декларативные - процедурные знания и др.), включая распределение лингвистических данных по уровням,- это то основное, что определяет специфику СМП.

    Словари. Словари анализа, как правило, одноязычные. Они должны содержать всю информацию, необходимую для включения данной лексической единицы (ЛЕ) в структурное представление. Часто разделяют словари основ (с морфолого-синтаксической информацией: часть речи, тип словоизменения, подкласс, характеризующий синтаксическое поведение ЛЕ и т. п.) и словари словозначений, содержащие семантическую и концептуальную информацию: семантический класс ЛЕ, семантические надежи (валентности), условия их реализации во фразе и т. д.

    Во многих системах разделены словари общеупотребительной и терминоло­гической лексики. Такое разделение дает возможность при переходе к текстам другой предметной области ограничиваться лишь сменой терминологических словарей. Словари сложных ЛЕ (оборотов, конструкций) образуют обычно от­дельный массив, словарная информация в них указывает на способ «собирания» такой единицы при анализе. Часть словарной информации может задаваться в процедурной форме, например, многозначным словам могут сопоставляться алгоритмы разрешения соответствующего типа неоднозначности. Новые виды организации словарной информации для целей МП предлагают так называемые «лексические базы знаний». Наличие разнородной информации о слове (называемой лексическим универсумом слова) приближает такой словарь, скорее к энциклопедии, чем к традиционным лингвистическим словарям.

    Грамматики и алгоритмы. Грамматика и словарь задают лингвистическую модель, образуя основную часть лингвистических данных. Алгоритмы их обработки, 1. е. соотнесения с текстовыми единицами, относят к математико-алгоритмическому обеспечению системы.

    Разделение грамматик и алгоритмов важно в практическом смысле тем, что позволяет менять правила грамматики, не меняя алгоритмов (и соответственно программ), работающих с грамматиками. Но далеко не всегда такое разделение возможно. Так, для системы с процедурным заданием грамматики и тем более С процедурным представлением словарной информации такое разделение нерелевантно. Алгоритмы принятия решений в случае недостаточной (неполнота входных данных) или избыточной (вариантность анализа) информации в больший мере эмпиричны, их формулировка требует лингвистической интуиции. Задание общего управляющего алгоритма, ведающего порядком вызова разных грамматик (если их несколько в одной системе), также требует лингвистического обоснования. Тем не менее существующая тенденция - отделить грамматики от алгоритмов так, чтобы все лингвистически содержательные сведения задавались в статической форме грамматик, а алгоритмы сделать настолько абстрактными, что они смогут вызывать и обрабатывать разные лингвистические модели.

    Наиболее четко разделение грамматик и алгоритмов наблюдается в системах, работающих с контекстно-свободными грамматиками (КСГ), где модель языка- грамматика с конечным числом состояний, а алгоритм должен обеспечить для произвольно взятого предложения дерево его вывода по правилам грамматики, и если таких выводов несколько, то перечислить их. Такой алгоритм, представляющий собой формальную (в математическом смысле) систему, называется анализатором. Описание грамматики служит для анализатора, обладающее универсальностью, таким же входом, как и анализируемое предложение. Анализаторы строятся для классов грамматик, хотя учет специфических особенностей грамматики может повысить эффективность анализатора.

    Грамматики синтаксического уровня - наиболее разработанная часть и с точки зрения лингвистики, и с точки зрения их обеспечения формализмами.

    Основные типы грамматик и реализующих их алгоритмов:

    Цепочечная грамматика фиксирует порядок следования элементов, т. е, ли­нейные структуры предложения, задавая их в терминах грамматических классов слов (артикль+существительное+предлог} или в терминах функциональных элементов (подлежащее+сказуемое);

    Грамматика составляющих (или грамматика непосредственно составляющих- НСГ) фиксирует лингвистическую информацию о группировке грамматических элементов, например, именная группа (состоит из существительного, артикля,
    прилагательного и других модификаторов), предложная группа (состоит из предлога и именной группы) и т. д. до уровня предложения. Грамматика строится как набор правил подстановки, или исчисление продукций вида А-»В...С. НСГ
    представляют собой грамматики порождающего типа и могут использоваться как при анализе, так и при синтезе: предложения языка порождаются многократным применением таких правил;

    Грамматика зависимостей (ГЗ) задает иерархию отношений элементов предложения (главное слово определяет форму зависимых). Анализатор в ГЗ основан на идентификации хозяев и их зависимых (слуг). Главным в предложении является глагол в личной форме, так как он определяет число и характер зависимых существительных. Стратегия анализа в ГЗ- сверху вниз: сначала идентифицируются хозяева, затем слуги, или снизу вверх: хозяева определяются процессом подстановки;

    Категориальная грамматика Бар-Хиллела-это версия грамматики состав­ляющих, в ней только две категории - предложения S и имени п. Остальные определяются в терминах способности комбинироваться е этими главными в структуре НС. Так, переходный глагол определен как n\S, так как он сочетается с именем и слева от него, образуя предложение S.

    Существует много способов учета контекстных условий: грамматики ме­таморфозы и их варианты. Все они являются расширениями КС-правил. В общем виде это значит, что правила продукций, переписываются так: А [а]->В[Ь], ... ,С [с], где малыми буквами обозначены условия, тесты, инструкции и т. д., расширяющие исходные жесткие правила и дающие грамматике гибкость и эффективность.

    В грамматике обобщенных составляющих-ТСС введены метаправила, являющиеся обобщением закономерностей правил КС1.

    В грамматиках расширенных сетей переходов-РСП предусмотрены тесты и условия к дугам, а также инструкции, которые надо выполнить в случае, если анализ пошел по данной дуге. В разных модификациях РСП дугам может приписываться вес, тогда анализатор может выбирать путь с наибольшим весом. Условия могут разбиваться на две части: контекстно-свободные и контекстно-зависимые.

    Разновидностью РСПГ являются каскадные РСПГ. Каскад-это РСП, снабженная действием 1шшш1. Это действие вызывает остановку процесса в данном каскаде, запоминание информации о текущей конфигурации в стеке и переход к более глубокому каскаду с последующим возвратом в исходное состояние. РСП обладает рядом возможностей трансформационных грамматик. Она может использоваться и как генерирующая система.

    Метод анализа с помощью граф-схемы позволяет сохранить частичные результаты и представить варианты анализа.

    Новым и сразу завоевавшим популярность методом грамматического описания является лексшо-фунщиональная грамматика (ЛФГ). Она устраняет необходимость трансформационных правил. Хотя ЛФГ основывается на КСГ, проверочные условия в ней отделены от правил подстановки и «решаются» как автономные уравнения.

    Унификационные грамматики (УГ) представляют собой следующий после граф-схем этап обобщения модели анализа: они способны воплощать грамматики различных видов. УГ содержит четыре компонента: пакет унификации, интерпретатор для правил и лексических описаний, программы обработки на­правленных графов, анализатор с помощью граф-схемы. УГ объединяют грамматические правила со словарными описаниями, синтаксические валентности с семантическими.

    Центральной проблемой любой системы анализа ЕЯ является проблема выбора вариантов. Для ее решения грамматики синтаксического уровня дополняются вспомогательными грамматиками и методами разбора сложных ситуаций. В НС-грамматиках применяют фильтровый и эвристический методы. Фильтровый метод состоит в том. что сначала получают все варианты анализа предложения, а затем отбраковывают те, которые не удовлетворяют некоторой системе условий-фильтров. Эвристический метод с самого начала строит лишь часть вариантов, более правдоподобных с точки зрения заданных критериев. Использование весов для отбора вариантов является примером применения эвристических методов в анализе.

    Семантический уровень гораздо меньше обеспечен теорией и практическими разработками. Традиционной задачей семантики считается снятие неоднозначности синтаксического анализа - структурной и лексической. Для этого используется аппарат селективных ограничений, который привязан к рамкам предложений, т. е. вписывается в синтаксическую модель. Наиболее распространенный тип СемАн основан на так называемых падежных грамматиках. В основе грамматики-понятие глубинного, или семантического, падежа. Падежная рамка глагола является расширением понятия валентность: это набор смысловых отношений, которые могут (обязательно или факультативно) сопровождать глагол и его вариации в тексте. В пределах одного языка один и тот же глубинный падеж реализуется разными поверхностными предложно - падежными формами. Глубинные падежи в принципе позволяют выходить за рамки предложения, а выход в текст означает переход к семантическому уровню анализа.

    Поскольку семантическая информация в отличие от синтаксической, опирающейся в первую очередь на грамматики, сосредоточена в основном в словарях, в 80-е годы интенсивно разрабатываются грамматики, позволяющие «лексикализовать» КСГ. Ведется разработка грамматик, основанных на исследовании свойств дискурса.

    Концевой Даниил Сергеевич,
    ЧОУ ВО «Омская юридическая академия», г. Омск

    Переводчик в сфере профессиональных коммуникаций - это человек, активно владеющий иностранным языком профессиональной сферы, умеющий логически верно, аргументировано и ясно строить иноязычную устную и письменную речь, а главное, владеть техникой использования систем машинного перевода, ведь даже профессионалы не могут обойтись без обращения к электронным переводчикам.

    Машинный перевод - выполняемый на компьютере, или ином электронном устройстве процесс по преобразованию текста одного языка на эквивалентный по содержанию текст другого языка, а также результат такого действия. Так как не существует полностью автоматизированных электронных переводчиков, способных точно и верно по смыслу переводить текст, специалист-переводчик должен этот текст подготовить, или же исправить ошибки и недочеты уже в обработанном машиной тексте.

    Существуют четыре формы организации взаимодействия компьютера и человека при осуществлении машинного перевода:

    • предредактирование: человек подготавливает текст к обработке компьютером (упрощает смысл текста, устраняет неоднозначные прочтения, размечает текст), после чего производится машинный перевод;
    • интерредактирование: человек непосредственно вмешивается в работу системы перевода, разрешая проблемные вопросы;
    • постредактирование: исходный текст целиком подвергается машинной обработке, а человек исправляет полученный результат путем редактирования переведенного текста;
    • смешанная система.

    Современные электронные переводчики способны производить адекватный для восприятия перевод отдельных фраз и предложений, они служат для облегчения работы человека-переводчика, для избавления его от рутинной работы поиска значений определенных слов и словосочетаний в словарях.

    Для освоения систем машинного перевода необходимо хотя бы в общих чертах понимать технологии электронного перевода. В машинном переводе их несколько:

    1) Прямой машинный перевод

    Прямой машинный перевод является самым старым подходом машинного перевода. При таком способе перевода текст на исходном языке не подвергается структурному анализу за пределами морфологии. Такой перевод использует большое количество словарей и является пословным, если не считать небольшой грамматической корректировки, например, касательно порядка слов и морфологии. Система прямого перевода предназначена для особых пар языков. Лексикон представляет собой хранилище информации о специфике слов. Эти системы зависят от качества подготовки словарей, морфологического анализа и программного обеспечения по обработке текста. Примером системы прямого перевода может служить Systran.

    2) Машинный перевод, основанный на правилах, использует объемное хранилище лингвистических правил и двуязычных словарей для каждой языковой пары. Типами машинного перевода, основанного на правилах, можно назвать принцип Interlingua (Интерлингва) и машинный перевод типа Transfer (Перенос).

    • Машинный перевод Интерлингва

    При машинном переводе, основанном на принципе Interlingua, перевод осуществляется через промежуточную (семантическую) модель текста исходного языка. Interlingua являет собой не зависящую от конкретного языка модель, из которой может быть сгенерирован перевод на любой язык. Принцип Interlingua допускает возможность трансформации текста на исходном языке в модель, общую для нескольких языков.

    • Машинный перевод Transfer основан на идее Interlingua с использованием сопоставительного анализа двух языков. Три этапа данного процесса: анализ, перенос и генерирование. Сначала текст на исходном языке переводится в абстрактную или промежуточную модель исходного языка, которая затем преобразуется в модель целевого языка, чтобы потом окончательно оформиться в текст на целевом языке. Данный принцип проще, нежели Interlingua, но зато здесь сложнее избежать неоднозначности.

    3) Машинный перевод на корпусах текстов

    Корпусный подход в машинном переводе использует совокупность (корпус) параллельных двуязычных текстов. Главным преимуществом систем машинного перевода с корпусным подходом является их самонастройка, т.е. они способны запоминать терминологию и даже стилистику фраз из текстов предыдущих переводов. Статистический машинный перевод и машинный перевод, основанный на примерах, представляют собой варианты корпусного подхода.

    • Статистический машинный перевод

    Это разновидность машинного перевода текста, основанная на сравнении больших объемов языковых пар. Этот переводческий подход использует модели статистического перевода. Один из применяемых подходов - теорема Байеса. Построение моделей статистического перевода - процесс довольно быстрый, но эта технология в большой степени зависит от наличия многоязычного корпуса текстов. Требуется минимум 2 миллиона слов для каждой отдельной области, если речь идет о языке в целом. Статистический машинный перевод требует наличия специального оборудования, для того чтобы «усреднять» переводческие модели. Примером статистического машинного перевода служит Google Translate.

    • Машинный перевод на примерах

    Системы машинного перевода, основанного на примерах, базируются на принципе параллельного двуязычного корпуса текстов, в котором в качестве примеров содержатся пары предложений. Каждое предложение дублируется на другом языке. Статистический машинный перевод обладает свойством "обучения". Чем больше в распоряжении текстов (примеров), тем лучше результат машинного перевода.

    Каждый переводчик в сфере профессиональной коммуникации столкнется с проблемой выбора надлежащей программы для перевода. Исключая платные сервисы, считаем нужным проанализировать наиболее известные системы.

    Большой популярностью пользуется электронный переводчик Google Translate, который разработан компанией Google в середине 2000-х годов. Данная услуга предназначена для перевода текстов и перевода сайтов "на лету". Переводчик использует самообучающийся алгоритм машинного перевода на основе языкового анализа текстов.

    В отличие от большинства машинных переводчиков, которые используют технологию SYSTRAN, Google использует собственное программное обеспечение. Google Translate на данный момент является наиболее популярным переводчиком благодаря своей простоте и многофункциональности (а также прямой связи с разработчиком программного обеспечения для компьютеров - Microsoft). Благодаря этому, данная система машинного перевода очень быстро развивается и оптимизируется под нужды пользователей. Поэтому сейчас из функций данного переводчика можно наблюдать: перевод всей веб-страницы; одновременный поиск информации с переводом на другой язык; перевод текста на изображениях; перевод произнесенной фразы; перевод с рукописным вводом; перевод диалога.

    Из особенностей данной системы машинного перевода можно выделить:

    1. Варианты перевода контролируются статистическим алгоритмом.

    Пользователи всегда могут предлагать собственные варианты перевода тех или иных слов и/или выбирать один из вариантов перевода как наиболее подходящий. Недостатком подобного алгоритма могут служить заведомо неверные варианты перевода, в том числе нецензурные слова.

    1. Охват мировых языков.

    То есть сейчас программа работает более чем со ста языками, включая суахили, китайский и валлийский языки. Так, Google Translator в силах осуществить перевод с одного поддерживаемого языка на другой поддерживаемый, но в большинстве случаев перевод выполняется через английский. Минус такого механизма очевиден - страдает качество перевода.

    На российском рынке машинных переводчиков лидирующую позицию занимает PROMT, разработанный в 1991 году.

    PROMT, равно как и Google Translate, использует собственное программное обеспечение, которое в 2010 году заметно обновилось. Отныне PROMT осуществляет перевод, основываясь на гибридной технологии. Её суть заключается в том, что вместо одного варианта перевода программа производит около сотни переводов одного и того же предложения в зависимости от многозначности слов, конструкций и статистических результатов. Затем машина подбирает наиболее вероятный из предложенных переводов. Таким образом, переводчик способен быстро обучаться, но имеет те же минусы, что и все переводчики, основанные на статистических методах обработки текста.

    Из возможностей переводчика можно выделить: перевод слов, словосочетаний и текстов, в том числе с помощью «горячих» клавиш; перевод выделенной области экрана с графическим текстом; перевод документов разных форматов: doc(x), xls(x), ppt(x), rtf, html, xml, txt, ttx, pdf (в том числе отсканированные), jpeg, png, tiff; использование, редактирование и создание специализированных словарей и профилей перевода; подключение баз Translation Memory и глоссариев; интеграция в офисные приложения, веб-браузеры, корпоративные порталы и сайты.

    Недостатками переводчика являются: небольшое количество языковых пар, с которыми работает программа; сложный интерфейс; неточности в переводах профессиональной лексики (что, впрочем, устраняется благодаря подключению тематических словарей).

    Тем не менее, PROMT признавался лучшим англо-русским переводчиком в рамках ежегодного семинара по статистическому машинному переводу под эгидой Ассоциации компьютерной лингвистики (ACL) в 2013 и в 2014 годах.

    Существует множество других систем машинного перевода, но они, так или иначе, копируют различные особенности отечественного переводчика PROMT или американского Google Translate.

    Таким образом, переводчик в сфере профессиональной коммуникации, зная технологии машинного перевода, умеющий правильно выбрать электронный переводчик для тех или иных целей, будет подкован для осуществления успешной профессиональной деятельности, ведь на данном этапе развития компьютерных технологий думать о полностью автоматическом машинном переводе еще рано. Человек-переводчик мыслит образами и исходит из цели: донести конкретную мысль до слушателя/читателя. Пока сложно представить компьютерную программу с такими возможностями. Современные машинные переводчики носят вспомогательную роль. Они призваны избавить человека от рутинной работы в процессе перевода. Век бумажных словарей окончен, а в помощь профессионалам-переводчикам (и не только) приходят системы машинного перевода.

    Список использованной литературы

    1. www.promt.ru
    2. www.translate.google.com
    3. Белоногов Г.Г. Зеленков Ю.Г. Интерактивная система русско-английского и англо-русского машинного перевода, ВИНИТИ, 1993.
    4. Вестник Московского Университета. Сер.19 Лингвистика и межкультурная коммуникация. 2004. № 4, с.51.

    Ваша оценка: Пусто

      Вид работы:

      Отчет по практике по теме: Машинный перевод.Система машинного перевода PROMT

      21.03.2012 10:20:09

      Тип файлов:

      Проверка на вирусы:

      Проверено - Антивирус Касперского

    • Полный текст:


      Введение…………………………………………………………………………..2

      Глава I. Машинный перевод

      История машинного перевода………………………………………….…4

      Как осуществляется машинный перевод………………………………..10

      Системы машинного перевода и их классификация…………...............13

      Качество машинного перевода…………………………………………..18

      Глава II. Система машинного перевода PROMT

      2.1 Возможности машинного переводчика семейства PROMT…………...22

      2.2 Сравнительный анализ переводов художественного текста сделанный системой машинного перевода и человеком…………………………...…26

      Заключение………………………………………………………………….….30

      Библиография…………………………………………………………………..31

      Введение


      Перевод (вид языкового посредничества, при котором содержание иностранного текста оригинала передается на другой язык путем создания на этом языке коммуникативно равноценного текста.(№ 7)) имеет долгую историю, он восходит к временам когда праязык начал распадаться на отдельные языки и возникла необходимость в людях, способных быть посредниками при общении представителей разных языковых общин.

      Коммуникативная равноценность понимается как способность переведенного текста выступать в качестве полноправной замены исходного текста.(№ 7).

      Коммуникативная эквивалентность нового текста по отношению к исходному обеспечивается следующим:

      · передача содержания оригинала в полном объёме;

      · соответствие текста перевода тексту оригинала по нормам языка перевода;

      · текст перевода должен соответствовать оригиналу с точки зрения лаконичности и развернутости высказываний для достижения схожего стилистического эффекта. Также перевод должен быть примерно сопоставим по объёму.

      Актуальность данной проблемы обусловлена тем, что история развития и внедрения в повседневную жизнь персональных компьютеров (способных осуществлять автоматический перевод) насчитывает не более пятнадцати – двадцати лет. Сегодня программы переводчики умеют строить осмысленные фразы и простые предложения, за последние несколько лет качество перевода улучшилось.

      Объектом исследования является система машинного перевода.

      Предметом исследования является перевод осуществлённый системой PROMT XT.

      Однако данные компьютерные программы еще недостаточно хорошо разбираются в грамматике, жаргонных выражениях, стилистических приемах и многих других казалось бы мелочах, но именно из них, складывается красивый, понятный перевод. В современном мире компьютеры занимают значительное место и в среде переводчиков, лингвистов и специалистов нуждающихся в оперативном переводе иноязычной информации.

      Развитие кибернетики сделало возможным машинный перевод, т.е. выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке а также результат такого действия. В настоящее время главные области применения машинного перевода это перевод Интернет – страничек, руководств к технике, электронных писем. При этом достигается лишь общее понимание текста. Другое применение этих систем – облегчение труда профессиональных переводчиков, уменьшение затрат времени на подстрочный перевод, который можно впоследствии редактировать.

      Цель данной работы – определение того насколько можно использовать современные программы для осуществления перевода, а также какова их эффективность.

      В соответствии с поставленной целью, задачами исследования являются:

      · Уяснение последовательности формальных операций, обеспечивающий анализ и синтез в системе машинного перевода (перевод);

      · Анализ работы систем машинного перевода на примере перевода произведенного программой PROMT XT;

      · Сравнение образцов перевода с переводом, сделанным человеком. Анализ причин несоответствия.

      В работе также будет обозначена история развития машинного перевода, как в нашей стране так и за рубежом. Рассмотрена алгоритм осуществления машинного перевода, классификация систем машинного перевода, проблема качества перевода.


      Глава I. Машинный перевод.

      1.1 История машинного перевода

      Впервые идею использования механизмов для перевода с одного языка на другой предложили Лейбниц и Декарт. Они предприняли попытку создать словарь, основанный на числовых кодах. Еще издавна существовали идеи о языке, понятном всем, построенном исключительно на логике, использующем символы – пиктограммы. Самой известной разработкой в этой области стала «interlingua» Джона Вилкинса. Гораздо позже были созданы еще несколько искусственных языков, наиболее известный из которых – эсперанто Льва Знаменгофа. По свидетельству биографов, знаменитый математик Чарльз Бэббидж, пытаясь убедить британское правительство финансировать его разработку «аналитической машины», обещал, что в недалеком будущем его машина кроме всего прочего сможет переводить разговорную речь. Но машина так и не была построена.

      В 1933 году было выдано два патента на механическую систему перевода – в России и во Франции. Французский армянин Жорж Арсуни изобрел схему устройства на бумажной ленте для перевода произвольного слова на другой язык и в 1937г. продемонстрировал прототип системы. В России патент достался Петру Смирнову – Троянскому, который изобрел своеобразный лингвистический арифмометр. Он выделял три стадии механического перевода: на первой стадии человек, знающий входной язык, представлял слова и предложения в «основной» форме и расставлял синтаксические функции слов. На второй стадии машина переводила эти формы и функции на выходной язык, а затем, на третьей стадии, полученный текст редактировал носитель выходного языка. Смирнов – Троянский считал, что по крайней мере вторая стадия может быть автоматизирована.(№ 15)

      История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века. В марте 1947 г. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, в переписке с Эдрю Бутом и Норбертом Винером впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 г.) развил в своем меморандуме, адресованном Фонду. У.Уивер писал: "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text."" ("У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно - это взломать код чтобы извлечь информацию, заключенную в тексте."). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

      · исследование чисто внешних характеристик сообщения, та­ких как частота отдельных элементов и сочетаний элементов;

      · исследование дистрибуции элементов, составляющих текст;

      · анализ билингв с целью выявления совпадающих элемен­тов и использования некоторых ключевых элементов (собствен­ных имен и пр.) с учетом статистических и дистрибутивных характеристик;

      · нахождение ключа и применение его ко всей последова­тельности закодированных сообщений.(№ 11)


      Примерно в то же время Клод Шеннон сформулировал теорию информации, а Норберт Винер изложил концептуальные основы кибернетики. И вскоре на исследования были выделены деньги, а машинный перевод стал самостоятельным научным направлением, рожденным на стыке математики и программирования.

      Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingua: стадия передачи информации разделена на два этапа; на первом этапе исходноепредложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка. Меморандум Уивера вызвал самый живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания).

      В те годы компьютеры довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов. Поэтому на ранних этапах разработка систем МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому. В 1952 состоялась первая конференция по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом. Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.

      Фактически история машинного перевода начинается с "Джорджтаунского эксперимента". фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент (вошедший в историю под названием Джорджтаунского), в ходе которого система, использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил, осуществила перевод 49 заранее отобранных предложений. В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков.

      Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода "слово за словом", "фраза за фразой". Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения, а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (Т - от английского слова "transfer - преобразование").

      Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

      В 50-х годах целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

      Оказалось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

      Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

      Потребность в создании теоретических основ машинного перевода привела к формированию нового направления в лингвистике, называемого структурной, прикладной, математической лингвистикой.

      В 1959г. философ, математик, логик Бар-Хиллел выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив.). Pen в данном случае должно переводиться не как "ручка" (инструмент для письма), а как "детский манеж" (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз").

      Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально создананная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций.

      Следующие десять лет (60 – е) разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

      С развитием вычислительной техники в конце 70-х годов (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в новую колею. При этом несколько сместились акценты: исследователи теперь ставили целью развитие "реалистических" систем МП, предполагавших участие человека на различных стадиях процесса перевода.

      Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП, получила название искусственного интеллекта , а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

      Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.

      Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

      За период 1978-93 в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

      Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

      В СССР в качестве головной организации по машинному переводу был в 1974 определен Всесоюзный центр переводов научно-технической литературы и документации (ВЦП), взявший на себя координацию работ в масштабе страны. Под его эгидой был проведен ряд крупных международных научных конференций по машинному переводу и проблемам научно-технического перевода. В ВЦП были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю.А.Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ. В ВПЦ была также разработана система МП с русского языка на английский АСПЕРА. Большой вклад в разработку промышленных систем МП был сделан ленинградской общесоюзной группой «Статистика речи» под руководством Р.Г.Пиотровского, а также группами специалистов по компьютерной лингвистике в Минске (А.В.Зубов), Кишиневе (В.А.Чижаковский), Махачкале (А.И.Чапля), Чимкенте (К.Б.Бектаев), Самарканде (Х.А.Арзикулов) и др. На базе исследований и научно-практического подхода группы «Статистика речи» были впоследствии разработаны и сейчас находятся в коммерческом использовании такие системы машинного перевода, как Stylus, Socrat и другие.

      Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов.

      В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов» (см. обзор работ этого направления, принадлежащий Л.Н.Беляевой и М.И.Откупщиковой). Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу. Выявление содержания текста в рамках человеко-машинного интерфейса может производиться, как и во всякой прикладной задаче, только с использованием как декларативных, так и процедурных знаний и при значительной опоре на лексику. Эта точка зрения обоснована, в частности, в недавних работах отечественного специалиста по программированию и искусственному интеллекту А.С.Нариньяни.

      1.2 Как осуществляется машинный перевод.


      Системы МП осуществляют автоматизированный перевод текста. Единицами перевода при этом служат слова или словосочетания, причем последние разработки позволяют учитывать морфологию переводимого слова. Развитые системы МП осуществляют перевод по заданным разработчиком и/или корректируемым пользователем алгоритмам перевода. Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков А1 – А2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода: 1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например винительного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы. 2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа that is why, in the form of получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. why может быть существительным, междометием, наречием); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

      3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, несмотря на то, что в оригинале может быть и единственное число. Но в то же время "Русское" слово «порося» оказывается возвратным глаголом со значением су­ществительного". Как бы ни анализировать русское слово «порося», с лингвистической точки зрения оно абсолютно не сопоставимо с возвратными глаголами на -ся . Лингвистическая членимость сло­ва и членимость слова, "удобная" для машины, не имеют между собой ничего общего. (№ 4))

      4. Синтез выходных словоформ и предложения в целом на выходном языке. В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей.

      Действующие системы машинного перевода ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Любой достаточно хороший словарь фиксирует не только слова, но и часто встречающиеся сочетания слов, т.е. микро­контекст соответствующих единиц. Например, при слове «настоящий» может быть дано сочетание «в настоящее время» - gegenwartig, actuellement, при слове «опыт» - сочета­ние: «проводить опыт» - Experiment, durchfiihren и сочетание «опыт по» - Experiment mit (experiences sur, essais de).

      Одновременно в хорошем словаре указываются сочетания «почтовый перевод», «денежный перевод» - нем. Post­"s anweisung, фр. mandat poste, и поскольку это сочетание нам не встретилось, то соответствующие переводы будут исключены. (№ 18)

      Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

      Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором). В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в такого рода словарях в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

      В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.

      1.3 Системы машинного перевода и их классификация.

      В 1990 году Лари Чайлдс, специалист по машинному переводу, предложил следующую классификацию систем МП по принципу независимости машины от действий человека, ставшую сейчас общепринятой:

      · FAMT (Fully – automated machine translation) – полностью автоматизированный машинный перевод;

      · HAMT (Human – assisted machine translation) – машинный перевод при участии человека;

      · MAHT (Machine – assisted human translation) – перевод, осуществляемый человеком с использованием компьютера.

      Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку даже в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов. Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова английского "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", “бидон”, “прекратить”, “перестать”,“колпак дымовой трубы”, "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

      Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Но тем не менее сегодня все «коробочные» продукты – переводчики, и онлайновые службы построены только по схеме FAMT.(№ 8,15)
      Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций. Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики. Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков.

      В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.

      К МТ-программам относятся и продукты машинного перевода фирмы ПРОМТ.

      Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Вот список наиболее известных систем ТМ: - Transit швейцарской фирмы Star, - Trados (США), - Translation Manager от IBM, - Eurolang Optimizer французской фирмы LANT, - DejaVu от ATRIL (США), - WordFisher (Венгрия). Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода. Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций: - Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода. - Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика. - Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем. - Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически. - Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения. Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна. Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

      Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation"s Workbench фирмы Trados (для краткости часто также называемый Trados).

      Есть, однако, впечатление, что ресурсы развития в этом направлении уже практически исчерпаны и без перехода к новым технологиям, радикального улучшения качества пе­ревода достигнуть не удастся. К числу таких новых: техноло­гий относится вовлечение пользователя в процесс перевода, а также:

      · автоматическое определение контекста употребления слова с тем, чтобы выбирать для перевода адекватные словарные значения;

      · использование баз знаний, в которых собрана информация о предметной области;

      · самообучение системы в ходе взаимодействия с пользователем.

      Еще недавно о подобных возможностях на персональном компьютере не могло быть и речи. Сейчас мощности и объема памяти уже вполне достаточно, нет только систем, которые обеспечивали бы хорошее качество перевода.(№ 15)

      Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:

      · "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;

      · ПРОМТ, образованная в 1991 г.;

      · "Медиа Лингва".

      Наиболее известной из числа эксплуатируемых за рубежом систем машинного перевода является система SYSTRAN, разработанная и поддерживаемая компанией SYSTRAN Software Inc. и используемая службой машинного перевода при комиссии Европейского союза. Данная служба, объем переводов в которой составляет около 2,5 млн. страниц в год, использует систему SYSTRAN для перевода с английского на немецкий, французский, испанский, греческий и итальянский языки, а также с французского на английский, испанский и итальянский. Достоинства системы:

      · получаемый текст может подвергаться редактированию легко и быстро;

      · имеется возможность переводить большой объем научно-технических материалов;

      · система «многоязычна»;

      · инженерные решения достаточно простые (стандартные ЭВМ).

      Одно из главных достоинств заключается, в том, что при МП обеспечивается соблюдение последовательной, непротиво­речивой терминологии, в то время как в человеческом переводе терминологической лексики часто возникает разнобой. Это достоинство является весьма существенным для научно-технического перевода. Скорость перевода составляет 1 млн. слов в час за время (работы центрального процессора.

      Система обеспечивает правильный перевод диаграмм, гра­фиков и прочих нетекстовых включений. В ЭВМ могут вводить­ся изменения, например, при изменениях стандарта на терми­нологию. Поправки редакторов также постепенно накаплива­ются и вводятся в словарь.

      Лингвистический анализатор СИСТРАНа состоит из следую­щих четырех основных этапов. Первый этап разрешает омографию. Второй исследует предложение справа налево, запоминая при переходе от слова к слову, какие типы синтаксических отно­шений потенциально возможны внутри каждого самостоятель­ного предложения, если учесть типы встретившихся слов. Ис­пользуя набор регистров, в которых содержатся данные о возможных типах синтаксических отношений, этот этап затем устанавливает основные структуры внутри предложения (глагол плюс объект, предлог плюс объект и т. д.). Третий этап, двига­ясь слева направо, уточняет эти отношения, опознавая типы объектов, определительные структуры и пр. Четвертый этап, используя данные, полученные в результа­те работы предшествующих этапов, включая информацию о «границах предложений, типах главных и зависимых предложений, осуществляет анализ в границах этих предложений, определяя подлежащее и сказуемое в каждом из этих предложений.

      Следует отметить, что в некоторых случаях информация мо­жет передаваться от одного предложения к другому. В памяти ЭВМ отведено специальное место для такой информации. Она особенно необходима для перевода местоимений, антецеденты которых могут находиться в другом предложении. Основные задачи, ко­торые выполняются универсальным программным обеспечением СИСТРАНа, следующие:

      · считывание текста;

      · разбивка текста на слова;

      · поиск слов в различных словарях;

      · приписывание словарных кодов словам или словосочета­ниям текста;

      · распределение памяти под анализируемые предложения;

      · контроль за выполнением программ перевода;

      · подготовка перевода к печати, выдаче на микрофиши и пр.

      Программное обеспечение системы позволяет обеспечить скорость перевода в 200 000 -300 000 слов в час. (№ 11)


      90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

      Эффективность работы современной системы МП в решающей степени зависит от ее удачной настройки на конкретный подъязык (или микроподъязык) естественного языка, на определенную лексику и ограниченный набор грамматических средств, характерных для текстов данной предметной области, а также на определенные типы документов. Учение о подъязыках с точки зрения машинного перевода было впервые сформулировано Н.Д.Андреевым (Ленинградский университет) в 1967, хотя представления о языковых регистрах, стилях, жанрах письменного текста и т.п. были хорошо известны и в традиционной лингвистике. Подъязык, с точки зрения МП, определяется в первую очередь некоторым исходным набором текстов, в рамках которого определяется входной и выходной словари, степень распространения и характер лексической неоднозначности лексем, характер и распространенность синтаксических конструкций, способы их перевода в данной языковой паре и пр. Большую роль играют параллельные тексты и словари-конкордансы, с помощью которых можно достаточно эффективно изучить и использовать в составлении алгоритмов лексическую сочетаемость и дистрибуцию (распределение) языковых элементов в речи (дискурсе, тексте). Статистические характеристики подъязыков помогают упорядочить структуру соответствующих алгоритмов анализа и синтеза. Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст. В любом из современных видов машинного перевода необходимо участие человека-редактора, удобство работы которого обеспечивается качеством и надежностью соответствующего программного обеспечения.

      Перспективы развития машинного перевода связаны с дальнейшей разработкой и углублением теории и практики перевода, как машинного, так и «человеческого». Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, теории закономерных соответствий, способов представления знаний, оптимизации и совершенствования лингвистических алгоритмов. Новые и более эффективные словари с необходимой словарной информацией, строгие теории терминологизации лексики, теория и практика работы с подъязыками помогут повысить качество перевода лексических единиц. Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать алгоритмы нахождения переводных соответствий в данной коммуникативной ситуации, которая может быть описана в рамках соответствующих прикладных теорий представления знаний. Наконец, новые возможности программирования и вычислительной техники также будут вносить свой вклад в совершенствование и дальнейшее развитие теории и практики машинного перевода «Машинный перевод все ещё далек от совершенства, но любой желающий с его помощь. Сможет по крайней мере понять основной смысл документа.» (Луи Монье, технологический директор AltaVista.)

      1.4 Качество машинного перевода

      "Теория машинного перевода дает возможность не только кри­тически пересмотреть все важнейшие традиционные понятия грамматики (слова, части речи, члены предложения и т.д.), но и приостановить научные споры, которые велись вокруг этих поня­тий. С позиции, диктуемой машинным переводом, "слово - это то, что ограничено интервалами между буквами", а "предложение - это то, что ограничено определенными знаками препинания".(№ 12)Для машинного перевода с одного языка на другой действительно необходимо теоретическое изучение чисто фор­мальной структуры языка. Машине, которая переводит с одного языка на другой, в известной мере безразлично, что означают те формальные категории, которые она транспонирует с одного языка на другой. (№ 4)

      Так, многие, например, эмоционально окрашенные слова или определенные выражения могут неодинаково восприниматься разными людьми, (не говоря уже о машине) а эти люди представляют собой разные языковые и этнические коллективы (№ 1).В настоящее время качество машинного перевода оставляет желать много лучшего, и само наличие таких систем пока правильнее воспринимать как предмет научных исследований. В большинстве случаев при работе над проектом применение систем МП не оправдано, поскольку: - Системы МП не дают приемлемого качества выходного текста. Более высокого качества можно добиться с помощью предварительной настройки системы, что совершенно неприемлемо при небольших объемах переводимого текста, и/или путем последующего редактирования, а это только замедляет работу, если переводчик использует слепой метод печати. - Системы МП не гарантируют соблюдения единства терминологии, особенно при работе коллектива переводчиков над большим проектом. Вернее, могут гарантировать при условии очень внимательного обращения с пользовательскими словарями, а на это не всегда стоит рассчитывать. Однако в некоторых случаях использование систем МП все же помогает сократить временные затраты. Это происходит, если текст достаточно объемный и содержит однообразную терминологию, что позволяет сравнительно быстро настроить под него систему МП. Тогда редактирование текста не займет слишком много времени. Однако в этом случае следует особенно внимательно отнестись к стилю текста перевода. Машинный перевод формален, поэтому высока вероятность калькирования синтаксических структур языка оригинала, которое характерно для перевода вообще, а потому вполне может быть пропущено при редактировании. Вообще говоря, системы МП вполне могут применяться там, где используется максимально стандартизованный язык с простой грамматикой и сравнительно небольшим запасом слов. Довольно успешным проектом системы МП считается немецкая программа Meteo, выполняющая перевод метеопрогнозов с французского языка на английский и обратно. Для облегчения работы переводчиков и технических писателей компанией Boeing в свое время был разработан стандарт языка для написания технической документации, который известен как Boeing English.

      С филологической точки зрения перевод есть авторская опе­рация, которую человек-переводчик производит над текстом. Осознав характер задачи, действуя с определенной мерой осве­домленности, напряжением внимания и воли переводчик дости­гает коммуникативного эффекта, предполагаемого автором ори­гинала. Переводчик формирует новый текст, который в идеале обладает всеми особенностями оригинала. Предварительное чте­ние переводчиком оригинала обеспечивает возможность прило­жения определенного «стилевого усилия», поскольку всякий раз текст, составленный человеком, содержит определенные ошиб­ки против принятого норматива. Эти ошибки могут быть следствием разнообразных причин, но главным образом они суть следствие свободы воли говорящего, которой он пользуется для достижения нового эффекта, также прилагая стилевое усилие. Из-за нарушений норматива любая формальная грамматика не будет полна и не будет давать полного покрытия текстов. Для читателя текста перевода, в такой же степени, как и для читателя текста оригинала, важно психолингвистическое осознание текста.

      Машинный перевод есть перевод без авторства переводчика. В той мере, в какой создание и последующее пополнение алгоритмов и словарей есть работа коллектива, МП есть обезличен­ный коллективный перевод. МП базируется на чисто перевод­ных, языковых соответствиях, никакого предварительного чте­ния текста система МП производить не может, поэтому МП исключает текстологический анализ. Передача смысла в МП достигается особым знаковым преобразованием, так как МП: есть определенная операция над языком при условии идентич­ности содержания знака. Он осуществляет механические сино­нимические замещения на основе регулярных межъязыковых корреспонденции соотнесения. Эти регулярные корреспонденции не извлекаются автоматически из хранилищ или устройств, по­добных словарям. Невозможно моделировать коммуникативную функцию естественного языка, если рассматривать его только как кодовую систему; переводные соответствия есть элемент ди­намики пользования языком, и удовлетворительно моделирую­щая перевод система не может не рассматривать переводные соответствия как всеобъемлющие, многоуровневые, но каждый раз новые образования. Должны быть формализованы не сами переводные соответствия как таковые, но закономерности, по которым они возникают в текстах и с помощью которых они мо­гут быть обнаружены в деталях, важных и нужных для пере­вода. Такая формализация удается с помощью моделирования действий переводчика, при котором особое внимание уделяется семантико-синтаксическому анализу в терминах, близких к тра­диционно понятным всем пользователям языком.(№ 11)

      Никаких стилевых усилий машина-переводчик не произво­дит. Задача приложения этих усилий возлагается на читателя машинного перевода или редактора. Механические операции, ко­торые производит ЭВМ над текстом, носят сложный характер: система осуществляет максимально полные рекомбинации зна­ков и комплексную переработку массовой информации в языке. Производится опознание, различение и перевод между разными категориями двух языков, разведение синонимов и омонимов, процессное развертывание членов предложения, в результате чего обеспечивается инвариантность существенных семантиче­ских признаков значения в передаче его на другой язык.

      Исходя из концепции системной организации, особое внима­ние в МП уделяется словарю. Поскольку словарь для МП есть одновременно машинный словарь, который имеет аналоги в дру­гих системах автоматической обработки информации на естест­венном языке, возникает возможность сделать обобщения и го­ворить об общих свойствах машинных словарей. Эти общие свой­ства рассматриваются в противопоставлении свойствам обычных словарей, но не в абстрактном смысле (при котором такие про­тиворечия могут стираться подобно тому, как стирается различие между человеком и мыслящей машиной), а в представлениях инженерной лингвистики - прикладной лингвистики, направленной на решение технических задач.

      Для преодоления основных трудностей проблемы машинного перевода должны быть решены задачи автоматизированного представления контекста, смыслового содержания переводимого текста, знаний о понятиях предметной области, к которой относится переводимый текст. В первых системах реализовался так называемый "прямой" подход к переводу, в рамках которого, как уже отмечалось, все осуществляемые при переводе операции трактовались как операции межъязыкового перехода - преобразования текста оригинала в текст перевода. В машинном переводе в соответственном смысле этот подход приводит к так называемым "тотальным стратегиям" (№ 10). Общей характеристикой тотальных стратегий является стремление получить полностью автоматизированный высококачественный машинный перевод максимальным использованием семантического уровня языка. Этот подход внес значительный вклад, как в теорию, так и в практику машинного перевода.
      Второй подход хронологически возник раньше первого. Этот подход заключается в представлении о промежуточном языке и близко связан с идеей переводных соответствий на чисто языковом уровне. Методическая суть данного подхода заключается: в изучении поведения языковых единиц, особенно в языковом контексте; в моделировании человеческого владения языком, особенно в процессе межъязыкового перевода; в переходе от простого к более сложному. Многие исследователи, например, такие как Марчук Ю.Н., Нелюбин Л.Л., Ревзин И.И. считают, что программное обеспечение для работы с грамматикой основывалось на имевшихся теориях структуры языка в сочетании с придуманными на скорую руку правилами.
      Разработанные программы выдавали настолько плохой перевод, что его невозможно было понять. Проблема состоит в том, что смысл текста на естественном языке зависит не только от самого предложения, но также и от контекста.
      Скорее всего, эти первые проекты действительно не дали никаких реальных результатов. Однако были выявлены многие основные проблемы перевода текстов на естественном языке: многозначность слов и синтаксических конструкций, практическая невозможность глобального описания семантической структуры мира даже в ограниченной предметной области, отсутствие эффективных формальных методов описания лингвистических закономерностей и др. (№ 8).

      Современное состояние МП характеризуется некоторым слиянием результатов двух подходов, но не механическим соединением результатов, а слиянием их на базе новых моделей, созданных при основном внимании к собственно переводческому аспекту владения естественным языком. Центром исследования в современном МП становится моделирование действий человека-переводчика, особенно в части использования им двух- и многозначных переводных соответствий при переводе с одного языка на другой. МП, возникший вне лингвистики, вошел в нее главным образом благодаря важному аспекту моделирования.Качество перевода обеспечивается технологией, многоразмерной архитектурой словарей (два уровня перевода для каждого слова: активные и пассивные), механизмом ассоциа­тивной памяти, созданием и редактированием пользовательских словарей, а также подключе­нием специализированных и общих словарей больших объемов. (№ 14)

      Медленное повышение точности машинного перевода объясняется от­части тем, что такая программа нуждается в очень большой базе данных с текстами дни сравнения похожих фраз и их осмысления (№ 19).


      Еще в 1956 г. американские психологи Миллер и Биб-Сентер предложили следующие методы оценки качества перевода:

      · проставление оценки качества перевода испытуемыми по стабильной шкале;

      · подсчет процента слов, совпадающих в неотредактированном и отредактированном переводе;

      · изучение ответов человека, читавшего только перевод, на вопросы, поставленные по тексту оригинала.

      Психолог Ш. Пфаффлин использует для оценки качества пе­ревода следующие два критерия:

      Оценка понимания перевода путем постановки вопросов по тексту;

      Оценка ясности смысла перевода по шкале «ясно», «неяс­но», «бессмысленно» Ни один из этих методов не дает четкого ответа на вопрос о том, каковы критерии качества машинного перевода и каков до­пустимый уровень качества. (№ 11)

      Глава II . Система машинного перевода PROMT

      2.1 Возможности машинного переводчика семейства PROMT.

      С начала 1990-х гг. на рынок систем ПК выходят отечественные разработчики. В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer"s Machine Translation). В 1991 г. было создано ЗАО " ", и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе). В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система МП для Windows. В 1994 г. вышла версия STYLUS 2.0 для, а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем МП.

      В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант - для поддержки нескольких языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite.

      В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet, и переводчик для корпоративных почтовых систем - PROMT Mail Translator. Для корпоративных клиентов разработаны также специальные серверные решения – корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS). В 2000 г. "ПРОМТ" обновила всю , выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000.

      В основе всех продуктов ПРОМТ лежит единое переводческое ядро – система анализа входного текста и синтез связного перевода на выходе; в них тоже реализованы общие принципы автоматизации перевода. Лингвистический редактор ПРОМТ позволяет переводить документы, проводить настройку на тематику документа и позволяет редактировать текст. Программа обеспечивает быстрый перевод, поддерживая практически все текстовые редакторы. Размер переводимого текста ограничен только ресурсами самого компьютера.

      Переводчик можно применять в двух режимах: без настроек для оперативного чернового перевода (включается только базовый словаря) и с дополнительной настройкой (подключение дополнительных тематических словарей) для обеспечения более качественного перевода. Программа включает более 100 специализированных словарей, что даёт возможность сделать перевод более точным, однако даже большое количество специализированных словарей не может заменить пользовательского словаря.

      Уникальной технологией реализованной в последних версиях компании ПРОМТ является механизм ассоциативной памяти (АП). Дело в том, что многие документы содержат часто встречающиеся одинаковые обороты и даже фрагменты текста, которые логично переводить единожды и впоследствии применять готовый перевод. В базе переводов АП сохраняются сегменты оригинального и переведенного текстов, которые используются при необходимости перевести аналогичный фрагмент текста. Это обеспечивает возможность обучения системы и сохранения результатов труда пользователя для последующего применения.

      Полезная особенность программ последнего поколения – способность исключать из процесса перевода имена собственные с возможностью их транслитерации. Еще одн способ настройки заключается в выборе лингвистических алгоритмов. Для каждого направления перевода существует свой список алгоритмов, которые может настроить пользователь. (№ 8,5)

      Система PROMT XT осуществляет перевод по следующим направлениям: англо-испанский, англо-немецкий, англо-русский, англо-французский, испанско-английский, испанско-русский, испанско-французский, итальянско-русский, немецко-английский, немецко-русский, немецко-французский, русско-английский, русско-немецкий, русско-французский, французско-английский, французско-испанский, французско-немецкий, французско-русский. Язык интерфейса системы: английский, русский, французский, немецкий.

      Системой предоставляются следующие дополнительные возможности:

      o редактирование словарных статей в пользовательских словарях (кроме некоторых специальных слов: предлогов, союзов, местоимений, некоторых омонимичных форм);

      o определение иерархии подключенных словарей (при наличии нескольких вариантов перевода система выбирает перевод из словаря, приоритет которого определен пользователем как самый высокий);

      o поиск переводов в электронных словарях (только для англо-русского и русско-английского направлений);

      o автоматическое определение тематики текста (по ключевым словам) и подключение специальных словарей;

      o установка алгоритмов перевода некоторых конструкций (например, перевод англ. you как "ты", "вы" или "Вы";

      o подключение препроцессоров (позволяющих не переводить некоторые специальные элементы, такие, как имена файлов, адреса электронной почты и веб-страниц);

      o определение зарезервированных слов (например, терминов, собственных имен), которые не будут переводиться программой

      o использование баз переводов Ассоциативной памяти (упрощенный вариант технологии Translation Memory).

      Последняя разработка компании ПРОМТ, электронный переводчик PROMT XT Office - первый продукт, реализующий новую концепцию автоматического перевода, основанную на технологии Ассоциированной Памяти. Новый уровень лингвистических алгоритмов обеспечивает улучшение качества перевода для не менее, чем 55% предложений.

      PROMT XT Office решает следующие задачи :

      · Перевод документов следующих форматов: DOC, RTF, TXT, HTML. Впервые реализована возможность перевода документов в формате Adobe Acrobat.

      · Комфортная работа с иноязычными документами в приложениях Microsoft Word, Excel, PowerPoint обеспечивается благодаря интеграции программы в приложения MS Office 2000/XP и Microsoft Office System 2003.

      · Перевод электронной почты.

      · Онлайн-перевод Web-сайтов с сохранением форматирования. (№ 9)

      Направления перевода: английский <-> русский, немецкий <-> русский, французский <-> русский, испанский <-> русский, итальянский -> русский, Гигант (англ.<->рус., нем.<->рус., фран.<->рус.)

      Основные возможности системы перевода:

      · Перевод документов основных форматов: DOC, RTF, HTML, TXT.

      · Сохранение форматирования при переводе.

      · Сохранение результата перевода в файлах формата: RTF и TXT.

      · Перевод PDF-документов непосредственно в Adobe Acrobat 4.х/5.х и Adobe Acrobat Reader 4.х/5.х.

      · Встраивание функций перевода во все основные приложения Microsoft Office 2000/XP (Word, Excel, PowerPoint, FrontPage) и Microsoft Office System 2003*.

      · Перевод электронной почты. Автоматический перевод электронной почты в Microsoft Outlook. Маршрутизация писем по папкам.

      o Все для работы в ИнтернетеОнлайн-перевод Web-сайтов с сохранением форматирования.

      o Перевод запросов для поисковых систем и отправка на указанный сервер.

      o Настройка перевода на базе технологии SmartURL - программа сама запоминает параметры перевода страниц. При повторном посещении страницы параметры перевода восстанавливаются.

      o Создание сайтов на иностранном языке во FrontPage при помощи интегрированных переводческих модулей.

      · Перевод содержимого буфера Windows Clipboard.

      · Интеллектуальные алгоритмы самообучения системы при использовании Ассоциированной Памяти. Ассоциированная Память (АП) - работает по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение или его часть) и его перевод. При подключении базы АП, система сравнивает каждое предложение с сохраненными в базе сегментами. Если сегмент идентичный исходному найден, он может быть использован для перевода.

      · Мощный лингвистический редактор PROMT, обеспечивающий возможность интерактивного управления переводом.

      o Удобные средства редактирования перевода - синхронная "прокрутка" оригинала и его перевода. Цветовая подсветка связанных фрагментов в оригинале и переводе.

      o Мгновенный перевод любого слова при подведении курсора мышки. Просмотр всех переводов и словоформ выделенного слова.

      o Интеллектуальные алгоритмы автоматического определения языка и тематики текста.

      o Сохранение параметров перевода в шаблонах тематики.

      · Повышение качества перевода за счет персональных настроек:

      o Возможность подключения специализированных словарей, выпускаемых компанией ПРОМТ для различных предметных областей;

      o Создание и пополнение собственных пользовательских словарей.

      o Создание списка зарезервированных слов. Резервирование слов с указанным форматом, например, выделенных курсивом. Резервирование выделенных фрагментов текста.

      o Задание признаков транслитерации незнакомых слов.

      o Выбор алгоритмов перевода (режимы перевода некоторых языковых конструкций, которыми невозможно управлять, модифицируя словарные данные).

      o Подключение макросов для обработки исходного текста и текста перевода.

      o Использование баз Ассоциированной Памяти (АП).

      · Эффективное средство настройки словарей - Dictionary Editor:

      o Возможность просмотра, редактирования, копирования, удаления и восстановления словарных статей из пользовательских словарей.

      o Различные режимы доступа к содержимому словарных статей - "Начинающий" и "Специалист".

      o Интеллектуальные алгоритмы пополнения словарей.

      o Одновременное пополнение связанных словарей в двух направлениях.

      o Возможность ввода в словарь из текстового файла и экспорта словарных статей в текстовый файл или документ RTF.

      · Большой электронный словарь для перевода отдельных слов (реализован для англо-русского, русско-английского, французско-русского, русско-французского, немецко-русского и русско-немецкого направлений перевода).

      · Поддержка внешних программ сканирования, проверки орфографии и электронных словарей.

      · Озвучивание текста при наличии установленных на компьютере средств синтеза речи, совместимых со стандартом Text-To-Speech (TTS). (№ 22,23)

      Программные продукты компании "ПРОМТ" удостоены целого ряда отечественных и зарубежных наград, объективно являются лучшими программами осуществляющими машинный перевод в нашей стране.

      2.2 Сравнительный анализ переводов художественно и политического текста сделанный системой машинного перевода и человеком.

      Чтобы лучше понять принципы действия систем МП, методы использования словарей, анализа грамматики и синтеза структур на выходном языке, необходимо на практике провести несколько опытов и перевести тексты (желательно разные по стилям и тематике), используя одну из систем машинного перевода.

      Для сравнения перевода художественного текста будет использована система машинного перевода PROMT XT. Также будет выполнен перевод этого текста, и произведен сравнительный анализ результатов.

      Возьмём для начала отрывок из сказки «Маленький Принц» на английском языке:

      «The little prince went away, to look again at the roses.

      "You are not at all like my rose," he said. "As yet you are nothing. No one has tamed you, and you have tamed no one. And the roses were very much embarrassed.

      "You are beautiful, but you are empty," he went on. "One could not die for you. To be sure, an ordinary passerby would think that my rose looked just like you - the rose that belongs to me. But in herself alone she is more important than all the hundreds of you other roses. And he went back to meet the fox. "Goodbye," said the fox. "And now here is my secret, a very simple secret: It is only with the heart that one can see rightly; what is essential is invisible to the eye."

      "What is essential is invisible to the eye," the little prince repeated, so that he would be sure to remember.

      "It is the time you have wasted for your rose that makes your rose so important."

      "It is the time I have wasted for my rose..." said the little prince, so that he would be sure to remember.

      "Men have forgotten this truth," said the fox. "But you must not forget it. You become responsible, forever, for what you have tamed. You are responsible for your rose..."

      "I am responsible for my rose," the little prince repeated, so that he would be sure to remember.» (№ 16)


      Вот перевод этого отрывка сделанный переводчиком:

      Маленький принц пошел взглянуть на розы.

      Вы совсем не похожи на мою розу, - сказал он им. - Вы еще ничто. Никто вас не при­ручил, и вы никого не приручили. И розы очень смутились.

      Вы красивые, но пустые, - продолжал Маленький принц. - Никто не захочетумереть ради вас. Конечно, случайный прохожий, поглядев на мою розу, скажет, что онаточно такая же, как вы. Но мне она одна дороже всех вас

      И Маленький принц возвратился к Лису.

      Прощай... - сказал он.

      Прощай, - сказал Лис. - Вот мой секрет, он очень прост: зорко одно лишь сердце. Самого главного глазами не увидишь.

      - Самого главного глазами не увидишь, - повторил Маленький принц, чтобы лучше запомнить.

      Твоя роза так дорога тебе потому, что ты отдавал ей все свои дни.

      Потому что я отдавал ей все свои дни... - повторил Маленький принц, чтобы лучшезапомнить.

      Люди забыли эту истину, - сказал Лис, - но ты не забывай: ты навсегда в ответе за всех, кого приручил. Ты в ответе за твою розу.

      Я в ответе за мою розу... - повторил Маленький принц, чтобы лучше запомнить.

      В некоторых предложениях нам пришлось поменять порядок слов. Несколько слов были «выброшены» из перевода так как их отсутствие или присутствие не влияет на смысл и стилистику перевода. Но в то же время может «резать слух» потому что «по русски» так не говорят. А вот как сделан перевод того же отрывка системой PROMT XT.


      «Маленький принц ушел, снова смотреть на розы.

      "Вы нисколько не походите, мой повысился," он сказал. "Пока еще Вы не ничто. Никто не приручил Вас, и Вы не приручили никого..."

      И розы были очень обеспокоены. "Вы красивы, но Вы пусты," он продолжал. "Нельзя было умереть для Вас. Безусловно, обычный прохожий думал бы, что мой повысился, смотрел точно так же как Вы, повысился, который принадлежит мне. Но в себе один она более важна чем все сотни из Вас другие розы....

      "И он возвратился, чтобы встретить{выполнить} лису.

      "До свидания, " сказал лиса. "И теперь вот - моя тайна, очень простая тайна: только с сердцем можно видеть справедливо; что является существенным, невидим для глаза."

      "Что является существенным, невидим для глаза, " маленький принц повторился, так, чтобы он убедился, что помнил

      "Это - время, которое Вы потратили впустую для вашего, повысился, который делает ваш, повысился настолько важным."

      "Это - время, которое я потратил впустую для моего, повысился... "сказал маленький принц, так, чтобы он убедился, что помнил.

      "Мужчины забыли эту правду, "сказала лиса. "Но Вы не должны забыть это. Вы становитесь ответственными, навсегда, для того, что Вы приручили.

      Вы ответственны за ваш, повысился..."

      "Я ответственен за мой, повысился, " маленький принц повторился, так, чтобы он убедился, что помнил.

      Как мы видим, перевод текста сделан пословно. Программа не может менять местами слова в предложениях то есть в выходном языке порядок слов почти всегда такой же как, как и во входном. Также очень бросается в глаза перевод слова «rose» - «повысился», я согласна, слово «rose» очень многозначно. Но даже словарь выдает первым значение при переводе именно слово «роза», система же, даже не предлагает его в качестве варианта. Но в тоже время слово «роза», во множественном числе «roses», система переводит правильно (не учитывая при этом что «roses» - n, pl, AmE, sl «He uses roses - Он ударяет по аптеке»). Очевидно что в данном контексте слово должно переводиться как «роза», однако система не может проанализировать контекст и следовательно не может правильно выбрать эквивалент. Смущает слова «Вас» написанное с большой буквы, очевидно в настройках для этого пользователя слово «you» должно переводиться как «Вы» именно с большой буквы. А не как «ты» или «вы». Но в этой версии программы это легко поправимо, достаточно изменить настройки для текущего пользователя. Слово «look» переведено как «смотреть», не учитывая то, что можно также перевести как «выглядеть», что предпочтительно в данном случае. Выражение «in herself alone» переведенное как «в себе один». Естественно всем известно, что английские существительные утратили грамматическую категорию рода. Следовательно все они согласуются с местоимением 3 лице ед.числа «it» - среднего рода. В русском же языке категория рода у существительных присутствует. Упущением системы является невозможность согласования в роде на выходном языке. Слова «роза» в русском языке женского рода. Слова данные в скобках это варианты перевода слов (вторые значения), которые система оставляет на выбор редактора переводчика. Слово «rightly» переведено в первом значении, без дополнительных вариантов. Так же и со словом «essential». Слово «wasted» заданное не в начальной форме переведено электронным словарем ABBY Lingvo как: «wasted» прил.- истощенный; исхудавший, худой; чахлый; бледный; в данном же тексте его следует перевести как «провел», «отдавал».

      На данном этапе работы, целесообразно сравнить сделанные переводы с английского с переводами с французского (язык оригинала), для того чтобы наглядно выявить существуют ли те же проблемы в грамматике и словаре при переводе с французского.

      Le petit prince s"en fut revoir les roses:

      «Vous n"êtes pas du tout semblables à ma rose, vous n"êtes rien encore, leur dit-il. Personne ne vous a apprivoisées et vous n"avez apprivoisé personne.»

      Et les roses étaient bien gênées.

      «Vous êtes belles, mais vous êtes vides, leur dit-il encore. On ne peut pas mourir pour vous. Bien sûr, ma rose à moi, un passant ordinaire croirait qu"elle vous ressemble. Mais à elle seule elle est plus impor­tante que vous toutes

      Et il revint vers le renard:

      «Adieu, dit-il...

      Adieu, dit le renard. Voici mon secret. Il est très simple: on ne voit bien qu"avec le cœur. L"es­sentiel est invisible pour les yeux.

      L"essentiel est invisible pour les yeux, répéta le petit prince, afin de se souvenir.

      C"est le temps que tu as perdu pour ta rose qui fait ta rosé si importante.

      C"est le temps que j"ai perdu pour ma rose..., fit le petit prince, afin de se souvenir.

      Les hommes ont oublié cette vérité, dit le renard. Mais tu ne dois pas l"oublier. Tu deviens responsable pour toujours de ce que tu as apprivoisé. Tu es responsable de ta rose...

      Je suis responsable de ma rose...», répéta le petit prince, afin de se souvenir. (№ 5)


      Перевод сделанный переводчиком:

      «Маленький принц пошел взглянуть на розы.

      Вы совсем не похожи на мою розу, - ска­зал он им. - Вы еще ничто. Никто вас не при­ручил, и вы никого не приручили.

      И розы очень смутились.

      Вы красивые, но пустые, - сказал он наконец. - Никто не захочет умереть ради вас. Конечно, случайный прохожий, по­глядев на мою розу, скажет, что она точно та­кая же, как вы. Но мне она одна дороже и важнее всех вас

      И Маленький принц возвратился к Лису.

      Прощай... - сказал он.

      Прощай, - сказал Лис. - Вот мой сек­рет, он очень прост: видеть можно только сердцем. Самое главное невидимо для глаз.

      Самое главное невидимо для глаз, - повторил Маленький принц, чтобы лучше за­помнить.

      То что ты отдавал своей розе так много времени, делает её особенной.

      Потому что я отдавал ей так много времени... - повторил Маленький принц, чтобы лучше за­помнить.

      Люди забыли эту истину, - сказал Лис, - но ты не забывай: ты навсегда ответственен за всех, кого приручил. Ты в ответе за твою розу.

      Я в ответе за мою розу... - повторил Ма­ленький принц, чтобы лучше запомнить.»


      Перевод сделанный системой PROMT с французского на русский:


      Маленький принц был снова увидеть розы:

      " Вы не подобны моей розе, вы не являетесь ничем еще, он им говорит. Никто вас не приручил и вы не приручили никого.

      " И розы были очень стеснительны.

      " Вы красивы, но вы пустые, он им говорит еще. Не можем умереть для вас. Конечно, моя роза, обычный прохожий полагала бы, что она на вас будет походить. Но ей только она больше imporкtante, что Вы все

      И он возвратился к лисе:

      " До свидания, он говорит

      До свидания, говорит лиса. Вот моя тайна. Он очень прост: видим хорошо только с c и * 339; ur. Существенная часть невидим для глаз.

      Существенная часть невидима для глаз, повторил маленький принц, для того, чтобы вспоминать.

      Именно время ты потерял для твоей розы, которая делает твоя роза столь важная.

      Именно время я потерял для моей розы, сделал маленького принца, для того, чтобы вспоминать.

      Люди забыли эту правду, говорит лиса. Но ты не должен его забывать. Ты становишься ответственным навсегда того, что ты приручил.

      Ты - ответственный за твою розу - Я - ответственный за мою розу ", повторил маленький принц, для того, чтобы вспоминать.


      В целом, перевод вполне корректен, ясен общий смысл отрывка. Перевод так же сделан пословно, что подтверждает нам, что система не может менять порядок слов в выходном языке. Система оказалась не в состоянии перевести 2 слова, одно из них она транслитирировала, а одно заменила цифровым кодом из за того что выражение «que avec le сoeur» написано как «qu`avec le сoeur». Гласная «е» всегда выпадает в таких случаях, а на письме усекается. Так же как и при переводе с английского обнаруживаются несоответствия рода на выходном (русском) языке. Хотя система писалась русскоязычными специалистами. Перевод некоторых предложений заставляет думать, что это переводил человек слабо говорящий по-русски. Проблема заключается не в синтезе грамматической структуры выходного языка, а в непонимании структуры входного языка, то есть, по сути дела в грамматическом анализе. В принципе простые предложения система переводит относительно правильно, сложные, сложно - сочинённые или сложно -подчиненные предложения тоже переводятся относительно легко. Но если встречаются вводные или пояснительная конструкция и разрывается основное предложение, то программа начинает пословный перевод, без учета синтаксиса, пытаясь просто связать слова. Таки образом вариант на выходе получается очень сложным и запутанным. Но даже если прописать алгоритмы для всех этих правил, без понимания входного текста перевод так и будет оставаться иногда полностью бессвязным.

      Заключение.

      Можно сделать вывод, что полностью автоматический машинный перевод, это очень сложная задача, которую предстоит решить не только лингвистам, но и программистам, специалистам по кибернетике и многим другим представителям наук которые затрагивает эта проблема. Очень сложно смоделировать сам процесс перевода с помощью компьютерной программы. Если человек осуществляя перевод мыслит образами и исходит из того какую мысль к конечном итоге надо донести до слушателя, то научить этому программу невозможно (на данном этапе развития компьютерных технологий.

      Современные программы машинного перевода очень далеки от того идеала к которому стремятся их разработки. Но они уже без сомнений могут служить хорошим подспорьем переводчику в его рутинной работе. Хотя бы тем, что без проблем могут за несколько секунд сделать подстрочный перевод любого по сложности и объёму текста. Если при этом верно настроено распределение приоритетных словарей для данной тематики и направления перевода, то на выходе редакторская правка требуется минимальная (в сравнении с переводом при подключённом словаре общей лексики). Естественно полностью отдать текст в руки машины нельзя. Системы нового поколения могут «запоминать» уже переведенные однажды конструкции и впоследствии уже не требовать повторного их перевода. Системы эффективны в помощи пользователям еще и потому что есть возможность создавать «пользовательский» словарь, что существенно облегчает перевод по определенной тематике.

      Но все же недостатков у систем машинного перевода, по моему мнению, больше чем достоинств. Главный недостаток это конечно же словарь. Программа не учитывает элементарных значений слов и не предлагает их в качестве варианта при переводе. Тем самым это заставляет пользователя искать эти словоформы в словаре, что бьет по одному из основных достоинств системы, по мнению производителей, - скорости. Недостатки на уровне грамматики. Эти недостатки прослеживаются как при анализе не входном языке, так и при синтезе на выходном. Не учтены грамматические особенности входных и выходных языков, такие как например, род существительных в русском языке и его отсутствие в английском. Система как правило проводит еще и синтаксический анализ на входе, но если предложение не вписывается в алгоритм заданный программой, система начинает пословный перевод не обращая внимание на синтаксические связи.

      Рассмотрев данную проблему, я пришла к выводу, что машинный перевод в принципе возможен, но его стоит рассматривать только как «черновой» вариант перевода, который подлежит обязательному редактированию.

      Библиография

      Источники литературы на русском языке


      1. Арапов М.В. Шрейдер Ю.А. Семантика и машинный перевод.М., 1965.№ 1

      2. Бархударов Л.С. Язык и перевод. - М.: Межд. отношения, 1975.

      3. Белоногов Г.Г. Зеленков Ю.Г. Интерактивная система русско-английского и англо-русского машинного перевода, ВИНИТИ, 1993

      4. Вестник Московского Университета. Сер.19 Лингвистика и межкультурная коммуникация. 2004. № 4, с.51.

      5. Домашний компьютер – 2004., № 12

      6. Каничев М. Статья. // Мир ПК. - 1998, № 8.

      7. Комиссаров В.Н. «Современное переводоведение», ЭТС,М. 2004.с.411.

      8. Компьютер Пресс. – 2004. № 7

      9. Компьютер Пресс. – 2004. -№11

      10. Людсканов А. Селективная стратегия при машинном переводе. - В кн.: Международный семинар по машинному переводу. М., ВЦП, 1975

      11. Марчук Ю. Н. Проблемы машинного перевода. М.: Наука, 1983

      12. Материалы по машинному переводу. Вып. 1. Л.,1958. с.5.

      13. Машинный перевод. Сборник статей, перевод с английского, М., 1957

      14. Мир ПК. – 2004. - № 9

      15. Мир Internet. – 2001. № 2, с. 16-26.

      16. Миньяр – Белоручев А.П., Английский язык. Учебник устного перевода. М., «Экзамен» , 2004г.

      17. Панов Д.Ю., Автоматический перевод, М., 1958

      18. Ревзин. И., В.Ю. Розенцвейг. Основы общего и машинного перевода., 1964.

      19. Техника – молодежи. – 2005. № 2.

      20. Шаляпина З.М. «Автоматический перевод: эволюция и современные тенденции» вопросы языкознания, 1996, № 2


      Источники литературы на иностранных языках


      2. Dezso L., Papp F. Механизация лексикографических работ и обратные словари. – In: «Сomputational linguistics, III», р.212 - 215

      3. Antoine de Saint – Exupery. Le petit prince.,M.,Jupiter-inter, 2003

      4. Visson L., From Russian into English, Ardis, 1991


      Электронные источники


      5. Электронный словарь ABBY LINGVO 9.0


    Если Вас интересует помощь в НАПИСАНИИ ИМЕННО ВАШЕЙ РАБОТЫ , по индивидуальным требованиям - возможно заказать помощь в разработке по представленной теме - Машинный перевод.Система машинного перевода PROMT ... либо схожей. На наши услуги уже будут распространяться бесплатные доработки и сопровождение до защиты в ВУЗе. И само собой разумеется, ваша работа в обязательном порядке будет проверятся на плагиат и гарантированно раннее не публиковаться. Для заказа или оценки стоимости индивидуальной работы пройдите по