Гибридный машинный перевод
» » Гибридный машинный перевод

Гибридный машинный перевод

16.12.2020


Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:

  • Rule-based machine translation (RBMT) — Машинный перевод на основе правил.
  • Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов.
    • Example-based machine translation (EBMT) Машинный перевод на примерах.
    • Statistical machine translation (SMT) — Статистический машинный перевод.

Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов. Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).

Разработчики software Hybrid MT

  • AppTek HMT «TranSphere®» — полная интеграция SMT и RBMT методологий.
  • Asia Online «SAIC’s OmnifluentTM Human Language Technology».
  • LinguaSys «Carabao Machine Translation engine».
  • Systran «SYSTRAN’s hybrid engine»
  • Polytechnic University of Valencia
  • PROMT «PROMT DeepHybrid»

Гибридная технология «SMT и RBMT»

Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.

Hybrid (SMT + RBMT) System различаются: (п.2.4.3)

  • Rule-based MT с пост-обработкой статистического подхода.
  • Statistical MT с предварительной обработкой по Rule-based подходу.
  • Полная интеграция RBMT и SMT.

Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы. Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько[сколько?] улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.

Объединение RBMT и статистического машинного перевода:

  • Лингвистический анализ входного предложения;
  • Порождение вариантов перевода;
  • Использование статистических технологий;
  • Оценка и выбор лучшего варианта перевода с использованием Языковой модели.

Этапы Гибридной технологии SMT и RBMT:

  • Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
  • Эксплуатация на основе натренированной системы.

Архитектура Гибридной технологии «SMT и RBMT»

В гибридном машинном переводе RBMT-система дополнена двумя компонентами: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.

Типичная архитектура HMT:

  • Параллельный корпус;
  • Обучение;
  • Языковая модель;
  • Данные для постредактирования;
  • Правила синтеза;
  • Словарь терминологии.
  • Эксплуатация:
    • — Гибридный перевод.

Принцип работы HMT

Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода. Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.

Алгоритм работы типичной HMT:

  • Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
  • Порождение всех возможных вариантов перевода на основе:
    • — лексических вариантов;
    • — вариантов синтеза разных конструкций;
    • — применения постредактирования.
  • Выбор лучшего варианта, через реализованную Языковую модель.

Преимущества и недостатки

Что даёт гибридная технология перевода?

  • Быструю автоматическую настройку на основе Translation Memories заказчика;
  • Терминологическую точность перевода, а также единство стиля;
  • Получение дополнительных полезных данных — двуязычного терминологического словаря.

Преимущества и недостатки Машинного перевода на основе правил

Преимущества RBMT:

Сохраняются:

  • — синтаксическая и морфологическая точность;
  • — стабильность и предсказуемость результата;
  • — возможность настройки на предметную область.

Недостатки RBMT:

  • — трудоемкость и длительность разработки;
  • — необходимость поддерживать и актуализировать лингвистические БД;
  • — «машинный акцент» при переводе.

Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.

  • — автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
  • — исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).

Преимущества и недостатки Статистических систем перевода

Преимущества SMT:

  • — быстрая настройка;
  • — легко добавлять новые направления перевода;
  • — гладкость перевода.

Недостатки SMT:

  • — «Дефицит» параллельных корпусов;
  • — многочисленные грамматические ошибки;
  • — нестабильность перевода.