Впервые опубликовано на сайте MEMBRANA 

 
Летом 1999 года на стене одной лаборатории в одном американском университете висело изображение старинного пергамента с японскими иероглифами. Под японской надписью значилась интригующая фраза на менее экзотичном английском языке… 
 
Фраза эта гласила: «Для большинства людей это выглядит как секретный код. Секретные коды обычно взламывают». Сей рекламный плакат, висевший на стене в лаборатории статистического машинного перевода в Университете Джона Хопкинса ( Johns Hopkins University ), предвещал скорое появления новой системы по «кличке» Decoder . 
 
Тогда, в 1999 году, этим не занимался практически никто. Сейчас профессор Кевин Найт ( Kevin Knight ), тогда возглавлявший исследования в Университете Джона Хопкинса, говорит, что надпись под пергаментом оказалась пророческой. 
 
Статистический метод автоматизированного перевода обогнал некогда превалировавшую, традиционную технологию, которая лишь отчасти можно назвать автоматической. В основе её лежат многоязычные словари, которые программисты и переводчики собирают вручную, и на основе которых впоследствии «учат» программу, какое слово что означает — с учётом синтаксиса. 
 
Подобные «словарные» технологии используются в системах вроде BabelFish и Translate.ru . 
 
Поскольку их банки данных — собственно, словари, — были и являются поныне очень массивными, раньше они были более эффективными, нежели «статистические» переводчики. 
 
А новая технология статистического машинного перевода позволяет создавать системы, которые будут «щёлкать» тексты на самых разных языках. 
 
Главное — это наличие «параллельных данных». 
 
Основа для этой технологии была заложена ещё в конце 1980-х начале 1990-х годов — сотрудниками корпорации IBM . Именно тогда в умные головы специалистов корпорации пришла очень простая мысль: если компьютеру «скормить» текст на английском языке, и его выполненный вручную перевод на другой язык, то машина, используя статистический метод, «выучит» второй язык. 
 
New York Times приводит следующий пример. Сравниваются две простые фразы на арабском (написано латиницей) — « rajl kabir » и « rajl tawil ». Если машина «знает», что первая фраза означает «крупный человек», а вторая — «высокий человек», то банальная статистика позволит машине понять, что « rajl » означает «человек». 
 
Подобные простые фразы носят название «N-граммы», и они считаются базовыми элементами систем машинного перевода. 
 
Хотя принцип кажется простым до примитивизма, у него есть ряд своих «но». Во-первых, для полноценного «знания» второго языка требуется огромный массив данных — одним текстом не обойдёшься. 
 
Во-вторых, для эффективной работы таких систем требовались компьютерные мощности, в начале 1990-х ещё недоступные. То же касается и программного обеспечения. 
 
А сейчас различные группы исследователей занимаются усовершенствованиями здания, возведённого на фундаменте методики IBM . 
 
Например, во всё том же Джоне Хопкинсе доктор Дэвид Яровски ( David Yarowski ) и его команда занимаются разработкой системы, которая управлялась бы с текстами на таких языках, как узбекский , бенгальский , непальский и даже клингоский — язык, на котором говорит раса клингонов, существ из сериала Star Trek . 
 
Для «разработки» этого языка даже создан целый институт , умудрившийся перевести на этот язык Библию и «Гамлета» . 
 
Технология всё та же: если автоматическому переводчику предоставить «на съедение» тексты на двух языках, дальше он уже сможет переводить тексты самостоятельно в обе стороны. 
 
Доктор Яровкски полагает, что в итоге ему и его коллегам удастся создать систему, которая будет управляться сразу с сотней языков. И хотя грамматические структуры китайского и арабского, например, языков с трудом поддаются статистическому анализу, по мнению Яровски, проблема эта решаема, нужно лишь время. 
 
Аналогичным образом работает технология, разработанная сотрудниками Южно-калифорнийского университета ( University of Southern California ), в частности, Францем Йозефом Охом ( Franz Josef Och ). 
 
Перефразируя Архимеда , Ох говорит: «Дайте мне достаточное количество параллельных данных, и через несколько часов у вас будет двусторонняя система перевода». 
 
Система Оха полностью игнорирует грамматические правила, и словари ей тоже не нужны — а нужно, как уже сказано, большое количество данных, к которым прилагаются статистические модели. 
 
Надо сказать, что в своё время таким образом была расшифрована надпись на Розеттском камне — базальтовой плите, найденной французской армией в Египте в 1799 году. На этой плите содержалась запись на трёх языках, одним из которых был греческий. Благодаря тому, что в греческой надписи упоминались имена «Птолемей» и «Клеопатра», удалось расшифровать иероглифическую египетскую надпись, и в итоге — практически весь язык. 
 
Дело Франсуа Шампольона ( François Champollion ), которому и принадлежит пальма первенства в расшифровке надписи Розеттского камня, живёт, процветает и автоматизируется. 
 
Впервые опубликовано на сайте MEMBRANA
 

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *