В ноябре 1966 года Консультативный комитет по автоматической обработке языков (ALPAC) при правительстве США выпустил отчет, в котором сообщалось об экономической нецелесообразности исследований в области машинного перевода. Этот документ мог бы завершить еще даже не начавшуюся на тот момент эру искусственного интеллекта, если бы не энтузиазм отдельных ученых, работавших в отрасли и в итоге заложивших фундамент для RBMT, а впоследствии и NLP. О том, как это было, читайте в отрывке из вышедшей в издательстве «Альпина нон-фикшн» книги Яны Хлюстовой «Поймать вавилонскую рыбку. Человеческий мозг, нейронные сети и изучение иностранных языков».
Отчет комитета ALPAC стал точкой, которая обозначила максимальный спад финансирования и интереса к сфере машинного перевода с момента начала активных исследований полутора десятилетиями ранее. Затронул этот пессимизм в основном США, хотя, как мы уже отметили в предыдущей главе, ряд проектов продолжался и там. В Канаде, Франции, Германии и других странах исследования также не прекращались. Тем не менее основные успехи 1960–1970-х годов связаны все-таки с Соединенными Штатами, а именно с проектами SYSTRAN и Logos. Они ознаменовали качественный скачок в машинном переводе: создатели новых систем разработали подход к нему на основе правил. Давайте разберемся, что это такое.
SYSTRAN: перевод для мира
Компания SYSTRAN (ее название — акроним словосочетания System Translation, «системный перевод») была основана в 1968 году лингвистом и полиглотом Питером Томой. Корни этой компании уходят намного глубже, как в хронологическом, так и в идейном смысле. Наверное, никто не расскажет о создании SYSTRAN лучше, чем сам Питер Тома. В 1986 году он писал:
«Сегодня, в ядерную эпоху, мы все чаще слышим о том, как важен мир, о том, что человечество нуждается в спасении. Без сомнения, взаимопонимание способствует миру, а преодоление языковых барьеров помогает достичь этого взаимопонимания. Во время Второй мировой войны я был свидетелем того, как языковые барьеры мешали достижению мира. В конце войны было очевидным, что мы вступили в эру обладания изощренным оружием массового разрушения, и я отчетливее, чем когда-либо, почувствовал, что должен направить все свои силы на устранение вызывающих конфликты факторов».
Тома, который на тот момент владел английским, немецким и венгерским языками, предполагал, что в будущем из-за нарастания напряженности между Востоком и Западом роль русского языка возрастет, и считал важным выучить еще и его. И такой случай представился.
«В Мюнхене я встретил беженца из России, профессора Вильперта (его предки приехали в Россию во время правления Екатерины Великой), — вспоминает Тома. — У него был проигрыватель и пластинки с записями на русском языке. Я брал у него проигрыватель в течение многих недель по выходным, шел с ним в горы и учил русский целыми днями по субботам и воскресеньям. <...> Я слушал эти пластинки так часто, что они пришли в негодность, и профессор Вильперт больше не мог использовать их для своих уроков русского языка. Наша дружба из-за этого треснула, и мы больше не контактировали вплоть до 1956 года — тогда я случайно встретил профессора Вильперта на улице в Лос-Анджелесе. Потом, в 1961–1963 годах, он работал на меня, когда я запускал системы [машинного перевода] Autotran и Technotran — предшественников Systran».
После 1945 года Питер Тома изучал международные отношения и социальные науки и в конце концов заинтересовался экономикой — настолько, что даже начал работать по этой специальности. Через несколько лет он понял, что это не приближает его к глобальной цели — предотвращению конфликтов и войн, и устроился на работу в Калифорнийский технологический институт. Примерно тогда же здесь появился первый компьютер — Datatron 205.
«После знакомства с логическими операциями, которые могла делать эта машина, я был очарован очевидными возможностями их применения для автоматического перевода. У меня была обычная дневная работа, при этом я понимал, что для подготовки и тестирования алгоритмов мне потребуется много времени на работу с компьютером», — рассказывает Питер Тома.
Ему помог неожиданный фактор: устройство памяти Datatron 205, как и других ранних компьютеров, представляло собой магнитный барабан. Это большой быстро вращающийся металлический цилиндр, наружная поверхность которого покрыта тонким ферромагнитным слоем. Барабан был весьма деликатным устройством: его требовалось выключать вечером и включать утром, кроме того, у операторов регулярно возникали проблемы с его запуском. Питер Тома предложил руководству такую схему: он будет следить за барабаном всю ночь и устранять неполадки, если что-то пойдет не так. Взамен ему разрешат использовать компьютер по ночам для тестирования и отладки его переводческих программ. Руководство согласилось, и в 1956 году был заложен фундамент компании SYSTRAN.
Компьютер Datatron 205. Данные: Wikimedia.
«Конечно, такие договоренности потребовали от меня нестандартных рабочих часов, — вспоминает Тома. — Типичный день выглядел так: я делал свою основную работу с 8 часов утра до 16:30 с коротким перерывом на обед. В 17:00 ужинал, потом спал между 18 и 22:30 часами. С 23 часов до 7 утра работал с компьютером, завтракал, принимал душ и возвращался на свою работу к 8 часам. Так продолжалось многие месяцы. <...> Многие алгоритмы, которые я создавал и тестировал теми долгими ночами, работают в SYSTRAN и сегодня, хотя перед тем, как я занялся исключительно этой системой, я создал еще несколько работающих систем машинного перевода: Serna в Джорджтауне, затем Autotran и Technotran. SYSTRAN же фактически родилась на компьютере IBM 360 в 1963–1964 годах. Моя цель при ее проектировании, разработке и внедрении заключалась в том, чтобы получить систему, которая в полной мере использовала бы новейшее аппаратное обеспечение для масштабного преодоления языковых барьеров. Мое идеалистическое желание, чтобы эта система служила человечеству, всегда перевешивало денежные соображения».
Питер Тома полагал, что время выступления комитета ALPAC выбрали не случайно: «Даты были тщательно выбраны, и слушание назначено на дни, когда я был в Европе. Отчет ALPAC стал опустошающим ударом по машинному переводу, особенно в Соединенных Штатах».
Но, так или иначе, разработки Томы успели привлечь внимание специалистов. Еще в 1965 году Немецкое научно-исследовательское общество пригласило ученого на встречу с ведущими лингвистами Германии. Эксперты согласились, что при разработке SYSTRAN был использован правильный подход, отличавшийся от предыдущих попыток делать подстрочный перевод текстов. Результатом стал контракт на дальнейшее развитие системы.
https://forklog.com/cryptorium/ai/chto-takoe-obrabotka-estestvennogo-yazyka
Создавая SYSTRAN, Питер Тома руководствовался принципами, которые сегодня лежат в основе машинного перевода на основе правил. Такой подход называют классическим. При его реализации системы извлекают лингвистическую информацию об исходных и целевых языках из разнообразных словарей и грамматик; они охватывают семантические, морфологические и синтаксические закономерности каждого языка.
Первым этапом перевода текста в SYSTRAN был морфологический анализ слов и их поиск в словарях разных типов. Вторая стадия — анализ предложений: синтаксиса, лексики, семантики. И лишь на третьем этапе делался собственно перевод: система осуществляла синтез полученной ранее информации и конструировала предложение с учетом грамматики целевого языка.
В 1968 году Тома основал одноименную компанию, и в 1969 году SYSTRAN приняла участие в конкурсе Военно-воздушных сил США, которые объявили тендер — им нужна была система для автоматического перевода текстов с русского языка. Кроме SYSTRAN заявки представили IBM и Bunker Ramo Corporation, производитель военной электроники. Молодая компания Питера Томы победила и заключила свой первый контракт.
После этого SYSTRAN развивалась стремительными темпами. В 1974 году систему использовало NASA в программе «Союз» — «Аполлон» для перевода технической документации с английского языка на русский. В 1975 году был подписан контракт с Европейской комиссией для работы с несколькими парами европейских языков (кстати, Еврокомиссия использует SYSTRAN и сегодня). Позже систему взяли на вооружение компании XEROX и Seiko. В 1995 году вышла версия программного обеспечения для машинного перевода, которую предприятия могли использовать самостоятельно на операционной системе Windows. В 1997 году SYSTRAN совместно с компанией Digital Equipment Corporation запустила первый в мире сервис для онлайн-перевода веб-страниц под названием BabelFish («Вавилонская рыбка» — в честь существа из романа Дугласа Адамса «Автостопом по галактике». Рыбку можно было вставить в ухо, и она транслировала перевод с любого языка прямо в мозг своему хозяину).
Публикуется по изданию: Яна Хлюстова. Поймать вавилонскую рыбку: Человеческий мозг, нейронные сети и изучение иностранных языков. Москва: Альпина нон-фикшн, 2024.