Компания Meta разработала систему искусственного интеллекта для перевода бесписьменного хоккиенского языка на английский.
Хоккиен распространен в странах Юго-Восточной Азии и насчитывает около 49 млн носителей. Его особенность — отсутствие единой системы письма. Всего таких языков в мире насчитывается около 3500.
Чтобы обучить искусственный интеллект понимать человеческую речь, исследователи обычно передают компьютеру большой набор письменных расшифровок. Однако для хоккиена собрать датасет проблематично.
Исследователи Meta сосредоточились на разработке системы speech-to-speech. По словам представителей компании, они преобразовали образцы речи в последовательность акустических звуков, которые использовались для создания волновых форм языка.
Затем эти сигналы объединили с мандаринским китайским для создания псевдометок. Его в Meta назвали «родственным языком» для хоккиена.
«Мы сначала переводили английскую (или хоккиенскую) речь в мандаринский текст, а затем переводили на хоккиенский (или английский) и добавляли его к обучающим данным», — рассказал гендиректор Meta Марк Цукерберг.
Система все еще находится в разработке, поскольку ИИ может переводить лишь одно предложение за раз. Однако Цукерберг уверен, что технология применима и к другим подобным языкам.
Компания опубликовала исходный код проекта, чтобы другие исследователи могли его использовать в своих работах.
Также Meta выпустила речевую матрицу, которая представляет собой «большую коллекцию преобразований речи в речь, разработанных с помощью инновационного набора инструментов для обработки естественного языка».
Напомним, в июле компания представила модель искусственного интеллекта NLLB-200 для онлайн-переводов. Алгоритм поддерживает 200 языков, включая малораспространенные.
В сентябре Meta разработала «мозговой ИИ-декодер» для преобразования мысли в речь. Точность его работы достигла 73% при использовании набора из 793 слов.
Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!