Компания OpenAI выпустила чат-бота ChatGPT, который умеет отвечать на вопросы, признавать ошибки, спорить и отклонять неуместные запросы.
Try talking with ChatGPT, our new AI system which is optimized for dialogue. Your feedback will help us improve it. https://t.co/sHDm57g3Kr— OpenAI (@OpenAI) November 30, 2022
Разработчики создали модель с помощью обучения с подкреплением на основе обратной связи с человеком (RLHF). Они использовали те же методы, что и InstructGPT, но с дополнительными данными диалогов от людей.
Для сбора датасета бесед разработчики привлекли так называемых тренеров. Они проводили разговоры от имени человека и ИИ-помощника. Также инструкторы имели доступ к смоделированным предложениям, которые помогали им писать ответы.
Для модели вознаграждения за обучение с подкреплением команда записала разговоры между тренером и чат-ботом. Затем она случайным образом выбрала ответы, сгенерированные ИИ, и попросила инструкторов ранжировать их.
Чтобы улучшить точность модели, разработчики использовали проксимальную оптимизацию политик. Для этого процесса они выполнили несколько итераций.
Процесс обучения ChatGPT. Данные: OpenAI.
По словам разработчиков, модель имеет ряд ограничений. Несмотря на правдоподобные ответы, ChatGPT часто ошибается, чувствительна к формулировкам, злоупотребляет определенными фразами, демонстрирует предвзятость и додумывает контекст.
Однако в компании заявили, что опыт развертывания GPT-3 и Codex позволил повысить безопасность модели и сократить количество недостоверных ответов благодаря RLHF.
ChatGPT доступен бесплатно. Разработчики попросили пользователей оставлять отзывы о проблемных выходных данных модели, ложных срабатываниях внешнего фильтра содержимого, который является частью интерфейса.
«Нас особенно интересуют отзывы […], которые помогают нам выявлять и понимать новые риски и возможные меры по их устранению», — говорится в пресс-релизе.
По словам разработчиков, полученная информация поможет им в разработке более современных и продвинутых языковых моделей.
ChatGPT обучали на суперкомпьютере Azure AI. Чат-бот является доработкой модели серии GPT-3.5, создание которой завершилось в начале 2022 года.
Напомним, в сентябре OpenAI представила систему распознавания речи Whisper, обеспечивающую транскрипцию на нескольких языках.
В январе компания выпустила новую версию GPT-3, которая производит меньше оскорбительных выражений, дезинформации и ошибок в целом.
Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!