OpenAI: новое моделирование вознаграждения под контролем процесса улучшает мышление ИИ

0 2

Отредактировано и проверено фактами

Коротко

Моделирование вознаграждения под контролем OpenAI (PRM) направлено на оценку промежуточных шагов и обоснование моделей ИИ, что приводит к повышению производительности и показателей.

Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.

OpenAI: новое моделирование вознаграждения под контролем процесса улучшает мышление ИИ

OpenAI снова привлекла внимание сообщества ИИ своей новаторской работой в области моделирования вознаграждений с контролируемым процессом (СУРП). Этот инновационный подход направлен на оценку промежуточных шагов и рассуждений моделей ИИ, что приводит к повышению производительности и показателей.

OpenAI: новое моделирование вознаграждения под контролем процесса улучшает мышление ИИ

Отредактировано и проверено фактами

Рекомендованные: ChatGPT может изменить Уолл-стрит, упростив торговлю

В традиционном обучении с подкреплением на основе обратной связи с человеком (РЛХФ), обратная связь модели обычно дается на основе общего результата, полученного моделью. Тем не менее, новое исследование OpenAI исследует идею оценки отдельных шагов и процессов рассуждений, предпринимаемых моделью. Поступая таким образом, они могут предоставлять более детальные оценки и отзывы.

Чтобы решить эту проблему, OpenAI выбрал математические задачи, требующие нескольких действий. Отдельный модель был обучен эффективно оценивать промежуточные шаги, выступая в роли критика для выявления любых ошибочных суждений, сделанных первичной моделью. Этот процесс не только повышает общую производительность, но и улучшает показатели, используемые для оценки возможностей модели.

OpenAI добился значительных успехов в этой области, выпустив тщательно отобранный набор данных, состоящий из 800,000 XNUMX отмеченных суждений. Каждое суждение представляет собой отдельный этап решения математических задач и создавалось вручную. Это подчеркивает уровень самоотверженности и ресурсов OpenAI инвестирует в разработку высококачественных наборов данных, поднимая вопросы об объеме данных, собранных для других областей, таких как программирование или открытые вопросы.

Обучение GPT-4, последней версии серии GPT от OpenAI, уже идет полным ходом. Хотя компонент RLHF не включен в текущие эксперименты, используется чистая языковая модель. Примечательно, что OpenAI упоминает, что существует несколько версий GPT-4, причем даже самая маленькая версия требует значительно меньше ресурсов для обучения — примерно в 200 раз меньше.

OpenAI: новое моделирование вознаграждения под контролем процесса улучшает мышление ИИ

Интригующим примером поделился OpenAI демонстрирует, как модель оценивает каждый отдельный шаг решения. На снимке экрана, включенном в сообщение, ошибки в решении отмечены флажками и имеют самую низкую оценку правильности, выделенную красным цветом. Эта демонстрация подчеркивает способность модели рассуждать и дает ценную информацию о процессе принятия решений. OpenAI также предоставил инструкции по наценкам, предлагая краудсорсерам возможность внести свой вклад и извлечь выгоду из своей работы.

Поскольку OpenAI продолжает раздвигать границы исследований ИИ, их внимание к обоснованию моделей и моделированию вознаграждения под контролем процесса открывает новые возможности для расширенных возможностей ИИ. Этот последний прорыв демонстрирует их стремление улучшить характеристики модели и открывает двери для дальнейших достижений в этой области.

  • В последнее время Сообщается, что Apple ограничивает использование сотрудниками ChatGPT и другие чат-боты с искусственным интеллектом из соображений конфиденциальности. The Wall Street Journal сообщил, что работникам также запрещено использовать инструмент искусственного интеллекта GitHub Copilot, который позволяет пользователям автоматически писать программный код. ChatGPT — это чат-бот на базе искусственного интеллекта, разработанный OpenAI, который подвергся критике за нарушение конфиденциальности.
  • Подробнее об ИИ:

    Источник

    Оставьте ответ