OpenAI: новое моделирование вознаграждения под контролем процесса улучшает мышление ИИ
Отредактировано и проверено фактами
Коротко
Моделирование вознаграждения под контролем OpenAI (PRM) направлено на оценку промежуточных шагов и обоснование моделей ИИ, что приводит к повышению производительности и показателей.
Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.

OpenAI снова привлекла внимание сообщества ИИ своей новаторской работой в области моделирования вознаграждений с контролируемым процессом (СУРП). Этот инновационный подход направлен на оценку промежуточных шагов и рассуждений моделей ИИ, что приводит к повышению производительности и показателей.

Отредактировано и проверено фактами
| Рекомендованные: ChatGPT может изменить Уолл-стрит, упростив торговлю |
В традиционном обучении с подкреплением на основе обратной связи с человеком (РЛХФ), обратная связь модели обычно дается на основе общего результата, полученного моделью. Тем не менее, новое исследование OpenAI исследует идею оценки отдельных шагов и процессов рассуждений, предпринимаемых моделью. Поступая таким образом, они могут предоставлять более детальные оценки и отзывы.
Чтобы решить эту проблему, OpenAI выбрал математические задачи, требующие нескольких действий. Отдельный модель был обучен эффективно оценивать промежуточные шаги, выступая в роли критика для выявления любых ошибочных суждений, сделанных первичной моделью. Этот процесс не только повышает общую производительность, но и улучшает показатели, используемые для оценки возможностей модели.
OpenAI добился значительных успехов в этой области, выпустив тщательно отобранный набор данных, состоящий из 800,000 XNUMX отмеченных суждений. Каждое суждение представляет собой отдельный этап решения математических задач и создавалось вручную. Это подчеркивает уровень самоотверженности и ресурсов OpenAI инвестирует в разработку высококачественных наборов данных, поднимая вопросы об объеме данных, собранных для других областей, таких как программирование или открытые вопросы.
Обучение GPT-4, последней версии серии GPT от OpenAI, уже идет полным ходом. Хотя компонент RLHF не включен в текущие эксперименты, используется чистая языковая модель. Примечательно, что OpenAI упоминает, что существует несколько версий GPT-4, причем даже самая маленькая версия требует значительно меньше ресурсов для обучения — примерно в 200 раз меньше.

Интригующим примером поделился OpenAI демонстрирует, как модель оценивает каждый отдельный шаг решения. На снимке экрана, включенном в сообщение, ошибки в решении отмечены флажками и имеют самую низкую оценку правильности, выделенную красным цветом. Эта демонстрация подчеркивает способность модели рассуждать и дает ценную информацию о процессе принятия решений. OpenAI также предоставил инструкции по наценкам, предлагая краудсорсерам возможность внести свой вклад и извлечь выгоду из своей работы.
Поскольку OpenAI продолжает раздвигать границы исследований ИИ, их внимание к обоснованию моделей и моделированию вознаграждения под контролем процесса открывает новые возможности для расширенных возможностей ИИ. Этот последний прорыв демонстрирует их стремление улучшить характеристики модели и открывает двери для дальнейших достижений в этой области.
Подробнее об ИИ: