Стэнфордское исследование подтверждает, что GPT-4 становится все тупее

0 2

Отредактировано и проверено фактами

Коротко

Исследование, проведенное Матеем Захарией и его командой из Стэнфорда и Калифорнийского университета в Беркли, сравнило производительность GPT-4 и ChatGPT для устранения опасений пользователей по поводу эффективности модели.

В ходе исследования модели оценивались по четырем конкретным задачам: математике, кодированию, чувствительности и визуальному мышлению.

Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.

Матей Захария и его команда из Стэнфорда и Калифорнийского университета в Беркли провела исследование который сравнил производительность GPT-4 с ChatGPT. Это расследование было направлено на устранение опасений пользователей по поводу снижения эффективности модели.

Стэнфордское исследование подтверждает, что GPT-4 становится все тупее

Отредактировано и проверено фактами

Похожие страницы:: GPT-4 против GPT-3: что может предложить новая модель?

Исследователи разработали исследование для оценки моделей по четырем конкретным задачам. Эти задачи включали:

  • Математика: способность модели определять, является ли заданное число простым или составным.
  • Кодирование: оценка способности модели генерировать осмысленный и функциональный код.
  • Чувствительность: анализ ответов модели на вопросы с потенциально «токсичным» содержанием.
  • Визуальное мышление: проверка способности модели решать проблемы, связанные с визуальными паттернами, с использованием эталонного теста ARC. Участники должны были определить закономерности в наборе изображений и применить их для решения нового примера.
  • В области математики обе версии GPT-4, мартовский и июньский выпуски, продемонстрировали постоянную точность определения простых и составных чисел. Модели продемонстрировали умение обрабатывать эти расчеты, обеспечивая надежные результаты.

    Переходя к кодированию, GPT-4 продемонстрировал улучшенную способность генерировать осмысленный и функциональный код по сравнению со своими предшественниками. Возможности генерации кода модели оказались многообещающими, предлагая потенциальные преимущества для разработчиков и программистов.

    Сейчас читают:

    Что касается чувствительности, в исследовании оценивались ответы моделей на вопросы, содержащие потенциально опасный или оскорбительный контент. GPT-4 продемонстрировал расширенный анализ чувствительности и продемонстрировал улучшенную способность давать соответствующие ответы в таких контекстах. Это означает позитивный шаг вперед в решении проблем пользователей по поводу потенциально проблемных выходных данных.

    Наконец, задачи визуального мышления, основанные на тесте ARC, были успешно выполнены обеими версиями GPT-4. Модели эффективно идентифицировали шаблоны в наборах изображений и продемонстрировали способность применять эти шаблоны для решения новых примеров. Это демонстрирует их способность к визуальному пониманию и рассуждениям.

    Стэнфордское исследование подтверждает, что GPT-4 становится все тупее

    ChatGPT продемонстрировали значительный рост показателей производительности к июню, продемонстрировав значительное улучшение более чем в десять раз. Хотя исследование не углублялось в конкретные факторы, способствующие этому улучшению, оно подчеркивает ChatGPTпрогресс в математических рассуждениях и возможностях решения проблем.

    Стэнфордское исследование подтверждает, что GPT-4 становится все тупее

    Похожие страницы:: 10+ лучших AI Photo Enhancers в 2023 году

    Качество ГПТ-4 и ChatGPT был допрошен после анализа их способностей программирования. Однако при ближайшем рассмотрении обнаруживаются некоторые увлекательные нюансы, противоречащие первому впечатлению.

    Авторы не выполняли и не проверяли правильность кода; их оценка была основана исключительно на его достоверности как кода Python. Кроме того, модели, по-видимому, изучили определенный метод кадрирования кода с помощью декоратора, который непреднамеренно мешал выполнению кода.

    В результате становится очевидным, что ни результаты, ни сам эксперимент нельзя рассматривать как свидетельство деградации модели. Вместо этого модели демонстрируют другой подход к генерации ответов, потенциально отражающий различия в их обучении.

    Стэнфордское исследование подтверждает, что GPT-4 становится все тупее

    Когда дело доходит до задач программирования, обе модели показали снижение реакции на «неправильные» подсказки, причем GPT-4 продемонстрировал более чем четырехкратное снижение в таких случаях. Кроме того, в задаче «Визуальное мышление» качество ответов улучшилось на пару процентных пунктов для обеих моделей. Эти наблюдения указывают на прогресс, а не на ухудшение производительности.

    Тем не менее, оценка математических навыков вносит интригующий элемент. Модели постоянно давали простые числа в качестве ответов, что указывало на последовательный ответ «да». Тем не менее, после введения составных чисел в выборку стало очевидно, что модели изменили свое поведение и начали давать ответы «нет», предполагая скорее неопределенность, чем снижение качества. Сам тест своеобразный и односторонний, и его результаты можно отнести к изменениям в поведении модели, а не к снижению качества.

    Важно отметить, что тестировались версии API, а не версии для браузера. Хотя возможно, что модели в браузере подверглись корректировке для оптимизации ресурсов, в прилагаемом исследовании этого не делается. defiнаивно доказать эту гипотезу. Влияние таких сдвигов может быть сравнимо с фактическим понижением версии модели, что может привести к потенциальным проблемам для пользователей, которые полагаются на конкретные рабочие подсказки и накопленный опыт.

    В случае приложений GPT-4 API эти отклонения в поведении могут иметь ощутимые последствия. Код, который был разработан на основе потребностей и задач конкретного пользователя, может перестать функционировать должным образом, если модель претерпит изменения в своем поведении.

    Пользователям рекомендуется включать аналогичные методы тестирования в свои рабочие процессы. Создавая набор подсказок, сопровождающих текстов и ожидаемых результатов, пользователи могут регулярно проверять соответствие между своими ожиданиями и ответами модели. При обнаружении каких-либо отклонений могут быть приняты соответствующие меры для исправления ситуации.

    Подробнее об ИИ:

    Источник

    Оставьте ответ