Стэнфордское исследование подтверждает, что GPT-4 становится все тупее
Отредактировано и проверено фактами
Коротко
Исследование, проведенное Матеем Захарией и его командой из Стэнфорда и Калифорнийского университета в Беркли, сравнило производительность GPT-4 и ChatGPT для устранения опасений пользователей по поводу эффективности модели.
В ходе исследования модели оценивались по четырем конкретным задачам: математике, кодированию, чувствительности и визуальному мышлению.
Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.
Матей Захария и его команда из Стэнфорда и Калифорнийского университета в Беркли провела исследование который сравнил производительность GPT-4 с ChatGPT. Это расследование было направлено на устранение опасений пользователей по поводу снижения эффективности модели.
Отредактировано и проверено фактами
Похожие страницы:: GPT-4 против GPT-3: что может предложить новая модель? |
Исследователи разработали исследование для оценки моделей по четырем конкретным задачам. Эти задачи включали:
В области математики обе версии GPT-4, мартовский и июньский выпуски, продемонстрировали постоянную точность определения простых и составных чисел. Модели продемонстрировали умение обрабатывать эти расчеты, обеспечивая надежные результаты.
Переходя к кодированию, GPT-4 продемонстрировал улучшенную способность генерировать осмысленный и функциональный код по сравнению со своими предшественниками. Возможности генерации кода модели оказались многообещающими, предлагая потенциальные преимущества для разработчиков и программистов.
Что касается чувствительности, в исследовании оценивались ответы моделей на вопросы, содержащие потенциально опасный или оскорбительный контент. GPT-4 продемонстрировал расширенный анализ чувствительности и продемонстрировал улучшенную способность давать соответствующие ответы в таких контекстах. Это означает позитивный шаг вперед в решении проблем пользователей по поводу потенциально проблемных выходных данных.
Наконец, задачи визуального мышления, основанные на тесте ARC, были успешно выполнены обеими версиями GPT-4. Модели эффективно идентифицировали шаблоны в наборах изображений и продемонстрировали способность применять эти шаблоны для решения новых примеров. Это демонстрирует их способность к визуальному пониманию и рассуждениям.
ChatGPT продемонстрировали значительный рост показателей производительности к июню, продемонстрировав значительное улучшение более чем в десять раз. Хотя исследование не углублялось в конкретные факторы, способствующие этому улучшению, оно подчеркивает ChatGPTпрогресс в математических рассуждениях и возможностях решения проблем.
Похожие страницы:: 10+ лучших AI Photo Enhancers в 2023 году |
Качество ГПТ-4 и ChatGPT был допрошен после анализа их способностей программирования. Однако при ближайшем рассмотрении обнаруживаются некоторые увлекательные нюансы, противоречащие первому впечатлению.
Авторы не выполняли и не проверяли правильность кода; их оценка была основана исключительно на его достоверности как кода Python. Кроме того, модели, по-видимому, изучили определенный метод кадрирования кода с помощью декоратора, который непреднамеренно мешал выполнению кода.
В результате становится очевидным, что ни результаты, ни сам эксперимент нельзя рассматривать как свидетельство деградации модели. Вместо этого модели демонстрируют другой подход к генерации ответов, потенциально отражающий различия в их обучении.
Когда дело доходит до задач программирования, обе модели показали снижение реакции на «неправильные» подсказки, причем GPT-4 продемонстрировал более чем четырехкратное снижение в таких случаях. Кроме того, в задаче «Визуальное мышление» качество ответов улучшилось на пару процентных пунктов для обеих моделей. Эти наблюдения указывают на прогресс, а не на ухудшение производительности.
Тем не менее, оценка математических навыков вносит интригующий элемент. Модели постоянно давали простые числа в качестве ответов, что указывало на последовательный ответ «да». Тем не менее, после введения составных чисел в выборку стало очевидно, что модели изменили свое поведение и начали давать ответы «нет», предполагая скорее неопределенность, чем снижение качества. Сам тест своеобразный и односторонний, и его результаты можно отнести к изменениям в поведении модели, а не к снижению качества.
Важно отметить, что тестировались версии API, а не версии для браузера. Хотя возможно, что модели в браузере подверглись корректировке для оптимизации ресурсов, в прилагаемом исследовании этого не делается. defiнаивно доказать эту гипотезу. Влияние таких сдвигов может быть сравнимо с фактическим понижением версии модели, что может привести к потенциальным проблемам для пользователей, которые полагаются на конкретные рабочие подсказки и накопленный опыт.
В случае приложений GPT-4 API эти отклонения в поведении могут иметь ощутимые последствия. Код, который был разработан на основе потребностей и задач конкретного пользователя, может перестать функционировать должным образом, если модель претерпит изменения в своем поведении.
Пользователям рекомендуется включать аналогичные методы тестирования в свои рабочие процессы. Создавая набор подсказок, сопровождающих текстов и ожидаемых результатов, пользователи могут регулярно проверять соответствие между своими ожиданиями и ответами модели. При обнаружении каких-либо отклонений могут быть приняты соответствующие меры для исправления ситуации.
Подробнее об ИИ: