GPT-4 превосходит GPT-3.5 по всем показателям по целому ряду критериев исследования
Коротко
GPT-4 достиг более высокого порога оценки, чем GPT-3.5, по целому ряду тестов.
Это большое достижение, поскольку оно показывает, что машины не только обладают интеллектом, подобным человеческому, но и могут превзойти нас, что поднимает вопросы о будущем ИИ и его потенциальном влиянии на рынок труда.
GPT-4 значительно уступает современным (SOTA) моделям, в том числе тем, которые используют дополнительные протоколы обучения или дизайн, ориентированный на тесты, а также существующие модели больших языков.
Компания GPT-4 набрал более высокие баллы, чем GPT-3.5, в различных тестах. Это большой прорыв для машин, поскольку он доказывает, что теперь они могут не только решать задачи, для которых изначально были созданы, но и делать это лучше, чем студенты университетов.
Есть несколько вещей, которые следует учитывать при рассмотрении этого результата. Во-первых, GPT-4 не подвергался специальной подготовке к этим экзаменам. Для этого использовались самые последние общедоступные тесты (в случае олимпиад и бесплатных ответов на вопросы AP) или путем покупки выпусков практических экзаменов 2022–2023 годов. Во-вторых, важно отметить, что производительность GPT-4 может не обязательно отражать способности испытуемых-людей, поскольку он работает на другом наборе принципов и алгоритмов.
Это большое достижение, т.к. это показывает что машины не только обладают интеллектом, подобным человеческому, но и могут превзойти нас. Это прокладывает путь к будущему, в котором машины смогут выполнять все более и более сложные задачи, что в конечном итоге приведет к будущему, в котором они смогут помогать нам в нашей повседневной жизни.
Прочитайте больше: 5+ самых ожидаемых моделей ИИ для преобразования текста в изображение в 2023 году |
GPT-4, например, сдает смоделированный экзамен на адвоката с результатом в 10% лучших участников теста; Оценка GPT-3.5 была в нижних 10%. Это значительное улучшение производительности GPT-4 связано с большим объемом обучающих данных и улучшенной архитектурой. Ожидается, что он будет иметь широкий спектр приложений в различных областях, включая обработку естественного языка и автоматизированное письмо.
Большинство современных (SOTA) моделей, в том числе те, которые могут использовать дополнительные протоколы обучения или дизайн, ориентированный на тесты, а также существующие крупные языковые модели, значительно уступают GPT-4.
Внутри разработчики использовали GPT-4, что оказало значительное влияние на такие действия, как программирование, продажи, поддержка и модерация контента. Второй этап нашего метода выравнивания сейчас находится в стадии реализации, поскольку разработчики используют его, чтобы помочь людям анализировать результаты ИИ.
Набор данных MMLU (Massive Multi-Task Language Understanding) содержит вопросы из очень широкого круга тем по пониманию языка в различных задачах (охватывающих 57 областей, включая математику, биологию, право, социальные и гуманитарные науки и т. д.). На вопрос возможны четыре варианта ответа, один из которых правильный. То есть случайное угадывание показывает результат 25% правильных ответов. См. рисунок ниже для примеров вопросов и их сложности. Средний человек-маркер (то есть это не ученый, не профессор — обычный человек, подрабатывающий разметкой) правильно отвечает на 35% вопросов; однако эксперты могут достичь оценки +/- 90%.
Прочитайте больше: 5 причин использовать Bing с искусственным интеллектом вместо Google |
Изначально весь набор данных был на английском языке. Но что, если вопросы и ответы переведены на другие языки, особенно на менее распространенные? Будет ли модель работать на них как-то? В этом тесте для перевода использовалась служба Microsoft Azure Translate. Переводы не идеальны; в некоторых случаях важная информация теряется. Однако даже в этом случае GPT-4 хорошо работает на других языках. В переведенных версиях MMLU GPT-4 превосходит уровень английского языка других крупных моделей (включая Google) на 24 из 26 исследованных языков.
Более того, GPT-4 работает лучше на редких языках, чем ChatGPT на английском (ChatGPT набрал 70.1%, в то время как новая модель набрала 71.8% для тайского языка). Оценка за тест на английском языке была самой высокой, при этом GPT-4 показал себя на 10% лучше, чем другие модели, включая самый большой PaLM от Google. Она набрала 86.4%, а группа экспертов — 90%.
Читайте больше связанных новостей: