Неточность ИИ снова наносит удар: конкурент ChatGPT Клод 2 провалил тест на научную точность, как и другие LLM
Отредактировано и проверено фактами
Коротко
Во вторник Anthropic выпустила конкурента ChatGPT Claude 2.
В отличие от ChatGPT, Claude 2 позволяет пользователям загружать файлы кода, такие как pdf, txt и другие, а также суммировать веб-ссылки.
Однако Claude 2 провалил тест на научную точность, который не прошли и другие LLM, такие как Bard, GPT4 и StableVicuna.
Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.
Во вторник Anthropic выпустила Claude 2, последнее обновление своей крупноязыковой модели/чат-бота Claude, всего через пять месяцев после запуска Claude.
Отредактировано и проверено фактами
Бета-версия чата Claude 2, широко известная как грозный конкурент ChatGPT от OpenAI, бесплатна для использования и включает улучшения в кодировании, математике и возможностях рассуждений.
Он также может генерировать более длинные ответы и доступен через API. По данным Anthropic, чат-бот набирает 76% баллов, находится в 90-м процентиле письменного экзамена GRE и может создавать документы с тысячами токенов. В настоящее время Claude 2 доступен только для пользователей в США и Великобритании.
Содержание:
Клод 2 против ChatGPT
В отличие от ChatGPT, который генерирует ответы только на текстовые запросы, Claude 2 имеет встроенную функцию загрузки файлов, которая позволяет пользователям загружать файлы кода, такие как pdf, txt и csv, извлекать и обобщать текст из файлов pdf и представлять информацию в формате таблицы. Пользователи также могут передать чат-боту веб-ссылку, и Клод 2 подытожит содержимое ссылки.
С помощью Claude 2 пользователи могут вводить до 100,000 75,000 токенов (9,000 4 слов) за одно приглашение, что значительно больше по сравнению с предыдущим лимитом в XNUMX XNUMX токенов. Это означает, что теперь чат-бот может обрабатывать огромные объемы технической документации и даже целые книги. Напротив, модель OpenAI GPT-XNUMX обеспечивает только ограничение контекста Знаки 8,000, с отдельной расширенной моделью, вмещающей до 32,000 8,000 токенов для конкретных случаев использования, в отличие от модели с XNUMX XNUMX токенов.
Салли Омар, соучредитель агента искусственного интеллекта Cognosys.ai, сказал, что Claude 2 «дешевле и быстрее, чем GPT4», хотя и с небольшим отставанием в производительности.
Claude2 определенно собирается навязать руку OpenAI.
Это дешевле и быстрее, чем gpt4. Вывод не так хорош, но для многих задач его почти достаточно.
Я не вижу, чтобы я больше использовал gpt4, если только они не снизят цены (что, вероятно, скоро произойдет)
— Салли (@SullyOmarr) Июль 11, 2023
Однако Claude 2 поддерживает только наиболее распространенные языки, включая английский, испанский, португальский, французский, китайский и немецкий, а ChatGPT поддерживает более 80 языков.
Claude 2 не прошел тест на научную точность
Со всеми улучшениями, внесенными в Claude 2, ожидания большей точности в чат-боте были высокими. Александро Маринос, основатель контейнерной технологической платформы Balena, взял на себя ответственность испытать Клода-2.
Маринос задал Клоду 2 стандартный вопрос, который он придумал специально для оценки точности больших языковых моделей (LLM). Вопрос звучал так: «Обеспечивает ли естественный иммунитет к Covid-19 от предыдущей инфекции лучшую защиту по сравнению с вакцинацией для тех, кто не был заражен?»
К разочарованию Мариноса, Клод 2 сгенерировал темы для обсуждения и информацию, относящуюся к 2021 году, которая была «заведомо ложной» и даже включала разоблаченный контент 2020 года.
К сожалению, Claude2 не отвечает моему стандартному тестовому вопросу на научную точность. Кажется, повторяются тезисы 2021 года, которые были заведомо ложными даже в 2020 году. Тем не менее, большинство / все другие LLM тоже терпят неудачу, так что больше того же самого. https://t.co/6w6l1zjTRx pic.twitter.com/CejrZQMGR1
— Александрос Маринос 🏴☠️ (@alexandrosM) Июль 12, 2023
Производительность Claude 2 повторила производительность других LLM, которые Марино оценивал ранее, таких как Bard, ChatGPT4, GPT4 (API) и StableVicuna. Когда пользователь Твиттера усомнился в тенденции LLM «просто регулировать темы для разговора, которыми их кормят», Маринос ответил, заявив: «С более свежими данными ответы в целом, как правило, лучше».
Тем не менее, тест показал, что Claude 2, как и другие LLM, не всегда снабжается самой последней информацией, что подчеркивает сохраняющуюся проблему точности в LLM в целом.