Неточность ИИ снова поражает: ChatGPT Конкурент Claude 2 провалил тест на научную точность, как и другие LLM
Отредактировано и проверено фактами
Коротко
Антропный выпущен ChatGPT соперник Клод 2 во вторник.
В отличие от ChatGPT, Claude 2 позволяет пользователям загружать файлы кода, такие как pdf, txt и другие, а также обобщать веб-ссылки.
Однако Claude 2 провалил тест на научную точность, который не прошли и другие LLM, такие как Bard, GPT4 и StableVicuna.
Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.
Во вторник Anthropic выпустила Claude 2, последнее обновление своей крупноязыковой модели/чат-бота Claude, всего через пять месяцев после запуска Claude.
Отредактировано и проверено фактами
Широко известен как грозный конкурент OpenAIАвтора ChatGPT, бета-версия чата Claude 2 бесплатна для использования и включает улучшения в кодировании, математике и возможностях рассуждений.
Он также может генерировать более длинные ответы и доступен через API. По данным Anthropic, чат-бот набирает 76% баллов, находится в 90-м процентиле письменного экзамена GRE и может создавать документы с тысячами токенов. В настоящее время Claude 2 доступен только для пользователей в США и Великобритании.
Содержание:
Клод 2 против ChatGPT
В отличие от ChatGPT который только генерирует ответы на текстовые подсказки, Claude 2 имеет встроенную функцию загрузки файлов, которая позволяет пользователям загружать файлы кода, такие как pdf, txt и csv, извлекать и обобщать текст из файлов pdf и представлять информацию в формате таблицы. Пользователи также могут передать чат-боту веб-ссылку, и Клод 2 подытожит содержимое ссылки.
С Claude 2 пользователи могут вводить до 100,000 75,000 токенов (9,000 XNUMX слов) за одно приглашение, что значительно больше, чем в предыдущем ограничении в XNUMX XNUMX токенов. Это означает, что теперь чат-бот может обрабатывать огромные объемы технической документации и даже целые книги. В отличие, OpenAIмодель GPT-4 обеспечивает ограничение контекста только Знаки 8,000, с отдельной расширенной моделью, вмещающей до 32,000 8,000 токенов для конкретных случаев использования, в отличие от модели с XNUMX XNUMX токенов.
Салли Омар, соучредитель агента искусственного интеллекта Cognosys.ai, сказал, что Claude 2 «дешевле и быстрее, чем GPT4», хотя и с небольшим отставанием в производительности.
Клод2 это defiконечно заставлю OpenAIрука
Это дешевле и быстрее, чем gpt4. Вывод не так хорош, но для многих задач его почти достаточно.
Я не вижу, чтобы я больше использовал gpt4, если только они не снизят цены (что, вероятно, скоро произойдет)
— Салли (@SullyOmarr) Июль 11, 2023
Однако Claude 2 поддерживает только наиболее распространенные языки, включая английский, испанский, португальский, французский, китайский и немецкий. ChatGPT поддержка более 80 языков.
Claude 2 не прошел тест на научную точность
Со всеми улучшениями, внесенными в Claude 2, ожидания большей точности в чат-боте были высокими. Александро Маринос, основатель контейнерной технологической платформы Balena, взял на себя ответственность испытать Клода-2.
Маринос задал Клоду 2 стандартный вопрос, который он придумал специально для оценки точности больших языковых моделей (LLM). Вопрос звучал так: «Обеспечивает ли естественный иммунитет к Covid-19 от предыдущей инфекции лучшую защиту по сравнению с вакцинацией для тех, кто не был заражен?»
К разочарованию Мариноса, Клод 2 сгенерировал темы для обсуждения и информацию, относящуюся к 2021 году, которая была «заведомо ложной» и даже включала разоблаченный контент 2020 года.
К сожалению, Claude2 не отвечает моему стандартному тестовому вопросу на научную точность. Кажется, повторяются тезисы 2021 года, которые были заведомо ложными даже в 2020 году. Тем не менее, большинство / все другие LLM тоже терпят неудачу, так что больше того же самого. https://t.co/6w6l1zjTRx pic.twitter.com/CejrZQMGR1
— Александрос Маринос 🏴☠️ (@alexandrosM) Июль 12, 2023
Производительность Клода 2 повторила производительность других LLM, которых Марино оценивал ранее, таких как Бард, ChatGPT4, GPT4 (API) и StableVicuna. Когда пользователь Твиттера усомнился в тенденции LLM «просто регулировать темы для разговора, которыми их кормят», Маринос ответил, заявив: «С более свежими данными ответы в целом, как правило, лучше».
Тем не менее, тест показал, что Claude 2, как и другие LLM, не всегда снабжается самой последней информацией, что подчеркивает сохраняющуюся проблему точности в LLM в целом.