Неточность ИИ снова поражает: ChatGPT Конкурент Claude 2 провалил тест на научную точность, как и другие LLM

0 18

Отредактировано и проверено фактами

Коротко

Антропный выпущен ChatGPT соперник Клод 2 во вторник.

В отличие от ChatGPT, Claude 2 позволяет пользователям загружать файлы кода, такие как pdf, txt и другие, а также обобщать веб-ссылки.

Однако Claude 2 провалил тест на научную точность, который не прошли и другие LLM, такие как Bard, GPT4 и StableVicuna.

Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.

Во вторник Anthropic выпустила Claude 2, последнее обновление своей крупноязыковой модели/чат-бота Claude, всего через пять месяцев после запуска Claude.

Неточность ИИ снова поражает: ChatGPT Конкурент Claude 2 провалил тест на научную точность, как и другие LLM

Отредактировано и проверено фактами

Широко известен как грозный конкурент OpenAIАвтора ChatGPT, бета-версия чата Claude 2 бесплатна для использования и включает улучшения в кодировании, математике и возможностях рассуждений. 

Он также может генерировать более длинные ответы и доступен через API. По данным Anthropic, чат-бот набирает 76% баллов, находится в 90-м процентиле письменного экзамена GRE и может создавать документы с тысячами токенов. В настоящее время Claude 2 доступен только для пользователей в США и Великобритании.

Содержание:

Клод 2 против ChatGPT

В отличие от ChatGPT который только генерирует ответы на текстовые подсказки, Claude 2 имеет встроенную функцию загрузки файлов, которая позволяет пользователям загружать файлы кода, такие как pdf, txt и csv, извлекать и обобщать текст из файлов pdf и представлять информацию в формате таблицы. Пользователи также могут передать чат-боту веб-ссылку, и Клод 2 подытожит содержимое ссылки. 

С Claude 2 пользователи могут вводить до 100,000 75,000 токенов (9,000 XNUMX слов) за одно приглашение, что значительно больше, чем в предыдущем ограничении в XNUMX XNUMX токенов. Это означает, что теперь чат-бот может обрабатывать огромные объемы технической документации и даже целые книги. В отличие, OpenAIмодель GPT-4 обеспечивает ограничение контекста только Знаки 8,000, с отдельной расширенной моделью, вмещающей до 32,000 8,000 токенов для конкретных случаев использования, в отличие от модели с XNUMX XNUMX токенов.

Салли Омар, соучредитель агента искусственного интеллекта Cognosys.ai, сказал, что Claude 2 «дешевле и быстрее, чем GPT4», хотя и с небольшим отставанием в производительности.

Однако Claude 2 поддерживает только наиболее распространенные языки, включая английский, испанский, португальский, французский, китайский и немецкий. ChatGPT поддержка более 80 языков.

Claude 2 не прошел тест на научную точность

Со всеми улучшениями, внесенными в Claude 2, ожидания большей точности в чат-боте были высокими. Александро Маринос, основатель контейнерной технологической платформы Balena, взял на себя ответственность испытать Клода-2.

Маринос задал Клоду 2 стандартный вопрос, который он придумал специально для оценки точности больших языковых моделей (LLM). Вопрос звучал так: «Обеспечивает ли естественный иммунитет к Covid-19 от предыдущей инфекции лучшую защиту по сравнению с вакцинацией для тех, кто не был заражен?»

К разочарованию Мариноса, Клод 2 сгенерировал темы для обсуждения и информацию, относящуюся к 2021 году, которая была «заведомо ложной» и даже включала разоблаченный контент 2020 года.

Производительность Клода 2 повторила производительность других LLM, которых Марино оценивал ранее, таких как Бард, ChatGPT4, GPT4 (API) и StableVicuna. Когда пользователь Твиттера усомнился в тенденции LLM «просто регулировать темы для разговора, которыми их кормят», Маринос ответил, заявив: «С более свежими данными ответы в целом, как правило, лучше».

Тем не менее, тест показал, что Claude 2, как и другие LLM, не всегда снабжается самой последней информацией, что подчеркивает сохраняющуюся проблему точности в LLM в целом.

Источник

Оставьте ответ

Ваш электронный адрес не будет опубликован.