GigaChat 2.0 вывел российский искусственный интеллект на новый уровень
Изображение: AI
Модель умеет работать с аудио, видео, текстами, картинками и в реальном времени анализировать данные из интернета.
Сбер представил обновлённую версию своей нейросетевой платформы — GigaChat 2.0. Это уже не просто чат-бот: теперь это полноценный мультимодальный помощник, способный понимать речь, изображения, видео и большие объемы текста, выдавая актуальные, проверенные данные с привязкой к источникам. Новый GigaChat 2.0 также встроен в голосовые помощники умных колонок Сбер, а одной из первых цифровых платформ, интегрировавших его, стала МАХ от VK.
Что изменилось в GigaChat 2.0
Главное новшество — поддержка мультимодальности. Искусственный интеллект теперь распознаёт голосовые аудиофайлы, понимает изображения, работает с видео по ссылкам (включая YouTube) и анализирует документы объёмом до 200 страниц. Например, пользователь может загрузить договор аренды и получить анализ с учётом актуальных российских законов, расшифровать аудиозапись врачебных рекомендаций или понять суть видеоурока.
Серьёзно улучшились возможности обработки аудио. Модель воспринимает звуковые данные напрямую, без преобразования в текст. Она умеет выделять главные смыслы, отвечать на вопросы по содержанию, распознавать устную речь, акценты, музыку и посторонние звуки. Возможности ограничены размерами файлов: до 60 минут или 30 мегабайт. Правда, на практике пока возникают ограничения форматов и объёмов при работе с аудиофайлами.
Работа с актуальными данными в реальном времени стала ещё одной ключевой особенностью. Теперь GigaChat 2.0 может искать информацию в интернете, отфильтровывать её, выделять главное и выдавать ссылки на проверенные источники. Это позволяет избежать устаревших данных, на которых была обучена модель, и уменьшает риск так называемых «галлюцинаций» — ошибок в выдаче.
Две версии — для разных задач
В линейке две версии: GigaChat 2 Pro — для повседневных задач, вроде написания текстов или быстрой справочной информации, и GigaChat 2 Max — для сложных профессиональных запросов. Max-модель уже получила первое место среди AI-моделей в бенчмарке MERA для русского языка и уверенно конкурирует с зарубежными аналогами вроде GPT-4 и LLaMA 70B.
Музыка, картинки и видео
GigaChat 2.0 научился генерировать музыку и песни по текстовому запросу — теперь максимальная длительность трека достигает трёх минут, а создать его можно за одну. Модель поддерживает генерацию композиций даже на иностранных языках, например, на китайском.
Работа с изображениями тоже вышла на новый уровень. Искусственный интеллект может анализировать содержимое фотографии, расшифровывать текст, советовать стили одежды, решать задачи или объяснять содержание квитанций.
В отношении видео GigaChat 2.0 умеет обрабатывать ссылки: модель анализирует аудиодорожку, рассказывает основную суть, отвечает на вопросы или выделяет ключевые моменты, включая ролики на английском или других языках.
Умные колонки и живой диалог
Впервые в России все умные колонки Сбера переведены на большую языковую модель. Это позволяет вести живой диалог с пользователем на понятном языке или в заданной роли. Теперь колонка держит нить разговора в 10 раз дольше, чем раньше, объясняет сложные вещи простыми словами или отвечает от лица, например, кинозвезды.
Модель поддерживает 18 вариантов настройки общения: выбор голоса, формата обращения (на «ты» или «вы»), стиля общения. Можно в одном обращении задать несколько команд, а колонка сама поймёт, когда нужно поставить будильник, включить музыку или найти информацию. Вышло глобальное обновление системы централизованного управления РЕД АДМ Промышленная редакция 2.0 Модульные ЦОДы. Как быстро масштабировать вычисления? Конструктор криптообменников: революция в мире обмена криптовалют?
GigaChat 2.0 на платформе МАХ от VK
Одним из первых новых партнёров стала платформа МАХ от VK — отечественный аналог WeChat с мессенджером, мини-приложениями, чат-ботами и платежным сервисом. Пользователи могут с помощью GigaChat 2.0 создавать тексты, расшифровывать аудио, кратко пересказывать видео и статьи, получать помощь в профессиональных и повседневных вопросах.
GigaChat 2.0 стал важным шагом в развитии российских AI-сервисов. Благодаря интеграции с умными колонками, платформами и расширению функциональности, он превратился в полноценного универсального ассистента, который понимает и текст, и звук, и видео, и изображение — и умеет не просто отвечать, а анализировать, советовать и даже творить музыку. Читайте также
Цифровые двойники в строительстве. Эффективность, проблемы и перспективы Цифровой двойник — это виртуальная точная копия объекта, например, автомобиля или здания, или процесса, например, производства того или иного продукта. Согласно исследованию НИУ ВШЭ, почти 22% компаний из 15 секторов экономики уже используют эту технологию, а 34% — планируют внедрить ее в работу. О том, как подобные двойники помогают строительной отрасли, IT-World рассказал Кирилл Поляков, основатель цифровой платформы для управления стройкой Pragmacore (малая технологическая компания Сколково).
Источник: ТАСС
СберИскусственный интеллект AIОтечественные разработки