Google представила языковую модель Gemma 3

0 0

Google представила языковую модель Gemma 3

Изображение: blog.google

Компания Google представила новую языковую модель Gemma 3, которая, по ее утверждению, приближается к точности мощной DeepSeek R1, но при этом использует в разы меньше вычислительных ресурсов. Если для работы R1 требуется 32 топовых графических процессора Nvidia H100, то Gemma 3 достигает 98% ее точности, используя всего один такой чип.  

В компании считают, что им удалось достичь идеального баланса между производительностью и эффективностью. Gemma 3 демонстрирует отличные результаты, превосходя модели Llama-405B, DeepSeek-V3 и o3-mini в тестах человеческих предпочтений, согласно рейтингу Эло. Кроме того, по расчетам Google, модель опережает Llama 3 от Meta, для которой требуется 16 графических процессоров.

Gemma 3 разработана с учетом экономии вычислительных ресурсов. В отличие от гигантских моделей вроде R1, у которых число параметров может доходить до сотен миллиардов, новая разработка Google предлагает варианты с 1, 4, 12 и 27 миллиардами параметров. Это делает ее гораздо более доступной для работы даже на устройствах без мощных серверных решений.

Google представила языковую модель Gemma 3

Изображение: blog.google

Эта диаграмма ранжирует модели ИИ по баллам Chatbot Arena Elo; более высокие баллы (верхние числа) указывают на более высокие предпочтения пользователя. Точки показывают предполагаемые требования к графическому процессору NVIDIA H100. Gemma 3 27B занимает высокое место, требуя только один графический процессор, в то время как другим требуется до 32.

DeepSeek не нуждается в инвесторах

Одним из ключевых факторов высокой эффективности стало использование технологии «дистилляции» знаний. Этот метод позволяет переносить знания из более крупной нейросети в компактную модель, повышая ее возможности при меньших затратах вычислительной мощности. Кроме того, модель прошла несколько этапов оптимизации, включая обучение с подкреплением на основе обратной связи с человеком (RLHF), машиной (RLMF) и выполнением задач (RLEF), что значительно улучшило ее способность работать с текстами, кодом и математическими расчетами.

Google использует три метода оптимизации качества работы Gemma 3:
RLHF (обучение с подкреплением на основе обратной связи от человека) — помогает сделать ответы более полезными и безопасными.
RLMF (обучение с подкреплением на основе обратной связи от машины) — улучшает математические способности модели.
RLEF (обучение с подкреплением на основе выполнения) — увеличивает точность кода и логики.

По сравнению с предыдущей версией Gemma 2 новая модель получила более длинное контекстное окно – с 8 000 до 128 000 токенов. Это означает, что теперь она может анализировать более крупные фрагменты текста, что особенно полезно для обработки длинных документов. Еще одно важное улучшение – поддержка мультимодальности, то есть возможности работать не только с текстом, но и с изображениями. Это позволяет задавать модели вопросы о содержимом картинок. Кроме того, Gemma 3 теперь поддерживает более 140 языков, тогда как предыдущая версия работала только с английским.

Корпорация также уделила внимание вопросам безопасности. Одна из проблем языковых моделей – возможность запоминать обучающие данные, что может привести к утечке информации. Исследователи компании протестировали модель и выяснили, что в сравнении с предшественниками Gemma 3 запоминает длинные тексты с гораздо меньшей вероятностью, что снижает риски потенциальных утечек.

Между тем, тайваньская компания Foxconn официально представила свою первую большую языковую модель искусственного интеллекта (ИИ) под названием FoxBrain. Читайте также

Google представила языковую модель Gemma 3

Мнение: искусственный интеллект умнеет – человечество деградирует Искусственный интеллект уже не фантазия — он стал частью нашей жизни и выполняет задачи, требующие сложного мышления. Но если ИИ берет на себя все больше умственной работы, не утратим ли мы способность думать самостоятельно?  

Источник

Оставьте ответ