30+ лучших моделей трансформеров в ИИ: что это такое и как они работают

0 1

Отредактировано и проверено фактами

Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.

В последние месяцы в ИИ появилось множество моделей Трансформеров, каждая из которых имеет уникальные, а иногда и забавные имена. Однако эти названия могут не давать достаточного представления о том, что на самом деле делают эти модели. Цель этой статьи — предоставить исчерпывающий и понятный список самых популярных моделей трансформеров. Он будет классифицировать эти модели, а также представит важные аспекты и инновации в семействе Transformer. Верхний список будет охватывать модели обучены посредством самоконтролируемого обучения, такого как BERT или GPT-3, а также моделей, которые проходят дополнительное обучение с участием человека, таких как модель InstructGPT, используемая ChatGPT.

30+ лучших моделей трансформеров в ИИ: что это такое и как они работают

Отредактировано и проверено фактами

Советы профессионалов
Это руководство предназначен для предоставления всесторонних знаний и практических навыков в быстрой инженерии для начинающих и продвинутых учащихся.
Есть много курсов доступен для тех, кто хочет узнать больше об искусственном интеллекте и связанных с ним технологиях.
Взгляните на 10+ лучших ускорителей ИИ которые, как ожидается, лидируют на рынке с точки зрения производительности.

Содержание:

Что такое трансформеры в ИИ?

Трансформеры — это тип моделей глубокого обучения, которые были представлены в исследовательской работе под названием «Внимание — это все, что вам нужно» исследователями Google в 2017 году. Эта статья получила огромное признание: всего за пять лет ее цитировали более 38,000 XNUMX раз.

Первоначальная архитектура Transformer представляет собой особую форму моделей кодер-декодер, которая приобрела популярность до ее появления. Эти модели основывались преимущественно на LSTM и другие варианты рекуррентных нейронных сетей (RNN), при этом внимание является лишь одним из используемых механизмов. Однако в документе Transformer была предложена революционная идея о том, что внимание может служить единственным механизмом для установления зависимости между вводом и выводом.

30+ лучших моделей трансформеров в ИИ: что это такое и как они работают

В контексте Transformers ввод состоит из последовательности токенов, которые могут быть словами или подсловами при обработке естественного языка (НЛП). Подслова обычно используются в моделях НЛП для решения проблемы слов, не входящих в словарь. На выходе кодера создается представление фиксированной размерности для каждого токена, а также отдельное вложение для всей последовательности. Декодер принимает выходные данные кодировщика и генерирует последовательность токенов в качестве своих выходных данных.

С момента публикации статьи «Трансформер» популярные модели, такие как БЕРТ и GPT переняли аспекты исходной архитектуры, используя компоненты кодировщика или декодера. Ключевое сходство между этими моделями заключается в многоуровневой архитектуре, которая включает в себя механизмы самоконтроля и уровни прямой связи. В Transformers каждый входной токен проходит свой собственный путь через слои, сохраняя при этом прямые зависимости с каждым другим токеном во входной последовательности. Эта уникальная функция обеспечивает параллельное и эффективное вычисление представлений контекстуальных токенов, что невозможно с последовательными моделями, такими как RNN.

Несмотря на то, что эта статья лишь поверхностно описывает архитектуру Transformer, она позволяет заглянуть в ее фундаментальные аспекты. Для более полного понимания мы рекомендуем обратиться к оригинальной исследовательской статье или публикации The Illustrated Transformer.

Что такое кодеры и декодеры в ИИ?

Представьте, что у вас есть две модели, энкодер и декодер. работать вместе как команда. Кодер принимает ввод и превращает его в вектор фиксированной длины. Затем декодер берет этот вектор и преобразует его в выходную последовательность. Эти модели обучаются вместе, чтобы обеспечить максимально точное соответствие выходных данных входным данным.

И кодировщик, и декодер имели несколько уровней. Каждый уровень в кодере имел два подуровня: уровень самоконтроля с несколькими головками и простую сеть с прямой связью. Слой внутреннего внимания помогает каждому токену на входе понять взаимосвязь со всеми другими токенами. Эти подслои также имеют остаточное соединение и нормализацию слоев, чтобы сделать процесс обучения более плавным.

Мультиголовка декодера слой самоконтроля работает немного иначе, чем в энкодере. Он маскирует токены справа от токена, на котором фокусируется. Это гарантирует, что декодер просматривает только те токены, которые предшествуют тому, который он пытается предсказать. Это замаскированное многоголовое внимание помогает декодеру генерировать точные прогнозы. Кроме того, декодер включает в себя еще один подуровень, который представляет собой уровень внимания с несколькими головками для всех выходных данных кодера.

Важно отметить, что эти конкретные детали были изменены в различных вариантах модели Transformer. Такие модели, как BERT и GPT, например, основаны либо на кодировщике, либо на декодере исходной архитектуры.

Что такое уровни внимания в ИИ?

В архитектуре модели, которую мы обсуждали ранее, уровни внимания с несколькими головками являются особыми элементами, которые делают ее мощной. Но что такое внимание? Думайте об этом как о функции, которая сопоставляет вопрос с набором информации и дает результат. Каждый токен во входных данных имеет связанный с ним запрос, ключ и значение. Выходное представление каждого токена вычисляется путем взятия взвешенной суммы значений, где вес каждого значения определяется тем, насколько хорошо оно соответствует запросу.

Преобразователи используют функцию совместимости, называемую скалярным скалярным произведением, для вычисления этих весов. Интересная особенность внимания в Transformers заключается в том, что каждая лексема проходит свой собственный путь вычисления, что позволяет параллельно вычислять все лексемы во входной последовательности. Это просто несколько блоков внимания, которые независимо вычисляют представления для каждого токена. Затем эти представления объединяются для создания окончательного представления токена.

По сравнению с другими типами сетей, такими как рекуррентные и сверточные сети, уровни внимания имеют несколько преимуществ. Они вычислительно эффективны, то есть могут быстро обрабатывать информацию. Они также имеют более высокую связность, что полезно для фиксации долгосрочных отношений в последовательностях.

Что такое точно настроенные модели в ИИ?

Модели фундамента являются мощными моделями, которые обучаются на большом количестве общих данных. Затем их можно адаптировать или настроить для конкретных задач, обучая их на меньшем наборе упражнений. целевые данные. Этот подход, популяризированный Бумага BERT, привело к доминированию моделей на основе Transformer в задачах машинного обучения, связанных с языком.

В случае таких моделей, как BERT, они создают представления входных токенов, но сами по себе не выполняют определенные задачи. Чтобы сделать их полезными, дополнительные нейронные слои добавляются сверху, и модель обучается от начала до конца, процесс, известный как тонкая настройка. Однако с генеративные модели как и GPT, подход немного отличается. GPT — это языковая модель декодера, обученная предсказывать следующее слово в предложении. Обучаясь на огромных объемах веб-данных, GPT может генерировать разумные результаты на основе входных запросов или подсказок.

Чтобы сделать GPT более полезным, исследователи OpenAI разработали InstructGPT, который обучен следовать инструкциям человека. Это достигается за счет тонкой настройки GPT с использованием помеченных человеком данных из различных задач. InstructGPT способен выполнять широкий спектр задач и используется популярными движками, такими как ChatGPT.

Тонкую настройку можно также использовать для создания вариантов моделей фундамента, оптимизированных для конкретные цели помимо языкового моделирования. Например, есть модели, точно настроенные для задач, связанных с семантикой, таких как классификация текста и поисковый поиск. Кроме того, трансформаторные энкодеры были успешно настроены в многозадачном режиме. рамки обучения для выполнения нескольких семантических задач с использованием одной общей модели.

Сегодня тонкая настройка используется для создания версий базовых моделей, которые могут использоваться большим количеством пользователей. Процесс включает в себя генерацию ответов на запросы ввода и ранжирование результатов людьми. Этот рейтинг используется для обучения модель вознаграждения, который присваивает баллы каждому выходу. Обучение с подкреплением с обратной связью от человека затем используется для дальнейшего обучения модели.

Почему Трансформеры — будущее ИИ?

Трансформеры, тип мощной модели, впервые были продемонстрированы в области языкового перевода. Однако исследователи быстро поняли, что Transformers можно использовать для различных задач, связанных с языком, обучая их на большом количестве неразмеченного текста, а затем настраивая их на меньшем наборе размеченных данных. Такой подход позволил Трансформерам получить значительные знания о языке.

Архитектура Transformer, первоначально разработанная для языковых задач, также применялась к другим приложениям, таким как генерация изображений, аудио, музыку и даже действия. Это сделало трансформеров ключевым компонентом в области генеративного ИИ, который меняет различные аспекты жизни общества.

Доступность инструментов и фреймворков, таких как PyTorch и TensorFlow сыграл решающую роль в широком распространении моделей Transformer. Такие компании, как Huggingface, построили свой бизнес на идее коммерциализации библиотек Transformer с открытым исходным кодом, а специализированное оборудование, такое как тензорные ядра Hopper от NVIDIA, еще больше увеличило скорость обучения и вывода этих моделей.

Одним из заметных приложений Transformers является ChatGPT, чат-бот, выпущенный OpenAI. Он стал невероятно популярным, охватив миллионы пользователей за короткий период. OpenAI также объявила о выпуске GPT-4, более мощной версии, способной достигать человеческой производительности в таких задачах, как медицинские и юридические экзамены.

Влияние Трансформеров на область ИИ и их широкий спектр применения неоспоримы. У них есть изменил путь мы подходим к задачам, связанным с языком, и прокладываем путь к новым достижениям в области генеративного ИИ.

3 типа архитектур предварительного обучения

Архитектура Transformer, первоначально состоящая из кодировщика и декодера, эволюционировала, чтобы включать различные варианты, основанные на конкретных потребностях. Давайте разберем эти варианты простыми словами.

  1. Предварительная подготовка энкодера: эти модели сосредоточены на понимании полных предложений или отрывков. Во время предварительной подготовки кодировщик используется для восстановления замаскированных токенов во входном предложении. Это помогает модели научиться понимать общий контекст. Такие модели полезны для таких задач, как классификация текста, вывод и ответы на вопросы.
  2. Предварительная подготовка декодера: модели декодера обучаются генерировать следующий токен на основе предыдущей последовательности токенов. Они известны как авторегрессивные языковые модели. Слои внутреннего внимания в декодере могут получить доступ только к токенам перед данным токеном в предложении. Эти модели идеально подходят для задач, связанных с генерацией текста.
  3. Преобразователь (энкодер-декодер): этот вариант сочетает в себе компоненты кодировщика и декодера. Слои внутреннего внимания кодировщика могут получить доступ ко всем входным маркерам, тогда как уровни внутреннего внимания декодера могут получить доступ только к маркерам перед данным маркером. Эта архитектура позволяет декодеру использовать представления, полученные кодировщиком. Модели кодер-декодер хорошо подходят для таких задач, как обобщение, перевод или генеративный ответ на вопрос.

Цели предварительной подготовки могут включать шумоподавление или каузальное языковое моделирование. Эти задачи более сложны для моделей кодер-декодер по сравнению с моделями только для кодера или только для декодера. Архитектура Transformer имеет различные вариации в зависимости от направленности модели. Будь то понимание полных предложений, генерация текста или сочетание того и другого для различных задач, Transformers предлагает гибкость в решении различных языковых задач.

8 типов задач для предварительно обученных моделей

При обучении модели нам нужно поставить перед ней задачу или цель, из которой можно извлечь уроки. Существуют различные задачи обработки естественного языка (NLP), которые можно использовать для предварительного обучения моделей. Давайте разберем некоторые из этих задач в простых терминах:

  1. Языковое моделирование (LM): модель предсказывает следующий токен в предложении. Он учится понимать контекст и генерировать связные предложения.
  2. Моделирование каузального языка: модель предсказывает следующий токен в текстовой последовательности, следуя порядку слева направо. Это похоже на модель повествования, которая генерирует предложения по одному слову за раз.
  3. Моделирование языка префиксов: модель отделяет раздел «префикс» от основной последовательности. Он может обрабатывать любой токен в префиксе, а затем авторегрессивно генерирует остальную часть последовательности.
  4. Моделирование маскированного языка (MLM): некоторые токены во входных предложениях маскируются, и модель предсказывает отсутствующие токены на основе окружающего контекста. Оно учит заполнять пробелы.
  5. Моделирование пермутированного языка (PLM): модель предсказывает следующий токен на основе случайной перестановки входной последовательности. Он учится обрабатывать различные порядки токенов.
  6. Шумоподавляющий автоэнкодер (DAE): модель принимает частично искаженный ввод и стремится восстановить исходный неискаженный ввод. Он учится справляться с шумом или отсутствующими частями текста.
  7. Обнаружение замененного токена (RTD): модель определяет, исходит ли токен из исходного текста или из сгенерированной версии. Он учится идентифицировать замененные или измененные токены.
  8. Прогнозирование следующего предложения (NSP): модель учится различать, являются ли два входных предложения непрерывными сегментами из обучающих данных. Он понимает отношения между предложениями.

Эти задания помогают модели изучить структуру и значение языка. Предварительно обучая этим задачам, модели хорошо понимают язык, прежде чем их можно будет настроить для конкретных приложений.

30+ лучших трансформеров в AI

Имя и фамилия Архитектура предварительной подготовки Сложность задачи Заявление Разработанная
АЛЬБЕРТ кодировщик МЛМ/ПОШ То же, что БЕРТ Google
Альпака дешифратор LM Задачи генерации и классификации текста Стэнфордский
AlphaFold кодировщик Предсказание свертывания белка Сворачивание белка Deepmind
Антропный помощник (см. также) дешифратор LM От общего диалога до помощника по коду. Антропный
БАРТ Кодер/декодер DAE Задания на генерацию текста и понимание текста Facebook
БЕРТ кодировщик МЛМ/ПОШ Понимание языка и ответы на вопросы Google
Блендербот 3 дешифратор LM Задания на генерацию текста и понимание текста Facebook
BLOOM дешифратор LM Задания на генерацию текста и понимание текста Большая наука/Huggingface
ChatGPT дешифратор LM Диалоговые агенты OpenAI
шиншилла дешифратор LM Задания на генерацию текста и понимание текста Deepmind
CLIP кодировщик Классификация изображений/объектов OpenAI
CTRL дешифратор Управляемая генерация текста Salesforce
DALL-E дешифратор Предсказание титров Текст к изображению OpenAI
ДАЛЛ-Э-2 Кодер/декодер Предсказание титров Текст к изображению OpenAI
ДеБЕРТа дешифратор MLM То же, что БЕРТ Microsoft
Преобразователи решений дешифратор Предсказание следующего действия Общее RL (задачи обучения с подкреплением) Google/Калифорнийский университет в Беркли/FAIR
DialogGPT дешифратор LM Генерация текста в настройках диалога Microsoft
ДистилБЕРТ кодировщик МЛМ/ПОШ Понимание языка и ответы на вопросы Обнимающее лицо
DQ-БАРТ Кодер/декодер DAE Генерация и понимание текста Амазонка
Долли дешифратор LM Задачи генерации и классификации текста Databricks, Inc.
ЭРНИ кодировщик MLM Смежные задачи, требующие больших знаний Различные китайские учреждения
Фламинго дешифратор Предсказание титров Текст к изображению Deepmind
Галактика дешифратор LM Научный контроль качества, математические рассуждения, обобщение, генерация документов, предсказание молекулярных свойств и извлечение сущностей. Мета
GLIDE кодировщик Предсказание титров Текст к изображению OpenAI
GPT-3.5 дешифратор LM Диалог и общий язык OpenAI
GPTInstruct дешифратор LM Наукоемкие диалоги или языковые задания OpenAI
HTML Кодер/декодер DAE Языковая модель, позволяющая структурировать подсказки HTML Facebook
Изображение T5 Предсказание титров Текст к изображению Google
ЛАМДА дешифратор LM Общее языковое моделирование Google
ЛАМА дешифратор LM Рассуждения на основе здравого смысла, ответы на вопросы, генерация кода и понимание прочитанного. Мета
Minerva дешифратор LM Математические рассуждения Google
Пальма дешифратор LM Понимание языка и генерация Google
РОБЕРТа кодировщик MLM Понимание языка и ответы на вопросы UW/Google
Воробей дешифратор LM Диалоговые агенты и приложения для генерации общего языка, такие как вопросы и ответы Deepmind
Стабильная диффузия Кодер/декодер Предсказание подписи Текст к изображению LMU Мюнхен + Stability.ai + Eleuther.ai
Викунья дешифратор LM Диалоговые агенты Калифорнийский университет в Беркли, CMU, Стэнфорд, Калифорнийский университет в Сан-Диего и MBZUAI

Часто задаваемые вопросы

Что такое трансформеры в ИИ?

Трансформеры в ИИ — это тип архитектуры глубокого обучения, которая изменила обработку естественного языка и другие задачи. Они используют механизмы внутреннего внимания, чтобы зафиксировать взаимосвязь между словами в предложении, что позволяет им понимать и генерировать человеческий текст.

Что такое кодеры и декодеры в ИИ?

Кодировщики и декодеры — это компоненты, обычно используемые в моделях последовательностей. Кодировщики обрабатывают входные данные, такие как текст или изображения, и преобразуют их в сжатое представление, а декодеры генерируют выходные данные на основе закодированного представления, позволяя выполнять такие задачи, как языковой перевод или создание субтитров к изображениям.

Что такое уровни внимания в ИИ?

Слои внимания — это компоненты, используемые в нейронных сетях, особенно в моделях Transformer. Они позволяют модели выборочно фокусироваться на различных частях входной последовательности, присваивая веса каждому элементу в зависимости от его релевантности, что позволяет эффективно фиксировать зависимости и отношения между элементами.

Что такое точно настроенные модели в ИИ?

Под тонко настроенными моделями понимаются предварительно обученные модели, которые были дополнительно обучены конкретной задаче или набору данных, чтобы улучшить их производительность и адаптировать их к конкретным требованиям этой задачи. Этот процесс тонкой настройки включает в себя настройку параметров модели для оптимизации ее прогнозов и ее более специализированного выполнения для целевой задачи.

Почему за моделями-трансформерами будущее ИИ?

Трансформеры считаются будущим ИИ, потому что они продемонстрировали исключительную производительность в широком диапазоне задач, включая обработку естественного языка, создание изображений и многое другое. Их способность фиксировать долгосрочные зависимости и эффективно обрабатывать последовательные данные делает их легко адаптируемыми и эффективными для различных приложений, прокладывая путь к достижениям в области генеративного ИИ и революционизируя многие аспекты жизни общества.

Какие самые известные модели трансформеров в AI?

Самые известные модели преобразователей в ИИ включают BERT (представления двунаправленного кодировщика от преобразователей), GPT (генеративный предварительно обученный преобразователь) и T5 (преобразователь преобразования текста в текст). Эти модели достигли замечательных результатов в различных задачах обработки естественного языка и приобрели значительную популярность в сообществе исследователей ИИ.

Подробнее об ИИ:

Источник

Оставьте ответ

Ваш электронный адрес не будет опубликован.