Просочившиеся детали GPT-4 проливают свет на его огромные масштабы и впечатляющую архитектуру
Отредактировано и проверено фактами
Коротко
Утечка информации о GPT-4 вызвала волнение в ИИ-сообществе. Имея параметры своего предшественника, GPT-10, более чем в 3 раз, GPT-4, по оценкам, имеет 1.8 триллиона параметров, распределенных по 120 слоям.
OpenAI реализовал модель смешанных экспертов (MoE), используя 16 экспертов с 111 миллиардами параметров для многослойных персептронов (MLP). Эффективный процесс логического вывода модели использует 280 миллиардов параметров и 560 терафлопов на прямой проход, что демонстрирует стремление OpenAI к максимальной эффективности и рентабельности. Набор обучающих данных модели включает 13 триллионов токенов с тонкой настройкой от 8 до 32 тысяч.
OpenAI использовала параллелизм в GPT-4, чтобы использовать весь потенциал своих графических процессоров A100, применяя 8-сторонний тензорный параллелизм и 15-сторонний конвейерный параллелизм. Учебный процесс был обширным и ресурсоемким, а его стоимость варьировалась от 32 до 63 миллионов долларов.
Стоимость логического вывода GPT-4 примерно в три раза выше, чем у его предшественника, но он также включает внимание к нескольким запросам, непрерывную пакетную обработку и спекулятивное декодирование. Архитектура логического вывода работает на кластере из 128 графических процессоров, распределенных по нескольким центрам обработки данных.
Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.
Недавняя утечка подробностей о GPT-4 потрясла сообщество ИИ. Утечка информации, полученная из нераскрытого источника, дает представление о впечатляющих возможностях и беспрецедентном масштабе этой новаторской модели. Мы разберем факты и раскроем ключевые аспекты, которые делают GPT-4 настоящим технологическим чудом.
Отредактировано и проверено фактами
Содержание:
Огромный подсчет параметров GPT-4
Одним из самых поразительных открытий утечки является огромная величина GPT-4. Он может похвастаться поразительными размерами, более чем в 10 раз превышающими параметры своего предшественника, GPT-3. По оценкам, его общее количество составляет примерно 1.8. триллион параметров распределяется по впечатляющим 120 слоям. Это существенное увеличение масштаба, несомненно, способствует Расширенные возможности GPT-4 и потенциал для новаторских достижений.
Модель смешанных экспертов (MoE)
Чтобы обеспечить разумные затраты при сохранении исключительной производительности, OpenAI внедрила смешанную модель экспертов (MoE) в GPT-4. Используя 16 экспертов в рамках модели, каждый из которых содержит около 111 миллиардов параметров для многоуровневых персептронов (MLP), OpenAI эффективно оптимизировал распределение ресурсов. Примечательно, что во время каждого прямого прохода маршрутизируются только два эксперта, что сводит к минимуму вычислительные требования без ущерба для результатов. Этот инновационный подход демонстрирует стремление OpenAI максимизировать эффективность и рентабельность своих моделей.
Очень интересная и подробная утечка архитектуры GPT-4, с отличным анализом ее причин и последствий — автор @dylan522p :https://t.co/eHE7VlGY5V
Резюме без платного доступа можно найти здесь: https://t.co/rLxw5s9ZDt
— Ян П. Харрис (@jphme) Июль 11, 2023
Упрощенный алгоритм маршрутизации MoE
В то время как модель часто исследует расширенные алгоритмы маршрутизации для выбора экспертов для обработки каждого токена, подход OpenAI в текущей модели GPT-4, как сообщается, более прост. Алгоритм маршрутизации, используемый ИИ, считается относительно простым, но, тем не менее, эффективным. Приблизительно 55 миллиардов общих параметров внимания облегчают эффективное распределение токенов среди соответствующих экспертов в рамках модели.
Эффективный вывод
Процесс логического вывода GPT-4 демонстрирует свою эффективность и вычислительные возможности. Каждый прямой проход, предназначенный для создания одного токена, использует примерно 280 миллиардов параметров и 560 TFLOP (тера операций с плавающей запятой в секунду). Это резко контрастирует с огромными масштабами GPT-4 с его 1.8 триллионами параметров и 3,700 TFLOP на прямой проход в чисто плотной модели. Эффективное использование ресурсов подчеркивает приверженность OpenAI достижению оптимальной производительности без чрезмерных вычислительных требований.
Обширный набор обучающих данных
GPT-4 был обучен на колоссальном наборе данных, содержащем примерно 13 триллионов токенов. Важно отметить, что эти токены включают в себя как уникальные токены, так и токены, учитывающие номера эпох. тренировочный процесс включает две эпохи для текстовых данных и четыре эпохи для кодовых данных. OpenAI использовала миллионы строк инструкций для точной настройки данных, полученных из ScaleAI и внутренних данных, для повышения производительности модели.
Уточнение с помощью тонкой настройки от 8K до 32K
На этапе предварительной подготовки GPT-4 использовалась длина контекста 8 КБ. Впоследствии модель подверглась доводке, в результате чего появилась версия 32к. Эта последовательность основывается на этапе предварительной подготовки, расширяя возможности модели и адаптируя ее к конкретным задачам.
Масштабирование с помощью графических процессоров через параллелизм
OpenAI использовала возможности параллелизма в GPT-4, чтобы использовать весь потенциал своих графических процессоров A100. Они использовали 8-сторонний тензорный параллелизм, который максимизирует параллельную обработку, поскольку это предел для NVLink. Кроме того, для дальнейшего повышения производительности использовался 15-канальный параллелизм конвейера. Хотя, вероятно, использовались определенные методы, такие как ZeRo Stage 1, точная методология остается нераскрытой.
Стоимость обучения и проблемы использования
Обучение GPT-4 было масштабным и ресурсоемким мероприятием. OpenAI выделил около 25,000 100 графических процессоров A90 в течение периода от 100 до 32 дней, работая с коэффициентом использования примерно от 36% до 1% MFU (наиболее часто используемый). Тренировочный процесс сопровождался многочисленными сбоями, что требовало частых перезапусков с контрольных точек. Если оценивается в 100 доллар США за час AXNUMX, расходы на обучение один только этот пробег составил бы примерно 63 миллиона долларов.
Компромиссы в сочетании экспертов
Реализация смешанной модели экспертов сопряжена с несколькими компромиссами. В случае с GPT-4 OpenAI выбрала 16 экспертов вместо большего количества. Это решение отражает баланс между достижением превосходных результатов по потерям и обеспечением универсальности для различных задач. Больше экспертов могут представлять проблемы с точки зрения обобщения и конвергенции задач. Выбор OpenAI для тренировок осторожность в эксперте выбор соответствует их приверженности надежной и надежной работе.
Стоимость вывода
По сравнению со своей предшественницей, моделью Давинчи со 175 миллиардами параметров, стоимость логического вывода GPT-4 примерно в три раза выше. Это несоответствие может быть связано с несколькими факторами, включая более крупные кластеры, необходимые для поддержки GPT-4, и более низкую загрузку, достигнутую во время логического вывода. Оценки показывают приблизительную стоимость 0.0049 цента за 1,000 токенов для 128 графических процессоров A100 и 0.0021 цента за 1,000 токенов для 128 графических процессоров H100 при выводе GPT-4 с 8k. Эти цифры предполагают достаточную загрузку и большие объемы партий, что является решающим фактором для оптимизации затрат.
Внимание с несколькими запросами
OpenAI использует внимание к нескольким запросам (MQA), метод, широко используемый в этой области, в том числе и в GPT-4. За счет реализации MQA модель требует только одну головку, что значительно снижает объем памяти, необходимый для кэша ключ-значение (кеш KV). Несмотря на эту оптимизацию, следует отметить, что пакет GPT-32 размером 4 тыс.
Непрерывное дозирование
Чтобы найти баланс между задержкой и затратами на вывод, OpenAI включает в себя как переменные размеры пакетов, так и непрерывную пакетную обработку в GPT-4. Этот адаптивный подход обеспечивает гибкую и эффективную обработку, оптимизируя использование ресурсов и снижая вычислительные затраты.
Мультимодальное видение
GPT-4 вводит отдельный видеокодер рядом с текстовым кодировщиком, обеспечивая перекрестное внимание между ними. Эта архитектура, напоминающая Flamingo, добавляет дополнительные параметры к уже впечатляющим 1.8 триллионам параметров GPT-4. Модель видения подвергается отдельной тонкой настройке с использованием примерно 2 триллионов токенов после этапа предварительной подготовки только для текста. Эта возможность видения позволяет автономным агентам читать веб-страницы, расшифровывать изображения и интерпретировать видеоконтент — бесценный актив в эпоху мультимедийных данных.
Спекулятивное декодирование
Интересным аспектом стратегии вывода GPT-4 является возможное использование спекулятивного декодирования. Этот подход предполагает использование меньшего, более быстрого модель заранее генерировать прогнозы для нескольких токенов. Эти предсказанные токены затем передаются в более крупную модель «оракула» в виде единого пакета. Если меньше предсказания модели в соответствии с соглашением более крупной модели несколько токенов могут быть декодированы вместе. Однако, если более крупная модель отклоняет токены, предсказанные черновой моделью, остальная часть пакета отбрасывается, и вывод продолжается только с более крупной моделью. Этот подход позволяет эффективно декодировать, потенциально допуская последовательности с более низкой вероятностью. Стоит отметить, что это предположение остается неподтвержденным в настоящее время.
Архитектура логического вывода
Процесс логического вывода GPT-4 работает на кластере из 128 графических процессоров, распределенных по нескольким центрам обработки данных в разных местах. Эта инфраструктура использует 8-сторонний тензорный параллелизм и 16-сторонний конвейерный параллелизм для максимальной эффективности вычислений. Каждый узел, состоящий из 8 графических процессоров, вмещает около 130 миллиардов параметров. При размере модели в 120 слоев GPT-4 может поместиться в пределах 15 различных узлов, возможно, с меньшим количеством слоев в первом узле из-за необходимости вычисления вложений. Эти варианты архитектуры способствуют высокопроизводительному выводу, демонстрируя стремление OpenAI расширять границы вычислительной эффективности.
Размер и состав набора данных
GPT-4 был обучен на впечатляющих 13 триллионах токенов, что дало ему обширный набор текстов для обучения. Однако не все токены могут быть учтены известными наборами данных, использованными во время обучения. Хотя наборы данных, такие как CommonCrawl и RefinedWeb, вносят значительный вклад в данные обучения, остается часть неучтенных токенов, часто именуемых «секретными» данными.
Слухи и домыслы
Возникли предположения относительно происхождения этих нераскрытых данных. Ходят слухи, что он включает в себя контент с популярных платформ, таких как Twitter, Reddit и YouTube, что подчеркивает потенциальное влияние пользовательского контента на формирование базы знаний GPT-4. Кроме того, есть предположения, связанные с включением обширных коллекций, таких как LibGen, хранилище миллионов книг, и Sci-Hub, платформа, обеспечивающая доступ к многочисленным научным работам. Представление о том, что GPT-4 обучался на всем GitHub, также распространено среди энтузиастов ИИ.
Мнение репортера
Хотя ходит много слухов, важно подходить к этим слухам с осторожностью. Обучение GPT-4, возможно, значительно выиграло от специального набора данных, состоящего из учебников колледжа. Этот набор данных, охватывающий широкий спектр курсов и предметов, мог быть тщательно собран вручную. Учебники для колледжей представляют собой структурированную и всеобъемлющую базу знаний, которая может быть успешно использована для обучения языковой модели и легко конвертируется в текстовые файлы. Включение такого набора данных может создать впечатление, что GPT-4 хорошо разбирается в различных областях.
Увлечение знаниями GPT-4
Одним из интригующих аспектов обучения GPT-4 является его способность демонстрировать знакомство с конкретными книгами и даже вспоминать уникальные идентификаторы с таких платформ, как Project Euler. Исследователи попытались извлечь из GPT-4 запомненные разделы книг, чтобы получить представление о его обучении, что еще больше подогрело любопытство к внутренней работе модели. Эти открытия подчеркивают поразительную способность GPT-4 сохранять информацию и подчеркивают впечатляющие возможности крупномасштабных языковых моделей.
Универсальность GPT-4
Широкий спектр тем и областей, с которыми может работать GPT-4, демонстрирует его универсальность. Будь то ответы на сложные вопросы в области информатики или погружение в философские дебаты, обучение GPT-4 на разнообразном наборе данных дает ему возможность взаимодействовать с пользователями из разных областей. Эта универсальность связана с его доступом к огромному количеству текстовых ресурсов, что делает его ценным инструментом для широкого круга пользователей.
Подробнее об ИИ: