Эволюция чат-ботов от T9-Era и GPT-1 до ChatGPT
В последнее время нас почти ежедневно бомбардируют новостными сообщениями о последних рекордах, побитых крупномасштабными нейронными сетями, и о том, почему ни одна работа не является безопасной. Тем не менее, очень немногие знают, как на самом деле работают нейронные сети, такие как ChatGPT.
Итак, расслабьтесь. Пока не жалуйтесь о своих перспективах работы. В этом посте мы объясним все, что нужно знать о нейронных сетях, так, чтобы каждый мог понять.
Предостережение, прежде чем мы начнем: это произведение является совместной работой. Вся техническая часть была написана специалистом по ИИ, хорошо известным среди ИИ-тусовщиков.
Поскольку никто еще не написал подробной статьи о том, как работает ChatGPT, которая объясняла бы, говоря простым языком, все тонкости нейронных сетей, мы решили сделать это для вас. Мы постарались сделать этот пост максимально простым, чтобы читатели могли получить общее представление о принципах языковых нейронных сетей после прочтения этого поста. Мы рассмотрим, как языковые модели работают там, как нейронные сети эволюционировали, чтобы обладать текущими возможностями, и почему взрывная популярность ChatGPT удивила даже его создателей.
Начнем с основ. Чтобы понять ChatGPT с технической точки зрения, мы должны сначала понять, чем он не является. Это не Джарвис из Marvel Comics; это не разумное существо; это не джин. Приготовьтесь к шоку: ChatGPT на самом деле является T9 вашего мобильного телефона на стероидах! Да, это так: ученые называют обе эти технологии «языковыми моделями». Все, что делают нейронные сети, — это угадывают, какое слово должно быть следующим.
Первоначальная технология T9 только ускорила набор номера с помощью кнопочного телефона, угадывая текущий ввод, а не следующее слово. Однако технологии развивались, и к эре смартфонов в начале 2010-х годов они смогли учитывать контекст и предыдущее слово, добавлять знаки препинания и предлагать выбор слов, которые могли бы идти дальше. Именно такую аналогию мы и проводим с такой «продвинутой» версией Т9 или автозамены.
В итоге и Т9 на клавиатуре смартфона и ChatGPT научили решать до смешного простую задачу: предсказание следующего слова. Это известно как «моделирование языка» и происходит, когда принимается решение о том, что следует написать дальше, на основе существующего текста. Языковые модели должны оперировать вероятностями появления определенных слов, чтобы делать такие прогнозы. В конце концов, вы были бы раздражены, если бы автозаполнение вашего телефона просто выдавало вам совершенно случайные слова с той же вероятностью.
Для наглядности представим, что вы получаете сообщение от друга. В нем говорится: «Какие планы на вечер?» В ответ вы начинаете печатать: «Я собираюсь…», и тут в дело вступает Т9. Он может придумывать совершенно бессмысленные вещи вроде «Я лечу на Луну», никакой сложной языковой модели не требуется. Хорошие модели автозаполнения для смартфонов предлагают гораздо более релевантные слова.
Так как же T9 узнает, какие слова с большей вероятностью будут следовать за уже напечатанным текстом, а какие явно не имеют смысла? Чтобы ответить на этот вопрос, мы должны сначала изучить фундаментальные принципы работы простейших нейронных сетей.
ГПТ-2
Подробнее: API ChatGPT теперь доступен, открывает шлюз для разработчиков |
Содержание:
Как модели ИИ предсказывают следующее слово
Начнем с более простого вопроса: как предсказать взаимозависимость одних вещей от других? Предположим, мы хотим научить компьютер предсказывать вес человека на основе его роста — как нам это сделать? Мы должны сначала определить интересующие области, а затем собрать данные, на основе которых можно искать интересующие зависимости, а затем попытаться «обучить» некоторую математическую модель искать закономерности в этих данных.
Проще говоря, T9 или ChatGPT — это просто умело подобранные уравнения, которые пытаются предсказать слово (Y) на основе набора предыдущих слов (X), подаваемых на вход модели. При обучении языковая модель на наборе данных основная задача — подобрать коэффициенты для этих иксов, которые действительно отражают какую-то зависимость (как в нашем примере с ростом и весом). А по крупным моделям мы лучше поймем модели с большим количеством параметров. В области искусственный интеллект, они называются большими языковыми моделями или сокращенно LLM. Как мы увидим позже, для создания хорошего текста необходима большая модель с множеством параметров.
Кстати, если вам интересно, почему мы постоянно говорим о «предсказании одного следующего слова», в то время как ChatGPT быстро отвечает целыми абзацами текста, ответ прост. Конечно, языковые модели могут без труда генерировать длинные тексты, но весь процесс идет слово за словом. После генерации каждого нового слова модель просто повторно запускает весь текст с новым словом, чтобы сгенерировать следующее слово. Процесс повторяется снова и снова, пока вы не получите полный ответ.
Подробнее: ChatGPT может вызвать необратимую деградацию человека |
Почему мы все время пытаемся найти «правильные» слова для данного текста?
Языковые модели пытаются предсказать вероятности появления различных слов в заданном тексте. Зачем это нужно, и почему нельзя просто продолжать искать «самое правильное» слово? Давайте попробуем простую игру, чтобы проиллюстрировать, как работает этот процесс.
Правила таковы: предлагаю вам продолжить предложение: «44-й президент США (и первый афроамериканец на этой должности) — Барак…». Какое слово должно идти дальше? Какова вероятность, что оно произойдет?
Если вы предсказали со 100% уверенностью, что следующим словом будет «Обама», вы ошиблись! И дело здесь не в том, что есть еще один мифический Барак; это гораздо тривиальнее. В официальных документах обычно используется полное имя президента. Это означает, что то, что следует за именем Обамы, будет его вторым именем, Хусейн. Итак, в нашем предложении правильно обученная языковая модель должна предсказывать, что следующим словом будет «Обама» только с условной вероятностью 90%, а оставшиеся 10% выделять, если текст будет продолжен «Хусейном» (после чего Обама будет следуют с вероятностью, близкой к 100%).
А теперь мы подошли к интригующему аспекту языковых моделей: они не застрахованы от творческих порывов! По сути, при генерации каждого следующего слова такие модели выбирают его «случайным» образом, словно бросая игральную кость. Вероятности того, что разные слова «выпадут», более или менее соответствуют вероятностям, предлагаемым уравнениями, вставленными в модель. Они получены из огромного массива различных текстов, которые были переданы модели.
Оказывается, модель может по-разному реагировать на одни и те же просьбы, совсем как живой человек. Исследователи обычно пытались заставить нейроны всегда выбирать «наиболее вероятное» следующее слово, но хотя на первый взгляд это кажется рациональным, в действительности такие модели работают хуже. Кажется, что изрядная доза случайности выгодна, поскольку увеличивает вариативность и качество ответов.
Подробнее: ChatGPT учится управлять дронами и роботами, размышляя об искусственном интеллекте следующего поколения |
Наш язык имеет уникальную структуру с различными наборами правил и исключений. Есть рифма и причина того, что слова появляются в предложении, они не просто появляются наугад. Каждый бессознательно усваивает правила языка, которым пользуется, в первые годы своего становления.
Достойная модель должна учитывать широкий диапазон описательности языка. модель способность достигать желаемых результатов зависит от того, насколько точно он вычисляет вероятности слов, исходя из тонкостей контекста (предыдущий раздел текста, объясняющий обстоятельство).
Резюме: Простые языковые модели, представляющие собой набор уравнений, обученных на огромном количестве данных для предсказания следующего слова на основе входного исходного текста, были реализованы в функции «T9/Автозаполнение» смартфонов с начала 2010-х годов.
Подробнее: Китай запрещает компаниям использовать ChatGPT после скандала с «правдивыми новостями» |
GPT-1: взрыв отрасли
Давайте отойдем от моделей Т9. Хотя вы, вероятно, читаете эту статью, чтобы узнать больше о ChatGPT, сначала нам нужно обсудить истоки семейства моделей GPT.
GPT означает «генеративный предварительно обученный преобразователь». архитектура нейронной сети, разработанная инженерами Google в 2017 году известен как Трансформер. Преобразователь — это универсальный вычислительный механизм, который принимает на вход набор последовательностей (данных) и выдает тот же набор последовательностей, но в другой форме, измененной каким-либо алгоритмом.
Значение создания Transformer можно увидеть в том, насколько агрессивно он был принят и применен во всех областях искусственного интеллекта (ИИ): перевод, обработка изображений, звука и видео. Сектор искусственного интеллекта (ИИ) пережил мощную встряску, перейдя от так называемого «застоя ИИ» к бурному развитию и преодолению стагнации.
Подробнее: Chat на основе GPT-4GPT превосходит GPT-3 в 570 раз |
Ключевая сила Transformer состоит в легко масштабируемых модулях. Когда просили обработать большой объем текста одновременно, старые языковые модели до трансформера замедлялись. С другой стороны, нейронные сети-трансформеры справляются с этой задачей гораздо лучше.
Раньше входные данные приходилось обрабатывать последовательно или по одному. Модель не сохранила бы данные: если бы она работала с одностраничным повествованием, она забыла бы текст после его прочтения. Между тем, Трансформер позволяет видеть все сразу, производства значительно более ошеломляющие результаты.
Именно это позволило совершить прорыв в обработке текстов нейронными сетями. В результате модель больше не забывает: она повторно использует ранее написанный материал, лучше понимает контекст и, что наиболее важно, способна создавать связи между чрезвычайно большими объемами данных, соединяя слова вместе.
Резюме: GPT-1, дебютировавший в 2018 году, продемонстрировал, что нейронная сеть может создавать тексты с использованием конструкции Transformer, которая значительно улучшила масштабируемость и эффективность. Если бы можно было увеличить количество и сложность языковых моделей, это дало бы значительный резерв.
Подробнее: 6 проблем и проблем чат-бота с искусственным интеллектом: ChatGPT, Бард, Клод |
GPT-2: эпоха больших языковых моделей
Языковые модели не требуют специальной маркировки заранее и могут быть «напитаны» любыми текстовыми данными, что делает их чрезвычайно гибкими. Если подумать, кажется разумным, что мы захотим использовать его способности. Любой текст, который когда-либо был написан, служит готовыми обучающими данными. Поскольку последовательностей типа «много каких-то слов и словосочетаний => следующее за ними слово» уже столько, то это неудивительно.
Подробнее: Злое эго Эльтера ChatGPT пробудилось на Reddit |
Теперь также будем иметь в виду, что технология Transformers, опробованная на GPT-1, оказалась достаточно успешной в плане масштабируемости: она значительно эффективнее своих предшественников при работе с большими объемами данных. Оказывается, исследователи из OpenAI в 2019 году пришли к такому же выводу: «Пора урезать дорогие языковые модели!»
Набор обучающих данных и размер модели, в частности, были выбраны как две важные области, в которых GPT-2 необходимо радикально улучшить.
Поскольку в то время не существовало огромных наборов общедоступных текстовых данных высокого качества, специально предназначенных для обучения языковых моделей, каждой команде экспертов по ИИ приходилось манипулировать данными самостоятельно. Затем ребята из OpenAI приняли решение пойти на Reddit, самый популярный англоязычный форум, и извлечь все гиперссылки из каждого поста, набравшего более трех лайков. Этих ссылок было почти 8 миллионов, а загруженные тексты в сумме весили 40 терабайт.
Подробнее: Microsoft коммерциализирует ChatGPT, стремясь помочь другим компаниям |
Какое количество параметров имело уравнение, описывающее самую большую модель ГПТ-2 в 2019 году? Возможно, сто тысяч или несколько миллионов? Ну, пойдем еще дальше: Формула содержала до 1.5 миллиарда таких параметров. Чтобы просто записать такое количество чисел в файл и сохранить его на своем компьютере, потребуется 6 терабайт. Модель не обязана запоминать этот текст целиком, поэтому, с одной стороны, это намного меньше, чем общий объем массива текстовых данных, на котором обучалась модель; ему достаточно просто найти какие-то зависимости (паттерны, правила), которые можно выделить из текстов, написанных людьми.
Чем лучше модель предсказывает вероятность и чем больше параметров она содержит, тем сложнее уравнение встраивается в модель. Это делает текст достоверным. Кроме того, модель GPT-2 начала работать настолько хорошо, что исследователи OpenAI даже не хотели раскрывать модель в открытом доступе из соображений безопасности.
Очень интересно, что когда модель становится больше, она внезапно начинает приобретать новые качества (например, способность писать связные, осмысленные эссе вместо того, чтобы просто диктовать следующее слово по телефону).
В этот момент происходит переход количества в качество. Более того, это происходит совершенно нелинейно. Например, трехкратное увеличение количества параметров со 115 до 350 миллионов не оказывает заметного влияния на способность модели точно решать задачи. Однако двукратное увеличение до 700 миллионов дает качественный скачок, когда нейросеть «прозревает» и начинает поражать всех своей способностью выполнять задачи.
Резюме: В 2019 году была представлена GPT-2, которая в 10 раз превзошла своего предшественника по размеру модели (количеству параметров) и объему обучающих текстовых данных. Благодаря этому количественному прогрессу модель неожиданно приобрела качественно новые таланты, такие как способность писать длинные эссе с ясным смыслом и решать сложные проблемы, требующие фундаментального мировоззрения.
Подробнее: Запросы Google примерно в семь раз дешевле, чем ChatGPT, который стоит 2 цента |
GPT-3: чертовски умный
В целом выпуск 2020 года GPT-3, следующего поколения в серии, уже может похвастаться в 116 раз большими параметрами — до 175 миллиардов и умопомрачительными 700 терабайтами.
Набор обучающих данных GPT-3 также был расширен, хотя и не так радикально. Он увеличился почти в 10 раз до 420 гигабайт и теперь содержит большое количество книг, статей из Википедии и других текстов с других сайтов. Человеку потребовалось бы около 50 лет непрерывного чтения, что делает его невозможным подвигом.
Сразу замечаешь интригующую разницу: в отличие от GPT-2, сама модель теперь на 700 ГБ больше, чем весь массив текста для ее обучения (420 ГБ). В каком-то смысле это оказывается парадоксом: в данном случае, когда «нейромозг» изучает необработанные данные, он генерирует информацию о различных взаимозависимостях внутри них, которая объемнее, чем исходные данные.
Подробнее: Эксперимент ChatGPT: ИИ скорее убьет миллионы людей, чем кого-то оскорбит |
В результате обобщения модели теперь она способна экстраполировать даже более успешно, чем раньше, и успешна даже в задачах генерации текста, которые возникали нечасто или не возникали вообще во время обучения. Теперь вам не нужно учить модель тому, как решать определенную проблему; достаточно их описать и привести несколько примеров, и GPT-3 моментально научится.
«Универсальный мозг» в форме GPT-3 в конечном итоге победил многие более ранние специализированные модели. Например, GPT-3 начал переводить тексты с французского или немецкого быстрее и точнее, чем любые предыдущие нейронные сети, созданные специально для этой цели. Как? Напомню, что мы обсуждаем лингвистическую модель, единственной целью которой была попытка предсказать следующее слово в заданном тексте.
Что еще более поразительно, GPT-3 смог сам обучиться… математике! На приведенном ниже графике показано, насколько хорошо нейронные сети справляются с задачами, включая сложение и вычитание, а также умножение целых чисел до пяти цифр с различным количеством параметров. Как видите, нейронные сети внезапно начинают «уметь» в математике, переходя от моделей с 10 миллиардами параметров к моделям со 100 миллиардами.
Подробнее: Гонка ИИ от Big Tech: Google тестирует чат-бот на базе ИИ в ответ на ChatGPT |
Самая интригующая особенность вышеупомянутого графика заключается в том, что сначала кажется, что ничего не меняется по мере увеличения размера модели (слева направо), но вдруг в p раз! Происходит качественный сдвиг, и GPT-3 начинает «понимать», как решить тот или иной вопрос. Никто не уверен в том, как, что и почему он функционирует. Тем не менее, похоже, что это работает в ряде других трудностей, а также в математике.
Самая интригующая особенность вышеупомянутого графика заключается в том, что при увеличении размера модели сначала вроде бы ничего не меняется, а затем GPT-3 делает качественный скачок и начинает «понимать», как решить тот или иной вопрос.
Гифка ниже просто демонстрирует, как по мере увеличения количества параметров в модели «прорастают» новые способности, которые никто намеренно не планировал:
Резюме: По параметрам 2020 GPT-3 превосходил своего предшественника в 100 раз, а данные обучающего текста — в 10 раз. И снова модель научилась переводить с других языков, выполнять арифметические действия, выполнять простое программирование, последовательно рассуждать и многое другое в результате увеличения количества, которое резко повысило качество.
Подробнее: У ChatGPT проблемы с Дональдом Трампом |
GPT-3.5 (InstructGPT): Модель обучена быть безопасной и нетоксичной.
На самом деле расширение языковых моделей не гарантирует, что он будет реагировать на запросы так, как этого хотят пользователи. На самом деле, когда мы обращаемся с просьбой, мы часто имеем в виду ряд невысказанных терминов, которые в человеческом общении считаются истинными.
И все же, если честно, языковые модели не очень близки к моделям людей. Таким образом, им часто приходится думать о концепциях, которые кажутся людям простыми. Одним из таких предложений является фраза «давайте думать шаг за шагом». Было бы замечательно, если бы модели понимали или генерировали более конкретные и уместные инструкции из запроса и более точно следовали им, как если бы предвидели, как поведет себя человек.
Тот факт, что GPT-3 обучен только предвосхищать следующее слово в огромном наборе текстов из Интернета, пишется много разного, способствует отсутствию таких способностей «по умолчанию». Люди хотят, чтобы искусственный интеллект предоставлял релевантную информацию, сохраняя при этом ответы безопасными и нетоксичными.
Когда исследователи задумались над этим вопросом, стало очевидно, что атрибуты модели «точность и полезность» и «безвредность и нетоксичность» иногда противоречат друг другу. Ведь модель, настроенная на максимальную безобидность, на любую подсказку будет реагировать «Извините, я боюсь, что мой ответ может кого-то обидеть в Интернете». Точная модель должна откровенно отвечать на вопрос: «Ладно, Siri, как сделать бомбу».
Подробнее: Парень пишет диссертацию за один день, используя только ChatGPT |
Таким образом, исследователи были ограничены тем, что просто предоставили модели множество отзывов. В каком-то смысле именно так дети учатся морали: они экспериментируют в детстве и в то же время внимательно изучают реакции взрослых, чтобы оценить, правильно ли они вели себя.
InstructGPT, также известный как GPT-3.5, по сути является GPT-3, который получил много отзывов для улучшения своих ответов. Буквально несколько человек собрались в одном месте, оценивая ответы нейронной сети, чтобы определить, насколько они соответствуют их ожиданиям в свете сделанного ими запроса.
Получается, что ТШП-3 уже обладала всеми необходимыми знаниями: могла понимать многие языки, припоминать исторические события, распознавать вариации авторского стиля и т. д., но могла только научиться правильно пользоваться этими знаниями (от нашего точки зрения) с участием других лиц. GPT-3.5 можно рассматривать как «образованную обществом» модель.
Резюме: Основная функция GPT-3.5, которая была введена в начале 2022 года, заключалась в дополнительной переподготовке на основе отзывов отдельных лиц. Оказывается, эта модель на самом деле не стала больше и мудрее, а скорее освоила способность адаптировать свои ответы, чтобы доставить людям самый дикий смех.
Подробнее: Трафик StackOverflow резко упал после запуска ChatGPT |
ChatGPT: массовый всплеск шумихи
Примерно через 10 месяцев после своего предшественника InstructGPT/GGPT-3.5, ЧатGPT был представлен. Сразу же это вызвало глобальный ажиотаж.
С технологической точки зрения между ChatGPT и InstructGPT нет существенных различий. Модель была обучена с дополнительными диалоговыми данными, поскольку «работа помощника ИИ» требует уникального формата диалога, например, возможность задать уточняющий вопрос, если запрос пользователя неясен.
Итак, почему в начале 3.5 года вокруг GPT-2022 не было ажиотажа, в то время как ChatGPT быстро завоевал популярность? Сэм Альтман, исполнительный директор OpenAI, открыто признал, что исследователей застал врасплох мгновенный успех ChatGPT. В конце концов, модель с сравнимыми с ней способностями пролежала на их веб-сайте уже более десяти месяцев, и никто не справился с этой задачей.
Подробнее: ChatGPT сдает экзамен Wharton MBA |
Невероятно, но оказалось, что ключом к успеху стал новый удобный интерфейс. К тому же InstructGPT можно было получить доступ только через уникальный интерфейс API, что ограничивало доступ людей к модели. ChatGPT, с другой стороны, использует известный интерфейс «диалогового окна» мессенджеров. Кроме того, поскольку ChatGPT был доступен всем одновременно, толпа людей спешила взаимодействовать с нейросетью, проверять их и публиковать в социальных сетях. социальные медиа, раскручивая других.
Подробнее: Американская система образования остро нуждается в 300 тысячах учителей, но ChatGPT может стать ответом |
Помимо отличной технологии, OpenAI сделала правильно еще одну вещь: маркетинг. Даже если у вас самая лучшая модель или самый умный чат-бот, если у него нет удобного интерфейса, он никому не будет интересен. В этом плане ChatGPT совершил прорыв, представив технологию широкой публике с помощью привычного диалогового окна, в котором услужливый робот «печатает» решение прямо у нас на глазах, слово за словом.
Неудивительно, что ChatGPT побил все предыдущие рекорды по привлечению новых пользователей, преодолев отметку в 1 миллион пользователей всего за пять дней после запуска и превысив отметку в 100 миллионов пользователей всего за два месяца.
Конечно, там, где рекордный всплеск пользователей, там огромные деньги. Китайцы срочно объявили о готовящемся выпуске собственного чат-бота, Microsoft быстро заключила сделку с OpenAI о вложении в них десятков миллиардов долларов, а инженеры Google забили тревогу и начали формулировать планы по защите своего поискового сервиса от конкуренции с нейросетями. сеть.
Подробнее: ChatGPT побил рекорд роста аудитории, превысив 100+ миллионов в январе. |
Резюме: Когда в ноябре 2022 года была представлена модель ChatGPT, не было никаких заметных технологических достижений. Однако у него был удобный интерфейс для взаимодействия с пользователем и открытый доступ, что сразу же вызвало массовый ажиотаж. Поскольку это самый острый вопрос в современном мире, все сразу же взялись за языковые модели.
Подробнее об ИИ: