Исследователи открыли новый способ обнаружения текста, сгенерированного искусственным интеллектом
Отредактировано и проверено фактами
Коротко
Исследователи разработали метод обнаружения сгенерированного ИИ текста с использованием модели RoBERTa, которая извлекает вложения текстовых токенов и визуализирует их в виде точек в многомерном пространстве.
Они обнаружили, что текст, сгенерированный моделями GPT-3.5, такими как ChatGPT и Davinci, имеет значительно меньшие средние размеры, чем текст, написанный человеком.
Исследователи создали надежный детектор на основе измерений, устойчивый к обычным методам уклонения.
Точность детектора оставалась неизменно высокой при изменении доменов и моделей с фиксированным порогом и падением точности на 40% при использовании метода DIPPER.
Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.
Исследователи исследовали область текста, сгенерированного ИИ, и разработал метод обнаружения контента, генерируемого ИИ такие модели, как GPT и Лама. Они обнаружили интересные сведения о природе генерируемого текста, используя концепцию дробной размерности. Их результаты проливают свет на неотъемлемые различия между текстом, написанным людьми, и текстом, созданным моделями ИИ.
Отредактировано и проверено фактами
Может ли измерение облака точек, полученное из текста на естественном языке, предоставить полезную информацию о его происхождении? Исследователи использовали модель RoBERTa для извлечения вложений текстовых токенов и визуализации их в виде точек в многомерном пространстве. Они оценили дробный размер этих облаков точек, используя сложные методы, вдохновленные предыдущими работами.
Исследователи были поражены, обнаружив, что текст, сгенерированный моделями GPT-3.5, такими как ChatGPT и Davinci, имели значительно меньшие средние размеры, чем текст, написанный человеком. Эта интригующая закономерность сохранялась в разных доменах и даже при использовании альтернативных моделей, таких как GPT-2 или OPT. Примечательно, что даже при использовании парафраза DIPPER, который специально разработан, чтобы избежать обнаружения, размерность изменилась только примерно на 3%. Эти открытия позволили исследователям создать надежный детектор на основе измерений, устойчивый к обычным методам уклонения.
Примечательно, что точность детектора оставалась неизменно высокой при смене доменов и моделей. При фиксированном пороге точность обнаружения (истинно положительные результаты) оставалась выше 75 %, а ложноположительные результаты (FPR) оставались менее 1 %. Даже когда система обнаружения была дополнена методом DIPPER, точность упала до 40%, превзойдя существующие детекторы, в том числе разработанные OpenAI.
Кроме того, исследователи изучили применение многоязычных моделей, таких как многоязычная RoBERTa. Это позволило им разработать аналогичные детекторы для языков, отличных от английского. В то время как средний внутренний размер вложений различался для разных языков, размер сгенерированных текстов оставался неизменно ниже, чем у написанного человеком текста для каждого конкретного языка.
Однако у детектора были некоторые недостатки, особенно при работе с высокими температурами генерации и примитивными модели генераторов. При более высоких температурах внутренний размер сгенерированного текста может превысить размер текста, написанного человеком, что сделает детектор неэффективным. К счастью, такие модели генераторов уже можно обнаружить с помощью альтернативных методов. Кроме того, исследователи признали, что существует возможность изучения альтернативных моделей извлечения вложений текста помимо RoBERTa.
Различие между текстом, написанным человеком и текстом, написанным искусственным интеллектом
В январе OpenAI объявленный запуск нового классификатора, предназначенного для различения текста, написанного людьми, и текста, сгенерированного системами ИИ. Этот классификатор направлен на решение проблем, связанных с растущим распространением контента, созданного ИИ, таких как кампании по дезинформации и академическая нечестность.
Хотя обнаружение всего текста, написанного ИИ, является сложной задачей, этот классификатор служит ценным инструментом для смягчения ложных заявлений об авторстве человека в тексте, сгенерированном ИИ. Тщательно проанализировав набор текстов на английском языке, разработчики обнаружили, что этот классификатор точно идентифицирует 26 % написанного ИИ текста как «вероятно написанный ИИ» (истинные положительные результаты), в то время как иногда ошибочно маркирует текст, написанный человеком, как созданный ИИ (ложно). положительные) на 9%. Важно отметить, что надежность классификатора повышается по мере увеличения длины входного текста. По сравнению с предыдущими классификаторами эта новая версия демонстрирует значительно более высокую надежность текста, сгенерированного более поздними системами ИИ.
Чтобы собрать ценные отзывы о полезности таких несовершенных инструментов, как этот классификатор, разработчики сделали его общедоступной. Вы можете бесплатно попробовать наш незавершенный классификатор. Однако важно понимать его ограничения. Классификатор следует использовать как дополнительный инструмент, а не как основной ресурс для принятия решений, для определения источника текста. Он демонстрирует высокую ненадежность коротких текстов, и бывают случаи, когда текст, написанный человеком, может быть неправильно помечен как сгенерированный ИИ.
Стоит отметить, что очень предсказуемые тексты не могут быть последовательно идентифицированы, например, список первых 1,000 простых чисел. Редактирование сгенерированного ИИ текста также может помочь обойти классификатор, и хотя мы можем обновлять и переобучать классификатор на основе успешных атак, долгосрочное преимущество обнаружения остается неопределенным. Кроме того, классификаторы, основанные на нейронных сетях, часто плохо откалиброваны за пределами своих обучающих данных, что приводит к крайней уверенности в неверных прогнозах для входных данных, значительно отличающихся от обучающего набора.