Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT

0 1

Отредактировано и проверено фактами

Коротко

Otter — это визуальная языковая модель (VLM), построенная на платформе OpenFlamingo и призванная революционизировать визуальное понимание и взаимодействие с визуальным контентом.

Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.

Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT

Выдра — это передовая модель визуального языка (VLM), построенная на OpenFlamingo платформу, и она предназначена для улучшения нашего взаимодействия с визуальным контентом. В рамках амбициозного проекта Otter Microsoft ввел массивный поучительный набор визуально-текстовых данных под названием МИМИК-ИТ. Этот набор данных содержит ошеломляющие 2.8 миллиона пар связанных мультимодальных инструкций с ответами, в том числе 2.2 миллиона уникальных инструкций, полученных из изображений и видео. Набор данных был тщательно отобран для имитации естественных диалогов, охватывающих такие сценарии, как описание изображений и видео, сравнение изображений, ответы на вопросы, понимание сцены и многое другое. Эти высококачественные пары инструкция-ответ были сгенерированы с использованием мощного API ChatGPT-0301, что представляет собой инвестиции в размере около 20 тысяч долларов.

Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT

Отредактировано и проверено фактами

Набор данных MIMIC-IT играет решающую роль в обучении модели Otter, которая была разработана, чтобы преуспеть в понимании визуальных сцен, рассуждений и логических выводов. Каждая пара инструкция-ответ в наборе данных сопровождается мультимодальной контекстной информацией, создавая диалоговые контексты, которые позволяют модели понять нюансы восприятия, рассуждений и планирования. Чтобы масштабировать процесс аннотирования, Microsoft использовала автоматический конвейер аннотирования под названием Syphus, который сочетает в себе человеческий опыт и возможности GPT для обеспечения качества и разнообразия набора данных.

Сейчас читают:

Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT

Используя набор данных MIMIC-IT, Microsoft обучила модель Otter, крупномасштабную VLM на основе платформы OpenFlamingo. Благодаря обширным оценкам эталонных показателей языка зрения Оттер продемонстрировал замечательные навыки в мультимодальном восприятии, рассуждении и обучении в контексте. Человеческие оценки показали его способность эффективно согласовываться с намерениями пользователя, что делает его бесценным инструментом для интерпретации и выполнения сложных задач на основе инструкций на естественном языке.

Otter v0.2 расширил свои возможности для поддержки видеовходов, что позволяет кадры процесса и несколько изображений в качестве контекстных примеров.

Выпуск набора данных MIMIC-IT вместе с конвейером сбора инструкций и ответов, тестами и моделью Otter представляет собой важную веху в области мультимодальной языковой обработки. Предоставляя эти ресурсы исследователям и разработчикам, Microsoft стремится способствовать инновациям и сотрудничеству, позволяя интегрировать Otter и OpenFlamingo в настраиваемые конвейеры обучения и логических выводов с использованием популярных Обнимая лицо Каркас трансформеров.

Набор данных MIMIC-IT охватывает широкий спектр сценариев реальной жизни, позволяя моделям Vision-Language Models (VLM) понимать общие сцены, рассуждать о контексте и разумно различать наблюдения. Это открывает возможности, такие как разработка эгоцентричных моделей визуальных помощников, которые могут отвечать на такие вопросы, как «Эй, ты думаешь, я забыл свои ключи на столе?».

MIMIC-IT не ограничивается английским языком. Он также поддерживает несколько языков, включая китайский, корейский, японский, немецкий, французский, испанский и арабский. Эта многоязычная поддержка позволяет более широкой аудитории по всему миру пользоваться удобством и преимуществами ИИ.

Чтобы обеспечить генерацию высококачественных пар инструкция-ответ, Microsoft представила Syphus, автоматизированный конвейер, который включает системные сообщения, визуальные аннотации и контекстные примеры в качестве подсказок для ChatGPT. Это обеспечивает надежность и точность сгенерированных пар инструкция-ответ на нескольких языках.

Подробнее об ИИ:

Источник

Оставьте ответ