Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT
Отредактировано и проверено фактами
Коротко
Otter — это визуальная языковая модель (VLM), построенная на платформе OpenFlamingo и призванная революционизировать визуальное понимание и взаимодействие с визуальным контентом.
Чтобы улучшить ваше взаимодействие с местным языком, иногда мы используем плагин автоматического перевода. Обратите внимание, что автоперевод может быть неточным, поэтому читайте оригинал статья для точной информации.

Выдра — это передовая модель визуального языка (VLM), построенная на OpenFlamingo платформу, и она предназначена для улучшения нашего взаимодействия с визуальным контентом. В рамках амбициозного проекта Otter Microsoft ввел массивный поучительный набор визуально-текстовых данных под названием МИМИК-ИТ. Этот набор данных содержит ошеломляющие 2.8 миллиона пар связанных мультимодальных инструкций с ответами, в том числе 2.2 миллиона уникальных инструкций, полученных из изображений и видео. Набор данных был тщательно отобран для имитации естественных диалогов, охватывающих такие сценарии, как описание изображений и видео, сравнение изображений, ответы на вопросы, понимание сцены и многое другое. Эти высококачественные пары инструкция-ответ были сгенерированы с использованием мощного API ChatGPT-0301, что представляет собой инвестиции в размере около 20 тысяч долларов.

Отредактировано и проверено фактами
Набор данных MIMIC-IT играет решающую роль в обучении модели Otter, которая была разработана, чтобы преуспеть в понимании визуальных сцен, рассуждений и логических выводов. Каждая пара инструкция-ответ в наборе данных сопровождается мультимодальной контекстной информацией, создавая диалоговые контексты, которые позволяют модели понять нюансы восприятия, рассуждений и планирования. Чтобы масштабировать процесс аннотирования, Microsoft использовала автоматический конвейер аннотирования под названием Syphus, который сочетает в себе человеческий опыт и возможности GPT для обеспечения качества и разнообразия набора данных.

Используя набор данных MIMIC-IT, Microsoft обучила модель Otter, крупномасштабную VLM на основе платформы OpenFlamingo. Благодаря обширным оценкам эталонных показателей языка зрения Оттер продемонстрировал замечательные навыки в мультимодальном восприятии, рассуждении и обучении в контексте. Человеческие оценки показали его способность эффективно согласовываться с намерениями пользователя, что делает его бесценным инструментом для интерпретации и выполнения сложных задач на основе инструкций на естественном языке.
Otter v0.2 расширил свои возможности для поддержки видеовходов, что позволяет кадры процесса и несколько изображений в качестве контекстных примеров.
Выпуск набора данных MIMIC-IT вместе с конвейером сбора инструкций и ответов, тестами и моделью Otter представляет собой важную веху в области мультимодальной языковой обработки. Предоставляя эти ресурсы исследователям и разработчикам, Microsoft стремится способствовать инновациям и сотрудничеству, позволяя интегрировать Otter и OpenFlamingo в настраиваемые конвейеры обучения и логических выводов с использованием популярных Обнимая лицо Каркас трансформеров.
Набор данных MIMIC-IT охватывает широкий спектр сценариев реальной жизни, позволяя моделям Vision-Language Models (VLM) понимать общие сцены, рассуждать о контексте и разумно различать наблюдения. Это открывает возможности, такие как разработка эгоцентричных моделей визуальных помощников, которые могут отвечать на такие вопросы, как «Эй, ты думаешь, я забыл свои ключи на столе?».
MIMIC-IT не ограничивается английским языком. Он также поддерживает несколько языков, включая китайский, корейский, японский, немецкий, французский, испанский и арабский. Эта многоязычная поддержка позволяет более широкой аудитории по всему миру пользоваться удобством и преимуществами ИИ.
Чтобы обеспечить генерацию высококачественных пар инструкция-ответ, Microsoft представила Syphus, автоматизированный конвейер, который включает системные сообщения, визуальные аннотации и контекстные примеры в качестве подсказок для ChatGPT. Это обеспечивает надежность и точность сгенерированных пар инструкция-ответ на нескольких языках.
Подробнее об ИИ: