NVIDIA представила нейросеть NVLM 1.0, которая понимает мемы

NVIDIA представила нейросеть NVLM 1.0, которая понимает мемы

10
Компания NVIDIA представила свою мультимодальную большую языковую модель (LLM), названную NVLM 1.0 (NVIDIA Vision Language Model).

В ходе первых тестов модель продемонстрировала высокую эффективность в визуальных задачах, успешно распознавая мемы и рукописный текст, а также превзошла GPT-4o в одном из испытаний.

Тесты в бенчмарке OCRBench подтвердили, что NVLM 1.0 превосходна в считывании текста с изображений — в этой области она обошла GPT-4o. Также модель показала хорошие результаты в решении математических задач, превзойдя Google Gemini и отстав всего на три пункта от Claude 3.5. Компания подчеркнула, что NVLM 1.0 способна успешно объяснять содержание мемов.

Компания также анонсировала три варианта модели с похожей архитектурой, но разными особенностями. NVLM-D использует предобученный энкодер для работы с изображениями, который соединён с двухслойным перцептроном. NVLM-X для обработки токенов изображений применяет механизм cross-attention. Первая модель отличается экономичностью по количеству параметров, тогда как NVLM-X требует больше ресурсов GPU, но является лидером в обработке изображений высокого разрешения. Модель NVLM-H представляет собой промежуточное решение между NVLM-D и NVLM-X.

Более подробную информацию о NVLM 1.0 можно найти в статье на английском языке по этой ссылке, а ознакомиться с кодом — на GitHub.

Поделиться: