NVIDIA представила нейросеть NVLM 1.0, которая понимает мемы
В ходе первых тестов модель продемонстрировала высокую эффективность в визуальных задачах, успешно распознавая мемы и рукописный текст, а также превзошла GPT-4o в одном из испытаний.
Тесты в бенчмарке OCRBench подтвердили, что NVLM 1.0 превосходна в считывании текста с изображений — в этой области она обошла GPT-4o. Также модель показала хорошие результаты в решении математических задач, превзойдя Google Gemini и отстав всего на три пункта от Claude 3.5. Компания подчеркнула, что NVLM 1.0 способна успешно объяснять содержание мемов.
Компания также анонсировала три варианта модели с похожей архитектурой, но разными особенностями. NVLM-D использует предобученный энкодер для работы с изображениями, который соединён с двухслойным перцептроном. NVLM-X для обработки токенов изображений применяет механизм cross-attention. Первая модель отличается экономичностью по количеству параметров, тогда как NVLM-X требует больше ресурсов GPU, но является лидером в обработке изображений высокого разрешения. Модель NVLM-H представляет собой промежуточное решение между NVLM-D и NVLM-X.
Более подробную информацию о NVLM 1.0 можно найти в статье на английском языке по этой ссылке, а ознакомиться с кодом — на GitHub.