Аннотация

И. И. Журавлев, В. Н. Карнаухов, М. Г. Мозеров

К вопросу о надежности систем компьютерного зрения: выявление причинно-следственных связей в принятии решений VLM

Современная архитектура систем искусственного интеллекта становится все более прозрачной, что позволяет точнее оценивать достоверность ответов и внедрять надежные методы обучения. Тем не менее, проблема внутренней согласованности мультимодальных моделей (Vision-Language Models, VLM) остается актуальной. В частности, VLM демонстрируют shape bias (предпочтение формы), имитируя человеческое восприятие. Научная дискуссия фокусируется на вопросе: является ли это свойство фундаментальной характеристикой зрительных представлений или артефактом работы языкового декодера? В данной работе исследуется роль признаков формы и текстуры во внутренних слоях VLM. Методология исследования основана на линейном зондировании — диагностике линейной разделимости признаков в скрытых состояниях — с использованием датасета Stylized-ImageNet. Выявлен существенный разрыв между поведением и внутренними репрезентациями: несмотря на выраженное предпочтение формы на выходе (56–62%), во всех слоях моделей информация о текстуре разделима значительно лучше (F1 > 0.9), чем геометрическая (F1 примерно равна 0.6). Направленные интервенции в скрытые состояния последних слоев приводят к высокой нестабильности предсказаний. Полученные данные показывают, что наблюдаемый shape bias не обусловлен доминированием геометрических признаков в репрезентациях, а формируется на этапе языкового декодирования. Предложенный подход, основанный на методах механистической интерпретируемости, позволяет раскрыть вычислительные механизмы моделей, что создает теоретическую базу для последующего повышения предсказуемости систем компьютерного зрения в специализированных прикладных сценариях.

КЛЮЧЕВЫЕ СЛОВА: shape bias, texture bias, cue-conflict, visual-language models, интерпретируемость внутренних представлений, линейное зондирование.