Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

Практический разбор локальной Gemma 4 12B Unified на MacBook M3: модель умеет извлекать CSV из изображений с графиками и таблицами, но надёжна только в узкой зоне. Главный вывод — локальный VLM полезен для приватных данных, но его вывод надо проверять внешними сигналами, а не самооценкой модели.

Gemma 4 12B Unified запустили локально на MacBook M3 с 16 ГБ памяти в квантованном GGUF-варианте: основной файл весит 6.86 ГБ, mmproj-F16 для зрения — 167 МБ и добавляет около 360 МБ в рантайме. Full precision около 24 ГБ в такой ноутбук не помещается, поэтому использован контекст 8192 вместо заявленных 256K. Для запуска понадобился свежий llama.cpp: стабильный Homebrew-билд 9430 не понимал проектор gemma4uv, а рабочим оказался официальный бинарник новее 9496.

Инструмент chartscan.py кодирует картинку в base64, отправляет её в llama-server через OpenAI-совместимый эндпоинт, парсит строгий JSON и пишет CSV. В схеме есть тип изображения, строки, колонки, число увиденных подписей и флаг происхождения значений — labeled, estimated или mixed. Для извлечения данных автор снизил temperature до 0.1, добавил кросс-чек подписей и graceful-fail: при обрыве JSON скрипт сохраняет только полностью прочитанные строки и явно помечает усечённый вывод.

На простых таблицах и графиках с явными подписями модель попала точно: таблица 5×4 прочитана полностью, значения круговой диаграммы совпали до десятых. На сложных и плохих входах начались ошибки: stacked bar без подписей дал оценку с ложной точностью, линейный график с плотными подписями сначала породил несуществующие годы, мыльная зарплатная таблица получила выдуманные числа, а большая вложенная таблица превратилась в аккуратную синтетическую прогрессию. Рабочая зона — чистый растр и явные подписи; для плотных графиков, мутных сканов и больших вложенных таблиц нужны облачный API или ручная сверка.

Коротко

  • Gemma 4 12B Unified в квантованном GGUF-виде поместилась на MacBook M3 с 16 ГБ, но full precision около 24 ГБ для такого сетапа уже не подходит.
  • Для vision-режима понадобился свежий llama.cpp: Homebrew-билд 9430 не поддержал gemma4uv, рабочим оказался бинарник новее 9496.
  • Лучшие результаты получились на простых таблицах и графиках с явными числовыми подписями: такие данные модель извлекла почти идеально.
  • На мыльных сканах и больших вложенных таблицах модель не падает, а выдаёт правдоподобные, но выдуманные числа и аккуратную синтетическую структуру.
  • Самооценке модели доверять нельзя: флаги labeled и счёт подписей помогают только частично, поэтому нужны внешние проверки и ручная сверка.

FAQ

Зачем запускать локальную Gemma 4 для распознавания графиков и таблиц, если облачные API обычно точнее и быстрее?

Локальный запуск нужен для данных, которые нельзя отправлять наружу: внутренних дашбордов, отчётов под NDA и другой чувствительной визуализации. Он даёт приватность, офлайн-режим и нулевую стоимость инференса.

В каких задачах локальная Gemma 4 показала себя надёжно, а где начала ошибаться или фабриковать данные?

Модель хорошо справилась с чистыми таблицами и простыми графиками с видимыми подписями. Ошибки начались на плотных линейных графиках, мутных скриншотах и больших вложенных таблицах.

Какие инженерные меры помогают не принять выдуманный вывод модели за реальные данные?

Автор использовал строгую JSON-схему, низкую temperature, флаг источника значений, подсчёт подписей и graceful-fail при обрыве генерации. Эти меры не исправляют модель, но помогают понять, когда её выводу нельзя верить.

Читайте также

  1. Как дообучить LLM: пошаговый разбор
  2. Как я собрал LLM-печку на четырёх GPU и что она умеет
  3. Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ
  4. Тайм-трекеры отвечают не на тот вопрос. Нужен локальный агент рабочего состояния
  5. Meta сделала собственную AI-ленту с кликбейтными новостями
Ключевые инсайты из новости (по версии ChatGPT)
  • Локальные VLM подходят для приватной оцифровки визуальных данных: Локальные мультимодальные модели полезны, когда нужно извлечь данные из внутренних дашбордов, отчётов под NDA или другой визуализации, которую нельзя отправлять в облачные API. Их ценность не в максимальной точности, а в приватности, офлайн-режиме и отсутствии переменной стоимости инференса.
    [AI-инструменты и приватная обработка данных]
Для получения полного доступа оформите подписку PubMag PRO.
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Инсайты автоматически генерируются с помощью искусственного интеллекта на основе текста статьи.
← Назад в лентуЧитать оригинал →
✈️ Подписывайтесь на мой Telegram-канал — там еще больше интересного про AdTech, MarTech, AI и многое другое!