Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

06.06.2026 • Хабр

Практический разбор локальной Gemma 4 12B Unified на MacBook M3: модель умеет извлекать CSV из изображений с графиками и таблицами, но надёжна только в узкой зоне. Главный вывод — локальный VLM полезен для приватных данных, но его вывод надо проверять внешними сигналами, а не самооценкой модели.

Gemma 4 12B Unified запустили локально на MacBook M3 с 16 ГБ памяти в квантованном GGUF-варианте: основной файл весит 6.86 ГБ, mmproj-F16 для зрения — 167 МБ и добавляет около 360 МБ в рантайме. Full precision около 24 ГБ в такой ноутбук не помещается, поэтому использован контекст 8192 вместо заявленных 256K. Для запуска понадобился свежий llama.cpp: стабильный Homebrew-билд 9430 не понимал проектор gemma4uv, а рабочим оказался официальный бинарник новее 9496.

Инструмент chartscan.py кодирует картинку в base64, отправляет её в llama-server через OpenAI-совместимый эндпоинт, парсит строгий JSON и пишет CSV. В схеме есть тип изображения, строки, колонки, число увиденных подписей и флаг происхождения значений — labeled, estimated или mixed. Для извлечения данных автор снизил temperature до 0.1, добавил кросс-чек подписей и graceful-fail: при обрыве JSON скрипт сохраняет только полностью прочитанные строки и явно помечает усечённый вывод.

На простых таблицах и графиках с явными подписями модель попала точно: таблица 5×4 прочитана полностью, значения круговой диаграммы совпали до десятых. На сложных и плохих входах начались ошибки: stacked bar без подписей дал оценку с ложной точностью, линейный график с плотными подписями сначала породил несуществующие годы, мыльная зарплатная таблица получила выдуманные числа, а большая вложенная таблица превратилась в аккуратную синтетическую прогрессию. Рабочая зона — чистый растр и явные подписи; для плотных графиков, мутных сканов и больших вложенных таблиц нужны облачный API или ручная сверка.

Коротко

Gemma 4 12B Unified в квантованном GGUF-виде поместилась на MacBook M3 с 16 ГБ, но full precision около 24 ГБ для такого сетапа уже не подходит.
Для vision-режима понадобился свежий llama.cpp: Homebrew-билд 9430 не поддержал gemma4uv, рабочим оказался бинарник новее 9496.
Лучшие результаты получились на простых таблицах и графиках с явными числовыми подписями: такие данные модель извлекла почти идеально.
На мыльных сканах и больших вложенных таблицах модель не падает, а выдаёт правдоподобные, но выдуманные числа и аккуратную синтетическую структуру.
Самооценке модели доверять нельзя: флаги labeled и счёт подписей помогают только частично, поэтому нужны внешние проверки и ручная сверка.

FAQ

Зачем запускать локальную Gemma 4 для распознавания графиков и таблиц, если облачные API обычно точнее и быстрее?

Локальный запуск нужен для данных, которые нельзя отправлять наружу: внутренних дашбордов, отчётов под NDA и другой чувствительной визуализации. Он даёт приватность, офлайн-режим и нулевую стоимость инференса.

В каких задачах локальная Gemma 4 показала себя надёжно, а где начала ошибаться или фабриковать данные?

Модель хорошо справилась с чистыми таблицами и простыми графиками с видимыми подписями. Ошибки начались на плотных линейных графиках, мутных скриншотах и больших вложенных таблицах.

Какие инженерные меры помогают не принять выдуманный вывод модели за реальные данные?

Автор использовал строгую JSON-схему, низкую temperature, флаг источника значений, подсчёт подписей и graceful-fail при обрыве генерации. Эти меры не исправляют модель, но помогают понять, когда её выводу нельзя верить.

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

Коротко

FAQ

Зачем запускать локальную Gemma 4 для распознавания графиков и таблиц, если облачные API обычно точнее и быстрее?

В каких задачах локальная Gemma 4 показала себя надёжно, а где начала ошибаться или фабриковать данные?

Какие инженерные меры помогают не принять выдуманный вывод модели за реальные данные?

Читайте также