Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду
Gemma 4 12B Unified запустили локально на MacBook M3 с 16 ГБ памяти в квантованном GGUF-варианте: основной файл весит 6.86 ГБ, mmproj-F16 для зрения — 167 МБ и добавляет около 360 МБ в рантайме. Full precision около 24 ГБ в такой ноутбук не помещается, поэтому использован контекст 8192 вместо заявленных 256K. Для запуска понадобился свежий llama.cpp: стабильный Homebrew-билд 9430 не понимал проектор gemma4uv, а рабочим оказался официальный бинарник новее 9496.
Инструмент chartscan.py кодирует картинку в base64, отправляет её в llama-server через OpenAI-совместимый эндпоинт, парсит строгий JSON и пишет CSV. В схеме есть тип изображения, строки, колонки, число увиденных подписей и флаг происхождения значений — labeled, estimated или mixed. Для извлечения данных автор снизил temperature до 0.1, добавил кросс-чек подписей и graceful-fail: при обрыве JSON скрипт сохраняет только полностью прочитанные строки и явно помечает усечённый вывод.
На простых таблицах и графиках с явными подписями модель попала точно: таблица 5×4 прочитана полностью, значения круговой диаграммы совпали до десятых. На сложных и плохих входах начались ошибки: stacked bar без подписей дал оценку с ложной точностью, линейный график с плотными подписями сначала породил несуществующие годы, мыльная зарплатная таблица получила выдуманные числа, а большая вложенная таблица превратилась в аккуратную синтетическую прогрессию. Рабочая зона — чистый растр и явные подписи; для плотных графиков, мутных сканов и больших вложенных таблиц нужны облачный API или ручная сверка.
Коротко
- Gemma 4 12B Unified в квантованном GGUF-виде поместилась на MacBook M3 с 16 ГБ, но full precision около 24 ГБ для такого сетапа уже не подходит.
- Для vision-режима понадобился свежий llama.cpp: Homebrew-билд 9430 не поддержал gemma4uv, рабочим оказался бинарник новее 9496.
- Лучшие результаты получились на простых таблицах и графиках с явными числовыми подписями: такие данные модель извлекла почти идеально.
- На мыльных сканах и больших вложенных таблицах модель не падает, а выдаёт правдоподобные, но выдуманные числа и аккуратную синтетическую структуру.
- Самооценке модели доверять нельзя: флаги labeled и счёт подписей помогают только частично, поэтому нужны внешние проверки и ручная сверка.
FAQ
Зачем запускать локальную Gemma 4 для распознавания графиков и таблиц, если облачные API обычно точнее и быстрее?
Локальный запуск нужен для данных, которые нельзя отправлять наружу: внутренних дашбордов, отчётов под NDA и другой чувствительной визуализации. Он даёт приватность, офлайн-режим и нулевую стоимость инференса.
В каких задачах локальная Gemma 4 показала себя надёжно, а где начала ошибаться или фабриковать данные?
Модель хорошо справилась с чистыми таблицами и простыми графиками с видимыми подписями. Ошибки начались на плотных линейных графиках, мутных скриншотах и больших вложенных таблицах.
Какие инженерные меры помогают не принять выдуманный вывод модели за реальные данные?
Автор использовал строгую JSON-схему, низкую temperature, флаг источника значений, подсчёт подписей и graceful-fail при обрыве генерации. Эти меры не исправляют модель, но помогают понять, когда её выводу нельзя верить.
Читайте также
Как дообучить LLM: пошаговый разбор
Как я собрал LLM-печку на четырёх GPU и что она умеет
Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ
Тайм-трекеры отвечают не на тот вопрос. Нужен локальный агент рабочего состояния
Meta сделала собственную AI-ленту с кликбейтными новостями
- Локальные VLM подходят для приватной оцифровки визуальных данных: Локальные мультимодальные модели полезны, когда нужно извлечь данные из внутренних дашбордов, отчётов под NDA или другой визуализации, которую нельзя отправлять в облачные API. Их ценность не в максимальной точности, а в приватности, офлайн-режиме и отсутствии переменной стоимости инференса.
[AI-инструменты и приватная обработка данных]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Практический разбор локальной Gemma 4 12B Unified на MacBook M3: модель умеет извлекать CSV из изображений с графиками и таблицами, но надёжна только в узкой зоне. Главный вывод — локальный VLM полезен для приватных данных, но его вывод надо проверять внешними сигналами, а не самооценкой модели.