Конец бесплатного кремния: как Google AI Studio превратилась из рая для инженеров в симулятор смены аккаунтов
Летом 2025 года Gemini 2.5 Pro в AI Studio воспринималась как почти безлимитный инструмент для разработчиков: туда можно было загружать кодовые базы, книги, серверные логи и долго работать через API или веб-интерфейс. После выхода Gemini 3.0 и 3.1 Pro опыт изменился: при плотном контексте пользователи быстро получают Quota Exceeded и, по описанию автора, вынуждены переносить сессии между несколькими аккаунтами.
Первая причина, которую предлагает автор, — сбор данных для Long Context RLHF. Бесплатный доступ к огромным контекстным окнам мог помочь Google понять, как разработчики реально используют миллион токенов: где модель теряет фокус, как ищет баги в логах, как работает с репозиториями и архитектурными обсуждениями.
Вторая причина — стоимость инференса и KV-кэша. Для тяжёлой модели контекст на 500 тыс. токенов может занимать, по оценке автора, 10–40 ГБ видеопамяти на одного пользователя только для поддержания сессии, поэтому бесплатные длинные диалоги с Gemini 3.1 Pro упираются в compute wall. Практический вывод простой: меньше загружать в модель лишний текст, точнее писать промпты, выносить поиск контекста в RAG и смотреть в сторону open source и локальных моделей.
Коротко
- Летом 2025 года Gemini 2.5 Pro в Google AI Studio воспринималась как почти безлимитный инструмент для длинного контекста.
- После выхода Gemini 3.0 и 3.1 Pro пользователи, по описанию автора, быстро упираются в Quota Exceeded при плотных сессиях.
- Автор связывает прежнюю щедрость AI Studio с возможным сбором данных для Long Context RLHF на реальных задачах разработчиков.
- Оценка из текста: 500 тыс. токенов контекста у тяжёлой модели могут занимать 10–40 ГБ видеопамяти на пользователя.
- Практический совет автора: не бросать в модель мегабайты лишнего текста, а использовать короткие промпты, RAG и локальные модели.
FAQ
Зачем Google сначала давал почти безлимитный доступ к Gemini 2.5 Pro в AI Studio, по версии автора?
Автор считает, что это мог быть способ собрать реальные данные о работе разработчиков с очень длинным контекстом для Long Context RLHF.
Почему длинные сессии с Gemini 3.1 Pro в AI Studio могли стать заметно дороже для Google?
В тексте причина объясняется KV-кэшем и видеопамятью: большой контекст требует хранить ключи и значения для сотен тысяч токенов.
Что автор предлагает делать разработчикам вместо постоянного переноса контекста между аккаунтами?
Он предлагает сокращать промпты, подавать только нужный контекст через RAG и рассматривать open source или локальные модели.
Читайте также
Память на миллион токенов, а толку ноль: как ИИ-агента спасали от «тупости»
Самохостный AI-агент на почте, systemd и LLM
От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде
Обзор серверного ускорителя NVIDIA Tesla V100 16 ГБ в корпусе от RTX 4090: часть 3 — запуск локальных моделей ИИ
Capacitor: от веба к мобильным приложениям. Часть 4. Интегрируем локальную LLM в проект
- Бесплатные лимиты AI-платформ нельзя считать стабильной инфраструктурой: Доступ к большим моделям через бесплатные или экспериментальные интерфейсы может быстро меняться после завершения этапа привлечения пользователей и сбора данных. Для рабочих процессов PubMag не стоит строить критичные пайплайны на бесплатных квотах Google AI Studio или аналогичных сред без резервного сценария.
[AI-инфраструктура и операционные риски]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Автор Хабра связывает резкое ужесточение лимитов в Google AI Studio с переходом Gemini от бесплатного полигона к коммерческой эксплуатации. Главный тезис: длинный контекст больше нельзя воспринимать как бесплатный ресурс.