Конец бесплатного кремния: как Google AI Studio превратилась из рая для инженеров в симулятор смены аккаунтов
Летом 2025 года Gemini 2.5 Pro в AI Studio воспринималась как почти безлимитный инструмент для разработчиков: туда можно было загружать кодовые базы, книги, серверные логи и долго работать через API или веб-интерфейс. После выхода Gemini 3.0 и 3.1 Pro опыт изменился: при плотном контексте пользователи быстро получают Quota Exceeded и, по описанию автора, вынуждены переносить сессии между несколькими аккаунтами.
Первая причина, которую предлагает автор, — сбор данных для Long Context RLHF. Бесплатный доступ к огромным контекстным окнам мог помочь Google понять, как разработчики реально используют миллион токенов: где модель теряет фокус, как ищет баги в логах, как работает с репозиториями и архитектурными обсуждениями.
Вторая причина — стоимость инференса и KV-кэша. Для тяжёлой модели контекст на 500 тыс. токенов может занимать, по оценке автора, 10–40 ГБ видеопамяти на одного пользователя только для поддержания сессии, поэтому бесплатные длинные диалоги с Gemini 3.1 Pro упираются в compute wall. Практический вывод простой: меньше загружать в модель лишний текст, точнее писать промпты, выносить поиск контекста в RAG и смотреть в сторону open source и локальных моделей.
Коротко
- Летом 2025 года Gemini 2.5 Pro в Google AI Studio воспринималась как почти безлимитный инструмент для длинного контекста.
- После выхода Gemini 3.0 и 3.1 Pro пользователи, по описанию автора, быстро упираются в Quota Exceeded при плотных сессиях.
- Автор связывает прежнюю щедрость AI Studio с возможным сбором данных для Long Context RLHF на реальных задачах разработчиков.
- Оценка из текста: 500 тыс. токенов контекста у тяжёлой модели могут занимать 10–40 ГБ видеопамяти на пользователя.
- Практический совет автора: не бросать в модель мегабайты лишнего текста, а использовать короткие промпты, RAG и локальные модели.
FAQ
Зачем Google сначала давал почти безлимитный доступ к Gemini 2.5 Pro в AI Studio, по версии автора?
Автор считает, что это мог быть способ собрать реальные данные о работе разработчиков с очень длинным контекстом для Long Context RLHF.
Почему длинные сессии с Gemini 3.1 Pro в AI Studio могли стать заметно дороже для Google?
В тексте причина объясняется KV-кэшем и видеопамятью: большой контекст требует хранить ключи и значения для сотен тысяч токенов.
Что автор предлагает делать разработчикам вместо постоянного переноса контекста между аккаунтами?
Он предлагает сокращать промпты, подавать только нужный контекст через RAG и рассматривать open source или локальные модели.
Читайте также
Сколько железа нужно ИИ-агенту: как считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз
Как AI-агент и локальные модели помогли за вечер разобрать 36 000 фотографий и почту с 2005 года
Муниципальная компания Рио-де-Жанейро выпустила открытую ИИ-модель на 397 млрд параметров
Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду
Стоит ли использовать Qwen: качество и цена
- Бесплатные лимиты AI-платформ нельзя считать стабильной инфраструктурой: Доступ к большим моделям через бесплатные или экспериментальные интерфейсы может быстро меняться после завершения этапа привлечения пользователей и сбора данных. Для рабочих процессов PubMag не стоит строить критичные пайплайны на бесплатных квотах Google AI Studio или аналогичных сред без резервного сценария.
[AI-инфраструктура и операционные риски]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Автор Хабра связывает резкое ужесточение лимитов в Google AI Studio с переходом Gemini от бесплатного полигона к коммерческой эксплуатации. Главный тезис: длинный контекст больше нельзя воспринимать как бесплатный ресурс.