Новый релиз Ollama 0.15.5
- Сообщается, что Ollama стала устанавливаться как 0.15.5.
- Упоминаются новые модели, пример — qwen3-coder-next.
- Для Ollama указаны только квантизованные варианты: q4_K_M (52 ГБ) и q8_0 (85 ГБ), либо платный запуск из облака.
- У модели указано обучение на 80 млрд параметров, при этом значительная часть данных — код.
- Для быстрого локального запуска упоминается потребность не менее чем в 80 ГБ видеопамяти; запуск на CPU возможен при 128 ГБ DDR5 RAM, но описан как очень медленный.
- Описан сервер автора: Core i9-14900KF, DDR5 192 ГБ, 2×RTX4090D48G (96 ГБ VRAM), 166 TFLOPS; доступ бесплатный, требует подтверждения регистрации и может быть отключён при перегрузке.
Почему это важно: Публикация показывает, что даже при наличии локальных инструментов ключевым ограничением остаются требования к памяти и VRAM. Квантизация становится способом сделать большие модели доступнее, но одновременно задаёт компромиссы по скорости и качеству. В прикладном плане это сводится к выбору между локальным запуском и облаком, а также к оценке стоимости инфраструктуры.
На что обратить внимание: В тексте перечислены варианты квантизации и размеры, но не раскрыты критерии выбора между ними. Доступ к серверу представлен как временный режим тестирования и зависит от ручного подтверждения, что подразумевает очередь и ограничения по нагрузке. Также упоминается отключение сервера после настройки RAG, то есть следующий шаг связан с переходом от демонстрации моделей к сборке прикладного пайплайна.
Читайте также
Личное облако на Proxmox: нейросети, LLM и эмбеддинги
Сборка высокопроизводительного AI-десктопа
Meta* проводит новые сокращения персонала
Гибридная RAG-база знаний за 15 минут — почему пришлось собрать собственную облегчённую версию RAG и в чем опасность RAG-фреймворков
Запуск gpt-oss на 20B и 120B параметров на Core i9: сравнение инференса на CPU и GPU (RTX 4090)
- Оценка требований к железу для локального инференса больших LLM (на примере qwen3-coder-next): В тексте показан практический порог «входа» для локального запуска большой кодовой модели: для высокой скорости упоминается потребность от 80 ГБ видеопамяти, а CPU-вариант возможен при 128 ГБ DDR5 RAM, но с сильной потерей производительности. Это полезно как ориентир при планировании локальной LLM-инфраструктуры и выборе между GPU-сервером и альтернативами.
[AI-инфраструктура]
Зарегистрированные пользователи видят только два тезиса.
Зарегистрироваться
Ollama начала устанавливаться как версия 0.15.5; в тексте упоминаются новые модели, включая qwen3-coder-next, и ограничения по вариантам запуска. Автор также описывает временный доступ к своему серверу для тестирования моделей.