AI-станции для LLM inference

LLM inference требует большого VRAM для загрузки весов модели. Для моделей 70B и выше нужно 48GB+ VRAM. Наши конфигурации с NVIDIA L40S 48GB обеспечивают быстрый inference без квантования для моделей до 70B параметров.

AI-станции для LLM inference

По данному запросу товаров пока нет. Смотреть все товары

Не нашёл нужную конфигурацию?

Соберём под твой бюджет и задачи — напиши нам, ответим за 15 минут

Частые вопросы

Какой VRAM нужен для Llama 3 70B?
Для Llama 3 70B в FP16 — около 140GB VRAM. С квантованием INT4 — около 40GB. Для одной карты оптимальна NVIDIA L40S 48GB.
Поддерживается ли vLLM?
Да. Наши конфигурации протестированы на vLLM, llama.cpp и Ollama.