Какой VRAM нужен для Llama 3 70B?

Для Llama 3 70B в FP16 — около 140GB VRAM. С квантованием INT4 — около 40GB. Для одной карты оптимальна NVIDIA L40S 48GB.

Поддерживается ли vLLM?

Да. Наши конфигурации протестированы на vLLM, llama.cpp и Ollama.

AI-станции для LLM inference

LLM inference требует большого VRAM для загрузки весов модели. Для моделей 70B и выше нужно 48GB+ VRAM. Наши конфигурации с NVIDIA L40S 48GB обеспечивают быстрый inference без квантования для моделей до 70B параметров.

Подобрать ПК

—

По данному запросу товаров пока нет. Смотреть все товары

Не нашёл нужную конфигурацию?

Соберём под твой бюджет и задачи — напиши нам, ответим за 15 минут

Написать в Telegram

Частые вопросы

Какой VRAM нужен для Llama 3 70B?: Для Llama 3 70B в FP16 — около 140GB VRAM. С квантованием INT4 — около 40GB. Для одной карты оптимальна NVIDIA L40S 48GB.
Поддерживается ли vLLM?: Да. Наши конфигурации протестированы на vLLM, llama.cpp и Ollama.

AI-станции для LLM inference

Частые вопросы

Похожие категории