Тарифы FAQ Примеры использования Войти в кабинет
💬 Частые вопросы

Всё что нужно знать
об API LLMCOD

Подключение, модель Qwen 3 30B Instruct, тарифы, оплата и безопасность.

🇷🇺 Данные остаются в России. Сервер в Калининграде — запросы не передаются в OpenAI, Google или другим иностранным провайдерам.
  1. Зарегистрируйтесь на llmcod.ru
  2. Выберите тариф и оплатите через ЮKassa
  3. Создайте API-ключ в личном кабинете
  4. Замените base_url на https://llmcod.ru/v1 в своём коде
Если вы уже используете OpenAI SDK — больше ничего менять не нужно.
Нет. Сервер находится в России — запросы проходят напрямую без VPN и прокси. Никаких блокировок и зарубежных задержек.
Python (OpenAI SDK):
from openai import OpenAI

client = OpenAI(
    api_key="ваш_ключ_из_кабинета",  # без sk-
    base_url="https://llmcod.ru/v1"
)

response = client.chat.completions.create(
    model="Qwen/Qwen3-30B-A3B-Instruct",
    messages=[{"role": "user", "content": "Привет!"}]
)
print(response.choices[0].message.content)
cURL:
curl https://llmcod.ru/v1/chat/completions \
  -H "Authorization: Bearer ваш_ключ_из_кабинета" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-30B-A3B-Instruct",
    "messages": [{"role": "user", "content": "Привет!"}]
  }'
Qwen 3 30B-A3B Instruct — открытая языковая модель от Alibaba Cloud с 30 миллиардами параметров (3 млрд активных, архитектура Mixture of Experts).
  • Параметры: 30 млрд (3 млрд активных, MoE)
  • Контекстное окно: 16 384 токена (~12 страниц)
  • Знания до: июль 2025
  • Архитектура: MoE Transformer, 128 экспертов, top-8 routing, GQA + RoPE
  • Дообучение: SFT + RLHF
русскийанглийскийнемецкийфранцузскийиспанский+8 языков
  • 💬 Чат-боты и диалоговые ассистенты
  • ✍️ Генерация и редактирование текста
  • 💻 Написание и объяснение кода
  • 📄 Суммаризация документов (до 16K токенов)
  • 🔍 Классификация текста и анализ тональности
  • 🌐 Перевод между 8 языками
  • 🛠️ Tool calling / function calling
  • 🤖 Генерация синтетических данных
Модель не работает с изображениями — только текст.
Модель понимает русский на достаточном уровне для чатов, генерации текста и перевода. Наилучшее качество — на английском. Для критически важных задач рекомендуется тестировать перед продакшном.
Контекстное окно — максимальный объём текста за один запрос: промпт + история + ответ.

16 384 токена ≈
  • ~6 000 слов на русском
  • ~6 страниц документа
  • ~15 минут транскрипта разговора
Подходит для чатов, генерации кода, небольших документов и суммаризации.
Модель работает в формате FP16 (полная точность, без квантования). Это обеспечивает максимальное качество ответов по сравнению с квантованными версиями INT4 и INT8.

Многие сервисы используют квантование для экономии памяти GPU — это снижает точность вычислений. У нас модель запускается на 32 ГБ Tesla V100 в полной точности, без компромиссов по качеству.
Да, полностью. Поддерживается /v1/chat/completions, стриминг, системные промпты и параметры temperature, max_tokens, top_p. Меняете только api_key и base_url.
Да. Передайте "stream": true — модель отдаёт ответ по токену в режиме SSE. Идеально для чат-интерфейсов с живым печатанием.
Да. API поддерживает tool use (function calling) — модель сама решает, когда вызвать инструмент, и возвращает структурированный JSON-вызов.

Пример запроса:
from openai import OpenAI

client = OpenAI(api_key="ваш_ключ", base_url="https://llmcod.ru/v1")

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Получить погоду в городе",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"]
        }
    }
}]

resp = client.chat.completions.create(
    model="Qwen/Qwen3-30B-A3B-Instruct",
    messages=[{"role": "user", "content": "Какая погода в Москве?"}],
    tools=tools,
    tool_choice="auto"
)
print(resp.choices[0].message.tool_calls[0].function.arguments)
# {"city": "Москва"}
Совместимо с LangChain, AutoGPT, CrewAI и любыми фреймворками, которые работают через OpenAI API — достаточно поменять base_url.
Создайте в личном кабинете отдельный API-ключ для каждого проекта:
  • Раздельный учёт расхода токенов
  • Отзыв ключа одного проекта без влияния на остальные
  • Безопасная передача ключа команде
Оплата через ЮKassa в рублях: СБП, Visa, МИР, Mastercard, SberPay. Иностранные карты и криптовалюта не поддерживаются.
Нет. Никаких автосписаний. Платите только когда сами решаете пополнить баланс.
Да — каждый новый пользователь получает 100 000 токенов бесплатно автоматически. Приветственные токены сохраняются на балансе, если вы начали ими пользоваться в течении месяца.

Как получить:
  1. Зарегистрируйтесь на llmcod.ru
  2. Подтвердите email — перейдите по ссылке из письма
  3. 100 000 токенов зачислятся на счёт автоматически
Без карты, без заявок, без ожидания. Токены можно сразу использовать через API.
Входящие (промпт) и исходящие (ответ) токены считаются по единой цене — никаких коэффициентов.

Ориентир: 1 токен ≈ 4 символа на английском, ≈ 2–3 символа на русском.
Разовые пакеты не сгорают — расходуются по мере использования. Месячные подписки дают суточный лимит в течение оплаченного периода.
Вы можете купить токены через нашего бота в мессенджере МАХ — LLM API. Бот принимает оплату в рублях через ЮKassa прямо в чате.

Важно знать:
  • После покупки через МАХ личный кабинет на сайте недоступен
  • Отслеживать остаток токенов и баланс через кабинет не получится — информация о расходе доступна только через ответы API (usage в каждом ответе)
  • Если вам нужен личный кабинет с историей и аналитикой — зарегистрируйтесь на llmcod.ru и оплатите там
  • GPU: NVIDIA Tesla V100 32GB
  • Инференс: vLLM — движок с непрерывным батчингом запросов
  • Uptime: 99.9%
Tesla V100 32GB полностью вмещает Qwen 3 30B-A3B Instruct в VRAM — быстрый отклик без оффлоадинга на CPU.
Сервер физически расположен в Калининграде — на собственном выделенном оборудовании:
  • Запросы не покидают российскую юрисдикцию
  • Данные не передаются в OpenAI, Google или другим иностранным провайдерам
  • Нет санкционных рисков — инфраструктура полностью российская
  • Минимальная задержка для России и СНГ
  • Оплата в рублях без конвертации
🇷🇺 Это принципиальное отличие от aitunnel, OpenRouter и других агрегаторов, которые проксируют запросы через серверы в США, ЕС и других странах.
Нет. LLMCOD запускает модель Qwen 3 30B-A3B Instruct локально на собственном сервере в Калининграде. Ваши запросы обрабатываются напрямую — без проксирования через OpenAI, Google, Anthropic или любые другие зарубежные сервисы.

Это важно для:
  • Корпоративных клиентов — можно передавать внутренние данные, не нарушая NDA и ИБ-политики
  • Государственных задач — соответствие требованиям о локализации данных
  • Работы с персональными данными — данные остаются в российской юрисдикции
Нет. Запросы не используются для дообучения модели. Подробнее — в Политике конфиденциальности.
  • Не публикуйте ключ в открытом коде (GitHub и т.д.)
  • Храните в переменных окружения (.env)
  • Отдельный ключ на каждый проект
  • При утечке — немедленно отзовите ключ в личном кабинете

Остались вопросы?

Напишите нам в мессенджере МАХ — ответим быстро.

Написать в МАХ