Rate Limits

Rate limits защищают и стабильность сервиса, и ваш токен-баланс от случайных utility-багов. Лимиты считаются per-API-ключ.

Дефолтные значения

ЛимитЗначениеСкоуп
RPM (requests per minute)60per-ключ
RPH (requests per hour)1 000per-ключ
Concurrent WS sessions10per-ключ
GET /api/v1/voices120/минper-ключ (кэш 60 сек)

Per-key configurable. Если нужно больше — напишите на info@zowy.ai с описанием use-case и ожидаемого RPS.

Headers ответа

HTTP/1.1 200 OK
x-ratelimit-limit-requests: 60
x-ratelimit-remaining-requests: 47
x-ratelimit-reset-requests: 23s
HeaderОписание
x-ratelimit-limit-requestsТекущий лимит RPM для этого ключа
x-ratelimit-remaining-requestsСколько запросов осталось в окне
x-ratelimit-reset-requestsЧерез сколько окно обнулится

Что приходит при превышении

HTTP/1.1 429 Too Many Requests
retry-after: 12

{
  "error": {
    "code": "rate_limit_exceeded",
    "message": "Rate limit reached: 60 requests per minute",
    "type": "rate_limit_error"
  }
}

Best practice — exponential backoff

Python
import time, random, requests

def post_with_backoff(url, headers, body, max_attempts=5):
    for attempt in range(max_attempts):
        r = requests.post(url, headers=headers, json=body, timeout=60)
        if r.status_code != 429:
            return r
        wait = int(r.headers.get("retry-after", 2 ** attempt))
        wait += random.uniform(0, 0.5)  # jitter
        time.sleep(wait)
    return r

Архитектурные советы

  • Один ключ = одна интеграция. Не шарьте ключ между сервисами — у каждого свой счётчик
  • Кэшируйте ответы где возможно (особенно для повторяющихся запросов с одинаковым промптом)
  • Используйте streaming для длинных ответов — это уменьшит концентрацию запросов
  • Батчируйте на уровне приложения — несколько вопросов в одном запросе если позволяет

Voice WebSocket — отдельные лимиты

Для WSS-сессий лимит — 10 одновременных подключений на один ключ. Hard-cap длительности сессии — 15 минут (см. Voice WebSocket).

Запрос увеличения лимитов

Напишите на info@zowy.ai с указанием:

  • API-ключ (последние 4 символа)
  • Текущий и желаемый RPM / RPH
  • Описание use-case (продакшн? batch processing? voice бот?)
  • Ожидаемый объём (запросов в день / месяц)