Table of Contents

Üretim hazırlığı

Bu sayfayı neden okuyorsunuz? Bu sayfa Intentum'u production'da kullanırken rate limiting, fallback ve maliyet kontrolü için kısa rehber sunar. Gerçek embedding API'leriyle canlıya geçmeden önce bu sayfayı okumanız faydalıdır.

Intentum'u gerçek embedding API'leriyle kullanırken rate limiting, fallback ve maliyet kontrolü için kısa rehber.

Rate limiting

  • Intentum.Runtime: MemoryRateLimiter (bellek içi sabit pencere), bir anahtarın (örn. kullanıcı veya oturum) RateLimit türünde politika kararı tetikleme sıklığını sınırlar. intent.DecideWithRateLimit(policy, rateLimiter, options) ile kullanın.
  • Embedding API: Sağlayıcının istek hızını aşmamak (ve 429'ları önlemek) için embedding sağlayıcısını ne sıklıkla çağırdığınızı sınırlayın. Seçenekler: (1) Sağlayıcıyı LlmIntentModel'e vermeden önce rate-limiting katmanı (örn. token bucket) ile sarın; (2) Kuyruk kullanıp inference'ı daraltın; (3) Embedding'leri önbelleğe alın (bkz. AI sağlayıcılarını kullanma) böylece tekrarlayan davranış anahtarları API'yi tekrar çağırmaz.
  • Retry ve 429 yönetimi için Embedding API hata yönetimi sayfasına bakın.

Fallback

Embedding API başarısız olduğunda (timeout, 429, 5xx):

  • Uygulama katmanında yakala: model.Infer(space)'i try/catch ile sarın; HttpRequestException'da loglayıp fallback intent (örn. düşük güven, tek sinyal) döndürün veya yeniden fırlatın.
  • Kural tabanlı fallback: ChainedIntentModel kullanın: önce LLM dene; güven eşiğin altındaysa veya inference başarısızsa RuleBasedIntentModel ile devam et. Bkz. examples/chained-intent ve examples/ai-fallback-intent.
  • Önbellek fallback: Önbellekli embedding sağlayıcısı kullanıyorsanız, API hatasında aynı davranış anahtarı için (varsa) önbellekteki sonucu veya varsayılan düşük güvenli intent döndürebilirsiniz.

Maliyet kontrolü

  • Embedding çağrılarını sınırla: Büyük davranış uzaylarında boyut sayısı (benzersiz actor:action) embedding çağrı sayısına eşittir. Boyut sayısını sınırlamak için ToVectorOptions (örn. CapPerDimension, normalizasyon) kullanın veya modele çağırmadan önce örnekleme (örn. sayıya göre ilk N) yapın.
  • Önbellek: Tekrarlayan davranış anahtarları API'yi tekrar çağırmasın diye CachedEmbeddingProvider (veya Redis adaptörü) kullanın. Maliyet ve gecikmeyi azaltır.
  • Benchmark: Gecikme ve throughput için benchmarks çalıştırın; timeout ve rate limit boyutlandırmasında bunu kullanın.

Özet

Konu Nerede
Rate limiting api.md (MemoryRateLimiter, DecideWithRateLimit), embedding-api-errors.md
Fallback ChainedIntentModel, examples/ai-fallback-intent, embedding-api-errors.md
Maliyet ToVectorOptions (cap/örnekleme), CachedEmbeddingProvider, benchmarks

Sonraki adım: Bu sayfayı bitirdiyseniz → Embedding API hata yönetimi veya Benchmark'lar.