Latency Budget

Scaling & Performance

The maximum acceptable response time for a database query, typically defined as a percentile target (p50, p95, p99). OpenAI targets low double-digit millisecond p99 latency for PostgreSQL reads. Drives decisions about indexing, caching, replica placement, and connection pooling configuration.