요청 수가 요청을 처리하도록 할당된 용량을 초과할 경우 오류 코드 429
가 반환됩니다. 다음 표에는 각 유형의 할당량 프레임워크에서 생성된 오류 메시지가 표시됩니다.
할당량 프레임워크 | 메시지 |
---|---|
사용한 만큼만 지불 | Resource exhausted, please try again later. |
프로비저닝된 처리량 | Too many requests. Exceeded the Provisioned Throughput. |
프로비저닝된 처리량 구독을 사용하면 특정 생성형 AI 모델의 처리량을 예약할 수 있습니다. 프로비저닝된 처리량 구독이 없고 애플리케이션에서 리소스를 사용할 수 없는 경우 오류 코드 429
가 반환됩니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다. 하지만 서비스수준계약 (SLA)에 설명된 대로 요청은 오류율에 집계되지 않습니다.
프로비저닝된 처리량을 구매한 프로젝트의 경우 Vertex AI는 프로젝트의 처리량을 측정하고 이를 사용할 수 있도록 해당 처리량을 예약합니다. 구매한 처리량보다 적게 사용하는 경우 429
로 반환되었을 오류가 5XX
로 반환되고 SLA에 설명된 오류율의 일부로 집계됩니다.
사용한 만큼만 지불
사용한 만큼만 지불 할당량 프레임워크에서는 429
오류를 해결하기 위해 다음과 같은 옵션이 있습니다.
- 잘린 지수 백오프를 사용하여 재시도 전략을 구현합니다.
- 소비자 재정의를 설정하고 비용을 제어하도록 구성한 경우 한도를 늘립니다. 자세한 내용은 동적 공유 할당량을 참조하세요.
- 보다 일관적인 서비스 수준을 얻기 위해서는 프로비저닝된 처리량을 구독하세요. 자세한 내용은 프로비저닝된 처리량을 참조하세요.
다음 단계
- 동적 공유 할당량에 대해 자세히 알아보려면 동적 공유 할당량을 참고하세요.
- Vertex AI의 할당량 및 한도에 대한 자세한 내용은 Vertex AI 할당량 및 한도를 참고하세요.
- Google Cloud 할당량 및 한도에 대한 자세한 내용은 할당량 값 및 시스템 한도 이해를 참고하세요.