AIMPACT メッセージ、5月15日(UTC+8)、API長いプロンプトの最初のトークン生成時間を短縮する実用的なヒント:プロンプトキャッシュのウォームアップ。 ユーザープロンプトの前にシステムプロンプトを送信します。Claudeはこれをキャッシュに書き込みますが、出力の生成はスキップします。 実際のユーザーリクエストが到達すると、事前にウォームアップされたキャッシュに直接ヒットします。(出典:AiHot)
APIは事前キャッシュによる高速化と最初のトークン生成を提示します