Experiments

Experiments 控制面现在会基于近期原生 trace 抽样回放基线流量,比较候选 prompt version 的输出与延迟,并在通过时自动提升。

当前:基于原生 trace 的 sampled replay 已经可用

判定:用响应相似度与延迟门槛做自动回归判断

发布:通过时自动提升,失败时阻断候选版本