流式调试
流式请求涉及客户端连接、RouteAPI 转发和模型服务响应三层,排查时需要区分问题来源。
| 问题 | 可能原因 |
|---|---|
| 没有任何输出 | 客户端未开启 stream 或当前模型不支持 |
| 输出中断 | 模型服务超时、网络断开、客户端关闭连接 |
| 收不到 usage | 当前模型不支持 stream_options.include_usage |
| JSON 解析失败 | 客户端没有按 SSE 行解析 |
客户端处理建议
Section titled “客户端处理建议”- 按行读取
data:。 - 忽略空行。
- 收到
[DONE]后结束。 - 对每个 JSON chunk 单独解析。
- 不要把整个响应当作一个 JSON 文档解析。