Kevin API 已通(832条 IUL 数据),需接入 Edge Function。
域名备案已提交,等管局审批。
用 Debug Console 设计对话场景,对比两个模型的准确性和自然度,决定是否降级省钱。
研究 Kevin 的 judge-platform 评分标准,用真实对话评估小恒回答质量,优化 System Prompt。
从真实对话中提取错误示范,建立 对话->评分->优质入库 的正循环。
企微上线时做:安全检查防注入、分段发送模拟打字、AI处理不了时转人工。