更新后的模型表现有所改善,性能降幅从39%减少到33%,但问题依然存在。在Python任务中,部分模型的性能损失仅在10%到20%之间。然而,拉班指出,在实际使用场景中,性能损失可能会更严重,因为测试只采用了简单的用户模拟。如果用户在对话过程中改变想法,性能下降可能更为明显。
研究发现,通过调低温度值等技术微调并不能有效解决这一问题。研究人员建议,遇到异常情况时,应重新开启一段新对话,并让模型先总结之前的请求,再基于这份总结继续新的对话。