微调后大模型容易出现灾难性遗忘,导致其他能力下降。使用什么数据和技术组合,能提升特定任务的同时,不造成其他能力丧失,对企业处理多业务功能需求有很大意义。
1、如果大模型仅用在有限的几个领域,遗忘也没啥问题(过拟合反而对某些场景的效果是增强)2、RAG,作为大模型的知识库,可以一定程度上解决这个问题。但是RAG的前提是,模型需要具备一定的基础能力,否则即使知识库检索很准确,但是大模型还是回答不对。3、回退某个checkpoint,用更广泛的高质量重新做微调。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30