大模型微调过程中如何避免灾难性遗忘?

微调后大模型容易出现灾难性遗忘,导致其他能力下降。使用什么数据和技术组合,能提升特定任务的同时,不造成其他能力丧失,对企业处理多业务功能需求有很大意义。显示全部

微调后大模型容易出现灾难性遗忘,导致其他能力下降。使用什么数据和技术组合,能提升特定任务的同时,不造成其他能力丧失,对企业处理多业务功能需求有很大意义。

收起
参与30

查看其它 8 个回答leonardo1216的回答

leonardo1216leonardo1216研发工程师某金融机构

1、如果大模型仅用在有限的几个领域,遗忘也没啥问题(过拟合反而对某些场景的效果是增强)
2、RAG,作为大模型的知识库,可以一定程度上解决这个问题。但是RAG的前提是,模型需要具备一定的基础能力,否则即使知识库检索很准确,但是大模型还是回答不对。
3、回退某个checkpoint,用更广泛的高质量重新做微调。

银行 · 2024-01-15
浏览952

回答者

leonardo1216
研发工程师某金融机构

leonardo1216 最近回答过的问题

回答状态

  • 发布时间:2024-01-15
  • 关注会员:10 人
  • 回答浏览:952
  • X社区推广