FastGen:在不降低LLM质量的情况下降低GPU内存成本 研究人员来自伊利诺伊大学厄巴纳-香槟分校和微软提出了一种名为FastGen的高效技术,通过使用轻量级模型分析和自适应键值缓来提高LLM的推理效率不会降低可见质量。FastGen通 FastGen 2024年05月26日 149 点赞 2 评论 225 浏览