大模型的软硬件协同优化和高效部署技术

清华大学

更新时间：2025-06-03

关注

咨询

所属领域

新一代信息技术

项目类型

制造业,信息传输、计算机服务和软件业

项目年份

2025

项目状态

可产业化

合作方式

其它

项目简介

本项目提出面向大模型的软硬件协同优化和高效部署技术，利用模型、算法、系统与硬件的跨层协同优化，实现面向异构算力的大模型训练和推理流程的全栈式优化，具体包括：1)模型层：提出面向大模型训练的参数自动化搜索方法，构建面向大语言模型的文本评测基准，实现大语言模型的高效微调训练系统，显著提高大模型的预训练和微调效率;2)算法层：提出面向大模型的高效压缩方法，通过稀疏注意力机制、混合精度量化和动态猜测解码方法，降低大模型的计算量和显存代价，在保证算法准确率的前提下提高系统吞吐性能；3)系统层：提出面向异构硬件的分布式任务动态发现方法，通过基于k8s容器的虚拟化系统实现多用户的大模型分布式高效推理；4)硬件层：提出面向大模型推理的高效FPGA硬件实现方案，通过指令动态压缩、层归一化协同计算、混合精度稀疏计算架构，实现高能效、高吞吐的大模型推理计算。预期形成针对算法到芯片、芯片集群到模型、模型到应用的三阶段“M×N”中间层，开发一系列大模型软硬件协同的云-边-端一体化解决方案。