本项目提出面向大模型的软硬件协同优化和高效部署技术,利用模型、算法、系统与硬件的跨层协同优化,实现面向异构算力的大模型训练和推理流程的全栈式优化,具体包括:1)模型层:提出面向大模型训练的参数自动化搜索方法,构建面向大语言模型的文本评测基准,实现大语言模型的高效微调训练系统,显著提高大模型的预训练和微调效率;2)算法层:提出面向大模型的高效压缩方法,通过稀疏注意力机制、混合精度量化和动态猜测解码方法,降低大模型的计算量和显存代价,在保证算法准确率的前提下提高系统吞吐性能;3)系统层:提出面向异构硬件的分布式任务动态发现方法,通过基于k8s容器的虚拟化系统实现多用户的大模型分布式高效推理;4)硬件层:提出面向大模型推理的高效FPGA硬件实现方案,通过指令动态压缩、层归一化协同计算、混合精度稀疏计算架构,实现高能效、高吞吐的大模型推理计算。预期形成针对算法到芯片、芯片集群到模型、模型到应用的三阶段“M×N”中间层,开发一系列大模型软硬件协同的云-边-端一体化解决方案。
全部评论