本项目提出一种面向深度学习算法和LLM模型的虚拟化软硬件技术,通过在硬件层实现可拆分重组的虚拟化计算资源池,以实现计算资源对不同推理任务负载的灵活适配,最大化计算资源利用率;在软件层实现多个模型的资源共享和中断调度,使得单块GPU、AI芯片或FPGA上可以同时运行多个深度学习算法和LLM模型,在保障推理延时的同时最大化吞吐量。基于FPGA的验证实验表明,本方案可以将深度学习推理的平均计算资源利用率从10-20%提高至65-75%,在满足计算延时要求的同时将推理成本降低约3-6倍。另一方面,本方案所提出的两级静态-动态重编译技术使得运行时开销降低至1毫秒左右,从而有望将大模型部署时间开销从分钟降至毫秒量级,实现3-4个量级的部署效率提升。基于本技术可以实现面向LLM应用的高性价比软硬件一体化解决方案,包括可快速适配不同LLM模型和AI硬件的软件部署工具链,以及面向LLM推理优化的专用硬件IP。
全部评论