面向深度学习推理的虚拟化软硬件技术

清华大学

更新时间：2025-06-03

关注

咨询

所属领域

新一代信息技术

项目类型

制造业,信息传输、计算机服务和软件业

项目年份

2025

项目状态

可产业化

合作方式

其它

项目简介

本项目提出一种面向深度学习算法和LLM模型的虚拟化软硬件技术，通过在硬件层实现可拆分重组的虚拟化计算资源池，以实现计算资源对不同推理任务负载的灵活适配，最大化计算资源利用率；在软件层实现多个模型的资源共享和中断调度，使得单块GPU、AI芯片或FPGA上可以同时运行多个深度学习算法和LLM模型，在保障推理延时的同时最大化吞吐量。基于FPGA的验证实验表明，本方案可以将深度学习推理的平均计算资源利用率从10-20%提高至65-75%,在满足计算延时要求的同时将推理成本降低约3-6倍。另一方面，本方案所提出的两级静态-动态重编译技术使得运行时开销降低至1毫秒左右，从而有望将大模型部署时间开销从分钟降至毫秒量级，实现3-4个量级的部署效率提升。基于本技术可以实现面向LLM应用的高性价比软硬件一体化解决方案，包括可快速适配不同LLM模型和AI硬件的软件部署工具链，以及面向LLM推理优化的专用硬件IP。