面向深度学习推理的虚拟化软硬件技术

清华大学

更新时间:2025-06-03

关注
点赞
咨询

所属领域

未知

项目类型

未知

项目年份

2025

项目状态

可产业化

合作方式

未知

项目简介

本项目提出一种面向深度学习算法和LLM模型的虚拟化软硬件技术,通过在硬件层实现可拆分重组的虚拟化计算资源池,以实现计算资源对不同推理任务负载的灵活适配,最大化计算资源利用率;在软件层实现多个模型的资源共享和中断调度,使得单块GPU、AI芯片或FPGA上可以同时运行多个深度学习算法和LLM模型,在保障推理延时的同时最大化吞吐量。基于FPGA的验证实验表明,本方案可以将深度学习推理的平均计算资源利用率从10-20%提高至65-75%,在满足计算延时要求的同时将推理成本降低约3-6倍。另一方面,本方案所提出的两级静态-动态重编译技术使得运行时开销降低至1毫秒左右,从而有望将大模型部署时间开销从分钟降至毫秒量级,实现3-4个量级的部署效率提升。基于本技术可以实现面向LLM应用的高性价比软硬件一体化解决方案,包括可快速适配不同LLM模型和AI硬件的软件部署工具链,以及面向LLM推理优化的专用硬件IP。

推荐项目

查看更多

推荐专家

查看更多