人工智能加速器架构
研究问题
如何在有限面积、功耗和带宽约束下提升神经网络推理与训练相关算子的执行效率?
研究动机
AI 模型持续扩大,传统通用处理器难以同时满足吞吐、能效和实时性要求,需要面向数据流和存储层级重新设计计算结构。
关键技术
当前关注
- AI 加速器中的存储与数据流优化
- 卷积与矩阵算子的可复用硬件结构
Research
本页面记录个人当前关注的研究方向和阶段性思考,不代表相关研究已经形成正式发表成果。
如何在有限面积、功耗和带宽约束下提升神经网络推理与训练相关算子的执行效率?
AI 模型持续扩大,传统通用处理器难以同时满足吞吐、能效和实时性要求,需要面向数据流和存储层级重新设计计算结构。
如何把本地学习、脉冲神经网络等算法约束转化为可实现、可验证、可扩展的硬件架构?
新型学习算法在能效和在线适应方面具有潜力,但其硬件实现需要处理状态存储、事件调度和精度稳定性等问题。
如何在开放 ISA 基础上构建适配矩阵、向量和流式计算的协处理器接口?
RISC-V 的开放生态适合探索专用扩展,但需要在软件可编程性、硬件复杂度和验证成本之间取得平衡。
如何在 RTL、存储结构、时钟复位和验证阶段提前约束功耗风险?
能效已经成为边缘智能和嵌入式芯片的重要指标,功耗问题需要在设计早期通过架构和实现策略共同控制。