摘要:随着模型参数和计算资源需求的不断增长,将模型部署在资源有限的设备上成为一个巨大的挑战。为解决这一挑战,量化成为了一种主要的方法,通过减少深度神经网络模型参数和中间过程特征图的位宽,可以对深度神经网络进行压缩和加速。文章全面回顾了基于量化的深度神经网络优化的工作原理。首先,讨论了常见的量化方法及其研究进展,并分析了各种量化方法之间的相似性、差异性以及各自的优缺点。其次,进一步探讨了分层量化、分组量化和通道量化等不同的量化粒度。最后,分析了训练与量化之间的相互关系,并讨论了当前研究所取得的成果和面临的挑战,旨在为未来深度神经网络量化研究提供理论基础。
关键词: 深度神经网络;模型量化;量化感知训练;离线量化
(本文刊发于《山东师范大学学报》(自然科学版) 2024年第一期;本课题为山东省自然科学基金资助项目(ZR2022QF125),山东鲁软数字科技有限公司资助项目(WB22101002);全文详见:https://sdzk.cbpt.cnki.net/portal/journal/portal/client/paper/ef6532017383457d0e66262b98bc400f)