华为曝光两大黑科技,给推理大模型加速!

华为发布了两项昇腾技术创新:FusionSpec 和 OptiQuant。FusionSpec 是一种投机推理框架,通过优化流程,将投机推理框架耗时降至 1ms,解决了大模型推理延迟问题。OptiQuant 是一种量化框架,支持多种数据类型和主流评测数据集,提升了推理性能和性价比。这两项技术结合,有望推动超大规模 MoE 模型的推理。

来源:AI怪

关注每日AI行业最新资讯,请前往AI快讯首页