DeepSeek Engram 论文解读:存算分离的架构创新
2026年1月19日
分析 DeepSeek Engram 模块如何通过查表机制提升 LLM 效率,实现存算分离。
MiMo-V2-Flash 技术报告解读:309B 参数,15B 激活的 MoE 奇迹
解读小米 MiMo-V2-Flash 技术报告,分析其混合注意力机制、MOPD 蒸馏和推理加速技术。