DeepSeek Engram 论文解读:存算分离的架构创新
2026年1月19日
分析 DeepSeek Engram 模块如何通过查表机制提升 LLM 效率,实现存算分离。
不卷参数卷效率:小米 MiMo-V2-Flash 的架构创新
深度解读小米 MiMo-V2-Flash:当 309B 参数的 MoE 遇上极致的 128 窗口 Attention,如何在性能与效率之间找到完美平衡点。