llm | 分类 | 生命体验家-汤国放的个人博客

2026

4 篇

24GB 显存玩转 DeepSeek-R1：GRPO 原理与 Unsloth 踩坑实录

2026年2月6日

深入解析 GRPO 算法原理及 Unsloth 框架在大模型推理对齐中的优化实践，包括强化学习训练范式和性能优化方案。
自动驾驶的认知重构：VLA 架构的工程真相

2026年1月21日

从视觉编码、投影对齐到控制闭环，拆解 VLA 在自动驾驶中的工程落地链路与安全边界。
DeepSeek Engram 论文解读：存算分离的架构创新

2026年1月19日

分析 DeepSeek Engram 模块如何通过查表机制提升 LLM 效率，实现存算分离。
不卷参数卷效率：小米 MiMo-V2-Flash 的架构创新

2026年1月19日

深度解读小米 MiMo-V2-Flash：当 309B 参数的 MoE 遇上极致的 128 窗口 Attention，如何在性能与效率之间找到完美平衡点。

2025

6 篇

2024

1 篇

DeepSeek-V3 技术报告解读：省钱与高性能的极致平衡

2024年12月30日

分析 DeepSeek-V3 的低成本训练策略、架构创新和工程优化。