llm
11 篇2026
4 篇-
24GB 显存玩转 DeepSeek-R1:GRPO 原理与 Unsloth 踩坑实录
深入解析 GRPO 算法原理及 Unsloth 框架在大模型推理对齐中的优化实践,包括强化学习训练范式和性能优化方案。
-
自动驾驶的认知重构:VLA 架构的工程真相
从视觉编码、投影对齐到控制闭环,拆解 VLA 在自动驾驶中的工程落地链路与安全边界。
-
DeepSeek Engram 论文解读:存算分离的架构创新
分析 DeepSeek Engram 模块如何通过查表机制提升 LLM 效率,实现存算分离。
-
不卷参数卷效率:小米 MiMo-V2-Flash 的架构创新
深度解读小米 MiMo-V2-Flash:当 309B 参数的 MoE 遇上极致的 128 窗口 Attention,如何在性能与效率之间找到完美平衡点。
2025
6 篇-
LLM 选型避坑指南:从 Total B 到 Active A 的实战经验
从踩坑经验出发,梳理 LLM 参数架构与主流梯队,给出选型时的务实参考。
-
从git clone超时到模型跑起来:H800 内网部署的12小时
记录内网环境部署 LLaMA-Factory 的踩坑与配置流程。
-
拒绝鼠标:基于Google GenAI的SolidWorks自动化交互接口设计
记录基于 Gemini 的 SolidWorks 自动化交互开发踩坑过程。
-
MarketPulse : 基于 Google Gemini AI 的金融资讯智能分析系统
介绍基于 Gemini 的金融资讯分析与推送流程,强调自动化去噪与可落地性。
-
用 Rust 给内网装个 AI:Qwen3-VL 部署踩坑实录
记录内网部署 Qwen3-VL 与 Rust 终端工具的实践细节,侧重合规与可用性。
-
DeepSeek R1 论文解读:强化学习如何自主激发推理能力
分析 DeepSeek R1 论文的核心创新,包括 RL 推理、GRPO 算法和模型蒸馏。