llm | 分类 | 生命体验家-汤国放的个人博客

2026

8 篇

2026年，黄仁勋告诉了我们什么

2026年6月2日

从 NVIDIA GTC Taipei 2026 看 AI 时代的铲子生意、算法工程师的焦虑、赴美追前沿技术，以及贸易封锁对国内工程师的影响。
Gemini 3.5 Flash：很快，但不再便宜得随便用

2026年5月21日

Gemini 3.5 Flash 的速度、代码代理体验、价格和社区反馈。
DeepSeek V4 发布一周后：便宜、开源、昇腾，以及那些被传歪的点

2026年5月1日

发布一周后复盘 DeepSeek V4：Pro/Flash 两个版本、API 价格、开源许可、逆向限制和华为昇腾支持到底确认到哪一步。
GPT-5.5 重创 Anthropic？

2026年4月24日

GPT-5.5 贵了不少但指哪打哪，OpenAI 和 Anthropic 的恩怨，以及为什么我最终还是选了 GPT。
低算力成本的新秀 Unsloth

2026年2月6日

简单聊聊 Unsloth 为什么被很多个人开发者喜欢，以及它和 SFT、GRPO、DPO 等训练方法的关系。
VLA能在自动驾驶落地吗？

2026年1月21日

聊聊自动驾驶 VLA 现在到底有没有稳定开源模型、它依赖什么数据，以及离真正量产还有多远。
DeepSeek Engram 论文解读：存算分离的架构创新

2026年1月19日

分析 DeepSeek Engram 模块如何通过查表机制提升 LLM 效率，实现存算分离。
不卷参数卷效率：小米 MiMo-V2-Flash 的架构创新

2026年1月19日

深度解读小米 MiMo-V2-Flash：当 309B 参数的 MoE 遇上极致的 128 窗口 Attention，如何在性能与效率之间找到完美平衡点。

2025

7 篇

2024

1 篇

DeepSeek-V3 技术报告解读：省钱与高性能的极致平衡

2024年12月30日

分析 DeepSeek-V3 的低成本训练策略、架构创新和工程优化。