昨天 (2026.4.24) DeepSeek 发布了 V4 版本,包括专业版 Pro 和轻量版 Flash、都支持 1M 上下文和深度思考,在 Agent 能力、知识和推理方面有显著提升。
| 模型 | 上下文长度 | 深度思考 | 参数 | 激活参数 | 预训练数据 |
|---|---|---|---|---|---|
| pro | 1M | 支持 | 1.6T | 49B | 33T |
| flash | 1M | 支持 | 284B | 13B | 32T |

V4 开创了一种新的注意力机制:DSA 稀疏注意力 (DeepSeek Sparse Attention),用于实现 1M 长上下文、相比传统方法降低了对计算和显存的要求。

deepseek-v4-flash,deepseek-v4-proreasoning_effort 参数设置思考强度 high/max