DeepSeek

xmg2024 2025-04-12 10:19:00

Categories： Tags：

前世

DeepSeek是深度求索公司开发的大语言模型，于2024年1月发布DeepSeek-V1。公司专注于AI基础模型研发，从代码模型DeepSeek-Coder起步，逐步扩展到通用大语言模型领域。

DeepSeek-V2是当前领先的开源大语言模型，参数量670亿，采用MoE架构。在代码生成、数学推理、中文理解等方面表现优异。提供免费API和开源模型，已服务大量开发者和企业用户。

基于Transformer架构，核心特点：1）混合专家模型（MoE），提高计算效率；2）强化学习优化，提升代码和推理能力；3）大规模代码数据预训练；4）中文优化，针对中文场景优化；5）高效推理，支持量化部署。

优点：1）代码能力强，适合编程场景；2）开源免费，使用成本低；3）中文支持好；4）推理效率高。

缺点：1）英文能力相对较弱；2）多模态能力有限；3）生态相对较小；4）企业级服务待完善。

将继续强化代码和推理能力，成为开发者首选AI工具。多模态能力将增强，支持图像、音频等。预计将推出更大规模模型，在通用能力上实现突破，推动AI普惠化。