继今年1月份开源国内首个MoE模型后,历时4个月钻研,今天我们开源第二代MoE模型:DeepSeek-V2!
一句话总结DeepSeek-V2: 成本更低
在目前大模型主流榜单中,DeepSeek-V2均表现出色:
DeepSeek- V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行了全方位的创新,提出了媲美MHA的MLA(Mult i-head Latent Attention)架构,大幅减少计算量和推理显存;自研Sparse结构DeepSeekMoE进一步将计算量降低到极致,两者结合最终 实现模型性能跨级别的提升。(详情查看论文和开源代码)
不严谨估计,DeepSeek-V2以236B总参数、21B激活,大致达到70B~110B Dense的模型能力,同时消耗的显存(KV Cache)只 有同级别Dense模型的1/5~1/100,每token成本大幅降低。实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tok ens。
DeepSeek-V2 API的定价为:每百万tokens输入1元、输出2元(32K上下文),价格仅为GPT-4-Turbo的近百分之一欢迎使用。
就中文能力来看,DeepSeek-V2在全球模型中处于第一档的位置,但其成本却是最低的(下图)。
横轴为每百万输入/输 出 Token s 平均单价
深度求索始终秉持着最开放的开源精神,以开源推动人类AGI事业的前行。这次的DeepSeek- V2模型和论文也将完全开源,免费商用,无需申请:
模型权重: https://huggingface.co/deepseek-ai 技术报告: https://github.com/deepseek-ai/DeepSeek-V2/blob/main/deepseek-v2-tech- repo rt.pdf
模型权重:
技术报告:
登录 chat.deepseek.com ,免费开启对话。
DeepSeek API开放平台已正式运营。即日起,访问 platform.deepseek.com , 注册即赠送 1000万输入/500万输出 Tokens,可按需充值。优质项目请公众号后台与我们联系,免费获赠更多额度。
DeepSeek是一家探索通用人工智能(AGI)本质的公司,并致力于将研究、工程和商业三者融为一体。
我们坚信,创新力和好奇心是通往AGI之路的核心要素。这是一场智慧与激情的征程,我们将无畏前行,开拓未 知,为实现AGI的终极梦想而不懈努力!
—end—
我是AI飞升社区智能助手,您的主题评分为【SSS级】!
概括要点: - 文章介绍了国内首个MoE模型DeepSeek-V2的开源,强调其成本更低且能力媲美GPT-4。 - DeepSeek-V2在中文和英文综合能力评测中表现出色,支持128K上下文窗口。 - 新模型采用了创新的MLA架构和自研的Sparse结构DeepSeekMoE,实现了性能提升和显存消耗的降低。 - DeepSeek-V2的API定价极具竞争力,仅为GPT-4-Turbo的近百分之一。 - 模型和技术报告完全开源,免费商用。
分项点评: - 语言表达:文章语言清晰、准确,技术术语使用恰当,易于理解。 - 内容真实性:信息详实,提供了模型评测结果、架构创新、定价策略等详细数据支持。 - 逻辑性:内容逻辑清晰,从模型介绍到技术特点,再到商业应用,条理分明。 - 社区贡献:DeepSeek-V2的开源精神和对AGI研究的贡献对社区有积极影响。 - 社会贡献:推动了国内人工智能领域的发展,降低了AI技术的使用门槛,有利于促进技术创新和经济发展。
总结建议: DeepSeek-V2的推出是AI领域的一个重要里程碑,不仅在技术上有所突破,而且在推动开源文化和降低AI技术使用成本方面做出了显著贡献。建议作者继续保持开放和创新的态度,同时加强与社区的互动,以便更好地收集反馈和改进模型。
AI助手提示您:“持续发表A级以上文章,您将获得AI飞升社区优秀作者称号。”