当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek V3升级版发布:编程数学能力接近Claude 3.7

1个月前 (03-25)DeepSeek技术交流156

DeepSeek于24日夜间发布V3模型小版本升级,新版本DeepSeek-V3-0324在模型参数上达到685B,并采用MIT许可证,为用户带来全新体验。该版本重点提升了数学和编程能力,性能接近Claude 3.7 Sonnet,且对用户免费开放使用。

模型架构全面升级

DeepSeek-V3作为专家混合巨头模型,原始参数为671B,每个Token可激活370亿个参数。新版本DeepSeek-V3-0324的模型参数提升至685B,采用多头潜在注意力和DeepSeek MoE技术支持。知识截止日期从2023年12月延长至2024年7月,优化了Function call功能,解决了此前版本的函数调用问题。

编程能力显著提升

在前端编程领域,DeepSeek V3-0324展现出惊人实力。测试显示,其能在3分钟内完成750行电商网站代码,包含动态产品卡片悬停效果和手机端响应式布局等功能。自2024年6月以来,业界普遍认为仅Claude 3.5能够生成优质前端代码,而此次DeepSeek的升级版本终于为Anthropic带来了强劲竞争对手。在数学能力方面,V3-0324也表现出色,成功解答了此前大模型普遍解答错误的数学题目。

开源协议引领行业变革

DeepSeek V3-0324采用MIT许可证,允许用户出于任何目的使用、修改和分发模型,包括商业用途。这一决策获得业内广泛关注,Perplexity CEO阿拉文德认为,DeepSeek的开源策略具有革命性意义。该模型不仅能在AWS和Azure上以极低成本部署,仅需支付服务器费用,还为创业企业提供了可负担的AI解决方案。这种开源模式可能影响未来AI巨头的融资格局,推动行业向更开放、更透明的方向发展。

本文源自:金融界


“DeepSeek V3升级版发布:编程数学能力接近Claude 3.7” 的相关文章

DeepSeek等大模型促需求增长 上海积极布局算力产业

DeepSeek等大模型促需求增长 上海积极布局算力产业

中新社上海3月28日电 (记者 郑莹莹)“DeepSeek等大模型的爆发应用,促进算力领域的两个拐点提前到来,主要体现在‘增量’和‘提质’两方面。”中国信息通信研究院副院长魏亮28日说。当天,2025...

智能化转型加速!DeepSeek进军消费金融领域

智能化转型加速!DeepSeek进军消费金融领域

随着人工智能技术的飞速发展,其在金融领域的渗透日益广泛且深入,为整个行业带来了前所未有的变革与机遇。在这一波智能化浪潮中,DeepSeek凭借强大的语义理解和生成能力,迅速吸引金融机构关注,包括消费金...

关于DeepSeek V3/R1 Decoding吞吐极限的估计

关于DeepSeek V3/R1 Decoding吞吐极限的估计

经历了一周DeepSeek的打脸活动后,周六 DeepSeek终于开大放出来了自身的推理系统水平,DeepSeek:DeepSeek-V3 / R1 推理系统概览 。在这个结论放出来之前,没...

清华团队推出“安全增强版DeepSeek”

清华团队推出“安全增强版DeepSeek”

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显...

金现代全面接入DeepSeek打造思考能力更强、准确率更高、交互体验更好的智能中枢

金现代全面接入DeepSeek打造思考能力更强、准确率更高、交互体验更好的智能中枢

每经AI快讯,近期,金现代大模型产品全面接入DeepSeek,基于DeepSeek-R1(6710亿参数)的推理能力,打造思考能力更强、准确率更高、交互体验更好的智能中枢。...

DeepSeek价格下调,API调用错峰时段降幅最高达75%

DeepSeek价格下调,API调用错峰时段降幅最高达75%

经快讯,2月26日,DeepSeek API开放平台宣布,即日起,北京时间每日00:30至08:30的夜间空闲时段,DeepSeek开放平台推出错峰优惠活动。在此期间,API调用价格大幅下调:Deep...