开云体育
DeepSeek-V3重大升级:6850亿参数引领AI新纪元开云体育
在3月24日晚,AI界创新先锋DeepSeek发布了其最新成果——DeepSeek-V3-0324,尽管市场对新一代DeepSeek-V4或R2的期待依然尚在,但这次版本更新却带来了令人惊叹的技术飞跃。
此次更新不仅彰显了DeepSeek的技术实力,其开源版已在HuggingFace上线亿参数,展现了强大的处理能力和精准的表现。值得关注的是,在官方交流群里,DeepSeek透露V3模型完成了小版本的升级,用户可放心前往其官网、App或小程序进行体验,API接口使用方式依旧保持不变,最重要的是,敬请关闭深度思考,享受新版本带来的乐趣!
此外,DeepSeek还计划在2025年1月推出与OpenAIo1正式版相媲美的DeepSeek-R1模型,该模型借助强化学习技术,在训练阶段充分利用有限的标注数据,提高了模型的推理能力。V3作为一个拥有6710亿参数的混合专家模型(Moe),在激活专家中仅370亿参数参与运算,这一设计在节约计算资源与提高效率上表现出色。
拥有强大能力的DeepSeek-V3模型,摒弃了传统密集神经网络的局限,面临专家负载不均衡的难题,如同交通网络拥堵,导致效率对决分析的障碍。DeepSeek团队以大胆创新引入辅助损失免费负载均衡策略,并增设“偏差项”,在模型训练过程中为每位专家提供赋能,从而智能调整top-K路由。
更让人期待的是,V3还巧妙采用节点受限的路由机制,有效限制了跨节点的通信成本,显著提升了分布式训练的效率。根据国外开源评测平台kcores-llm-arena发布的最新数据,DeepSeek-V3-0324的代码能力达到了328.3分,超越了普通版的Claude3.7Sonnet(322.3分),仅次于334.8分的思维链版本。
随着AI技术的不断革新与突破,DeepSeek-V3不仅是一次版本的更新,更是标志着整个行业向前迈进了一大步,引发了众多媒体与用户的热议。诸多变革是否会掀起AI研发的新潮流,让我们拭目以待!返回搜狐,查看更多