开云体育

开云体育斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩03%DeepSeek领衔

2025-04-09
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云体育斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩03%DeepSeek领衔

  【新智元导读】2025年斯坦福HAI报告重磅发布,456页深度剖析全球AI领域的最新趋势:中美顶级模型性能差距缩至0.3%,以DeepSeek为代表的模型强势崛起,逼近闭源巨头;推理成本暴降,小模型性能飙升,AI正变得更高效、更普惠。

  这份报告由斯坦福大学以人为本AI研究员发布,代表着每年AI领域最核心和前沿的动向总结。

  比如,如今在2025年,中美顶级AI模型的性能差距已经缩小到了0.3%(2023年,这一数字还是20%),中国模型正在快速追赶美国的领先地位!

  而DeepSeek领衔的开放权重模型,更是以1.7%之差,逼宫各大闭源巨头。前者和后者的差距,已经由2024年的8%,缩小至2025年的1.7%。

  当然,目前从行业主导企业来看,美国仍然领先于中国。在2024年,90%的知名AI模型来自企业,美国以40个模型领先,中国有15个。

  更明显的一个趋势,就是如今大模型的性能已经趋同!在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它们的差距已经越来越小,锐减至5%。

  最新的斯坦福HAI两篇博文中,浓缩了2025年AI指数报告的十二大亮点。

  2023年,研究人员推出了MMMU、GPQA和SWE-bench等新基准来测试先进AI系统的极限。

  仅一年后,性能便大幅提升:AI在三项基准得分分别飙升18.8%、48.9%和67.3%。

  不仅如此,AI在生成高质量视频方面取得重大突破,甚至,在某些场景下AI智能体甚至超越人类表现。

  2024年发布的RE-Bench基准测试,为评估AI智能体复杂任务能力设立了严苛标准。

  数据显示:在短期任务(2小时内)场景下,顶级AI系统的表现可达人类专家的4倍;但当任务时限延长至32小时,人类则以2:1的优势反超。

  值得注意的是,AI已在特定领域,如编写特定类型代码,展现出与人类相当的专业水平,且执行效率更胜一筹。

  然而,中国模型在性能上的差距正加速缩小:MMLU等基准测试中,中美AI差异从两位数缩小至近乎持平。

  同时,中国在AI学术论文和专利申请量上持续领跑,中东、拉美和东南亚地区也涌现出具有竞争力的模型。

  随着小模型性能提升,达到GPT-3.5水平的推理成本在两年间下降280倍,硬件成本以每年30%的速度递减,能效年提升率达40%。

  更令人振奋的是,开源模型性能突飞猛进,部分基准测试中与闭源模型的差距从8%缩至1.7%。

  2022年,在大规模多任务语言理解(MMLU)基准测试中,得分超60%的最小模型是 PaLM,参数量为5400亿。

  到了2024年,微软Phi-3-mini仅用38亿参数,就取得了同样的实力。

  值得注意的是,头部模型性能差距显著缩小,榜首与第十名得分差已从11.9%降至5.4%。

  采用符号推理方法的AI系统,能较好解决IMO问题(虽未达人类顶尖水平),但LLM在MMMU等复杂推理任务中表现欠佳,尤其不擅长算术推导和规划类强逻辑性任务。

  2024年,美国私营AI投资达1091亿美元,约为中国(93亿)的12倍、英国(45亿)的24倍。

  与此同时,企业AI采用率从55%升至78%。研究证实,AI不仅能提升生产力,多数情况下还可缩小劳动力技能差距。

  更引人注目的是,将生成式AI应用于至少一项业务职能的企业数量激增——从2023年的33%跃升至去年的71%,增幅超一倍。

  2024年,两项诺贝尔奖分别授予深度学习理论基础(物理学)和蛋白质折叠预测(化学)研究,图灵奖则花落强化学习领域。

  全球2/3国家已或计划开展K-12计算机科学教育,但非洲地区受限于电力等基础设施,推进缓慢。

  美国81%的计算机教师认为AI应纳入基础课程,但仅47%具备相应教学能力。

  截至2024年8月,FDA已批准950款AI医疗设备——较2015年的6款和2023年的221款,增长迅猛。

  而在自动驾驶领域,汽车已脱离实验阶段:美国头部运营商Waymo每周提供超15万次无人驾驶服务。

  中国(83%)、印尼(80%)和泰国(77%)民众对AI持积极态度,而加拿大(40%)、美国(39%)等发达国家则相对保守。

  值得关注的是,德国(+10%)、法国(+10%)等原怀疑论国家态度明显转变。

  企业普遍存在「认知与行动脱节」,而各国政府加速协作:2024年,经合组织、欧盟等国际机构相继发布聚焦透明度、可信度的治理框架。

  根据权威AI危害追踪数据库「AI事件库」(AI Incidents Database)统计,2024年全球AI相关危害事件激增至233起,创下历史新高,较2023年暴涨56.4%。

  其中既包括深度伪造私密图像案件,也涉及聊天机器人疑似导致青少年自杀等恶性事件。

  尽管该统计未能涵盖全部案例,但已清晰揭示AI技术滥用正在呈现惊人增长态势。

  75个国家立法机构提及AI频次同比增长21.3%,较2016年增长九倍。

  投资方面:加拿大承诺24亿美元,中国设立475亿美元半导体基金,法国投入1090亿欧元,印度拨款12.5亿美元,沙特启动千亿美元级的「超越计划」。

  报告中强调,虽然2024年,美国在顶尖AI模型的研发上依然领先,但中美模型之间的性能差距,正在迅速缩小!

  为了衡量AI领域过去一年演变的全球格局,HAI特意用AI指数,列出了具有代表性的模型所属国家,美国依然居首。

  数据显示,在2024年,美国机构以拥有40个知名模型领先,远远超过中国的15个和欧洲的3个。

  总体来说,模型发布总量已经下降,可能是多个因素共同导致的,比如训练规模日益庞大、AI技术日益复杂,开发新模型方法的难度也在增加。

  简单的说,参数就是AI模型通过训练学到的一些数字,这些数字决定了模型如何理解输入和怎样输出。

  从2010年代初开始,模型的参数量就蹭蹭往上涨,这背后是因为模型设计得越来越复杂、数据更容易获取、硬件算力也更强了。

  2017年发布的Transformer模型,掀起了大型语言模型的热潮,当时它用了大约20亿个token来训练。

  根据Epoch AI的数据,大型语言模型的训练数据集规模大约每八个月翻一倍。

  像Llama 3.1-405B这样的模型,训练大概需要90天,这在如今已经算是「正常」的了。

  相比之下,2012年的AlexNet就显得快多了,训练只花了五六天,而且AlexNet当时用的硬件还远没有现在的先进。

  最近,知名AI模型的算力消耗呈指数级增长。据Epoch AI估计,知名AI模型的训练算力大约每五个月翻一番。

  去年12月,DeepSeek V3一经推出就引发了广泛关注,主要就是因为它在性能上极其出色,但用的计算资源却比许多顶尖大型语言模型少得多。

  下图1.3.17比较了中国和美国知名AI模型的训练算力,揭示了一个重要趋势:美国的顶级AI模型通常比中国模型需要多得多的计算资源。

  推理成本,指的是对一个已训练模型进行查询所需的费用,通常以「每百万tokens的美元价格」来衡量。

  这份报告中AI token的价格数据,来源于Artificial Analysis和Epoch AI的API定价专有数据库,而价格是根据输入与输出token的价格按3:1的权重平均计算得出的。

  而Epoch AI估计,根据不同任务类型,大型语言模型的推理成本每年下降幅度可达9倍至900倍不等。

  虽然如此,想要获得来自OpenAI、Meta和Anthropic的模型,仍需支付不小的溢价。

  OpenAI CEO奥特曼曾表示,训练GPT-4的训练成本超过了1亿美元。

  在2024年,Epoch能估算的少数模型之一,就是Llama 3.1-405B,训练成本约为1.7亿美元。

  另外,AI模型的训练成本与其计算需求之间存在直接的关联。如图1.3.26所示,计算需求更大的模型训练成本显著更高。

  原标题:《斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

搜索