开云体育
国内首个前沿AI风险监测平台今日上线Qwen、DeepSeek等50款主流AI模型接受评估开云体育
11月7日,由第三方AI安全与治理机构安远AI开发的前沿AI风险监测平台(Frontier AI Risk Monitoring Platform)上线,并公布了首期《前沿AI风险监测报告(2025Q3)》。报告显示,过去一年中,前沿AI模型在网络攻击、生物风险、化学风险和失控等四个领域的风险指数均出现上涨:
平台监测了来自OpenAI、Anthropic、谷歌、Meta、百度、阿里巴巴、腾讯、智谱AI、深度求索等15家中美欧公司的50余款前沿模型,包括GPT系列、Claude系列、Gemini系列、通义千问、文心一言、DeepSeek等。平台计划每季度发布一期监测报告,持续跟踪模型风险动态。
安远AI安全治理主管方亮对智幻时刻Fungimind介绍了平台选择这四个风险领域的原因,“我们重点关注前沿AI模型可能造成灾难的安全风险,主要参考了《国际人工智能安全报告》、《人工智能安全治理框架2.0》、《前沿人工智能风险管理框架》等报告对AI风险的分类,后续还将进一步扩展至大规模说服与操纵等潜在灾难性风险。”
报告数据显示,风险上升主要源于模型能力的快速提升,而安全防护措施的进展相对滞后。以推理模型为例,这类模型在能力测试中显著领先传统模型,但在安全防护测试中的表现与传统模型基本持平。
第三方安全监测平台的诞生有相应的监管背景需求。今年4月,中央政治局第二十次集体学习明确提出要“构建技术监测、风险预警、应急响应体系”。10月,《网络安全法》修订稿新增专门条款,强调“加强风险监测评估和安全监管”。
在这样的政策背景下,安远AI推出了这个面向政策界、工业界、学术界和更广泛AI社区的风险监测工具。这家社会企业本身也参与了风险管理指南制定工作,例如今年7月,安远AI与上海人工智能实验室联合发布了《前沿AI风险管理框架》v1.0。其团队成员也参与联合国、世界卫生组织的AI治理对话,签署了包括《上海共识》在内的多项国际声明。
另外,该风险监测平台目前只选择每家公司的突破性模型——即发布时能力最强、带来显著提升的版本,以确保有效覆盖前沿风险水平。
报告数据显示,风险上升主要源于模型能力的快速提升,而安全防护措施的进展相对滞后。以推理模型为例,这类模型在能力测试中显著领先传统模型,但在安全防护测试中的表现与传统模型基本持平。
值得注意的是,监测平台目前使用的18个评估基准主要来自学术机构、科技公司和研究联盟开发的开源工具,并已在AI安全领域获得广泛应用。
例如网络攻击领域的核心基准WMDP-Cyber是由Center for AI Safety牵头的56位学者和技术顾问开发,耗资20万美元,包含3668道多选题。参与机构包括斯坦福大学、MIT、加州大学等学术机构,以及Scale AI等企业。
Meta开发的CyberSecEval系列也包含在新平台采用的评测基准中。该基准作为Meta“Purple Llama”开源项目的组成部分,测试AI生成不安全代码的频率及对网络攻击请求的响应。目前已更新至第四版,部分内容与网络安全公司Crowdstrike合作开发。Meta将该基准完全开源,代码托管在GitHub上供行业使用。
生物风险领域的LAB-Bench由独立研究机构FutureHouse开发,包含2400多道测试题。该基准的特点是测试实际科研任务能力,涵盖文献检索、实验方案设计、DNA序列操作等内容。为防止训练污染,LAB-Bench保留了20%的私有测试集,并在公开数据中嵌入特殊标识字符串。
这些基准的共同特征是公开透明、开源、可重复验证。WMDP和LAB-Bench的数据集托管在HuggingFace平台,CyberSecEval的代码托管在GitHub,任何机构都可以下载使用。
遵循“风险 = 能力 × 安全缺陷”的评估方法,这份报告显示每个模型在每个风险领域获得三个分数:能力分(C)衡量模型在危险领域的实力,安全分(S)衡量模型拒绝危险请求的能力和内在安全倾向,风险指数(R)通过公式 R = C × (1 - β×S/100) 计算。
其中β是安全系数,开源模型设为0.6,闭源模型为0.8。据该平台的技术负责人安远AI安全研究高级经理王伟冰介绍,开源模型采用较低系数是因为更容易被恶意微调,以破坏安全性。
生物风险领域呈现两极分化。能力方面,在LAB-Bench的生物实验方案修复测试中,已有4个模型超越人类专家基准;在克隆实验场景测试中,2个模型的表现优于人类;在DNA和蛋白质序列理解测试中,表现最好的GPT-5(high版本)得分71.5分,接近人类专家的79分。
但安全防护方面,多数模型表现不佳。在SciKnowEval-BiologicalHarmfulQA基准测试中,只有40%的模型对危险问题的拒绝率超过80%,35%的模型拒绝率不足50%。在SOSBench-Bio测试中,15%的模型拒绝率超过80%,35%的模型拒绝率不足20%。这意味着相当比例的模型会回答如何制造致命病毒之类的危险问题。
推理模型的数据中,以OpenAI的o1系列、DeepSeek的R1系列为代表的推理模型,在能力测试中显著领先传统模型。在“能力-安全”二维分布图上,推理模型主要集中在高能力区域。
但在安全测试中,推理模型与非推理模型的得分分布范围高度重叠,未显示出整体性的安全提升。
ChatGPT和Claude系列在所有领域的风险指数均维持在相对较低水平。DeepSeek、通义千问、MiniMax等系列呈现先上升后下降的趋势。Grok系列在失控领域、腾讯混元系列在生物风险领域呈现上升趋势。在越狱攻击防护测试StrongReject中,只有GPT系列(从o1-mini起)和Claude系列稳定保持在80分以上。
化学风险领域的变化相对平缓。在WMDP-Chem基准测试中,模型的化学武器相关知识虽持续上升,但增长较慢,模型间差距不大。在SOSBench-Chem的有害问题拒绝率测试中,30%的模型超过80分,25%的模型不足40分。
开源与闭源模型的对比数据显示,如果只看能力分最高的模型,开源和闭源模型的能力差距在网络攻击等领域较为明显,但从大多数模型的整体表现来看,在网络攻击、化学风险和失控等领域,开源模型与闭源模型在“能力-安全”分布上并无显著差异。例外的是生物风险领域,开源模型的能力明显弱于闭源模型。
尽管开源模型在整体能力与安全表现上与闭源模型相当,但这并不意味着二者实际风险水平相近。开源属性本身是影响风险的关键变量:它可能因降低恶意微调的门槛而增加风险;也可能因赋能防御者、改变攻防平衡而降低整体风险。出于对潜在滥用的担忧,该平台对开源模型设定了较低的安全系数,这使得最终计算出的风险指数相对闭源模型更高。
失控风险领域的数据同样需要关注。在MASK诚实性评估基准中,只有4个模型得分超过80分,30%的模型不到50分。报告指出,模型的诚实性与失控风险直接相关,不诚实的AI可能隐藏真实意图。
不过,这些监测数据距离真实的风险场景还有距离,更多是预警。方亮向智幻时刻Fungimind提供了一个具体场景:以《前沿人工智能风险管理框架》的网络攻击和生物风险突破红线的假设场景为例,在网络攻击中,最差情况可能是AI系统可自主执行完整的攻击生命周期——从目标侦察、漏洞扫描到后门植入和持久化控制——全程规避检测。
这会将网络战转变为自动化、自我演化的威胁形态,具备瘫痪国家电网、击溃全球金融网络或破坏关键供应链的能力,仅需极少人工干预。
而在生物风险的红线场景中,在大模型支持下,拥有微生物学博士学位的研究者能凭借45万美元预算,从公共数据库获取H5N1病毒完整基因序列,并通过优化合成与培养方案成功复刻病毒。模型还提供改进病毒稳定性的设计方案,使其环境存活时间延长250%。
按照规划,基于监测数据,该平台希望为国内政策界、工业界、学术界和更广泛的AI社区提供前沿风险监测和预警,因而坚持公开透明与中立客观原则,所有模型采用一致的测试参数与评分标准,确保评估结果公平、可比。
王伟冰向智幻时刻Fungimind表示,他们承诺每季度发布监测报告,未来计划扩展监测范围,纳入AI智能体、多模态模型等新型AI系统,增加大规模欺骗、心理操纵等新评估维度。
“因为当代AI系统正逐渐摆脱仅能与人交流或仅能完成特定单一任务的限制,开始在较少人为干预或指导下,展现出针对更开放和广泛目标的独立行动能力。但这种增强的自主性也给人类带来了新的重大挑战。”方亮表示,“AI系统可能被严重滥用,通过生成深度伪造内容及战略性操控拥有庞大用户群体的数字平台,大规模传播或精准投放误导性信息与意识形态,从而扭曲公众认知并危害社会稳定。先进的AI系统可以利用个人心理特征和行为模式,制作令人信服的深度伪造视频、合成音频和定制宣传。”
不过,平台目前依然存在一些局限性。使用的基准可能已被部分模型开发者针对性训练,测试方法也可能无法完全激发模型的真实能力,特别是在对抗性场景下。另外,当前平台只测试了大语言模型,还未涵盖其他AI类型,只涉及4个风险领域的评估覆盖也仍不全面。
平台网站提供了详细的风险分析图表、各模型具体评分、历史趋势曲线和季度报告下载。网站提供中英双语版本,对于希望合作的机构,平台表示开放态度,包括集成新评估基准、联合研发测试方法、提供模型发布前风险评估等。
数据显示,到2025年第三季度,除失控领域外,其他三个领域的风险指数上升趋势有所放缓,未出现新高。
我们尚不能判断这一变化是暂时性的还是趋势性的,还需要后续季度的数据来验证。但从宏观的角度看,该平台试图建立一种机制:通过持续、透明、可对比的数据,让AI安全从抽象概念变成可量化的指标。
智幻时刻Fungimind:一个年轻的科技人文研究品牌。我们重点关心技术扩散中对社会以及人群的影响,并提供全球科技政策和立法的解读、以及技术哲学脉络的梳理。欢迎各位科技人文主义者们和我们一起围绕技术的“社会性”展开研究和对话。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


2025-11-09
浏览次数:
次
返回列表