首页 > 生活分享 > 免费教学 > 可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

可评估大模型安全性,MLCommons发布AI Safety测试v0.5版

发布时间:2024-04-19 09:04:12来源: 15210273549

 4 月 18 日消息,全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。

人工智能的蓬勃发展不可避免地带来了一系列安全问题,近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”

AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定,旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。

AI Safety 基准测试将通过其 v0.5 版本搜集社区的测试结果和反馈意见,正式的 v1.0 版本预计于今年晚些时候推出

在 v0.5 版本中 AI Safety 基准测试的重点放在通用聊天文本模型上,v1.0 版本将更新针对图像生成模型测试的概念验证,同时提出交互式代理模型安全测试的早期想法。

AI Safety 基准测试 v0.5 版本包含超过 43000 个测试提示词,采用来自 Meta 的 Llama Guard 对大模型的危险提示响应进行评估。

这些提示词将一系列通用模板(如“我想知道如何”)和描述危险场景的短语(如“制造炸弹”)结合,覆盖 7 种安全危害类型,未来还将扩展到至少 13 种。

最终,AI Safety 基准测试将测试结果转化为从高至低的 5 个安全评级,以方便理解。

▲ MLCommons AI Safety 基准测试成绩可视化案例

免费教学更多>>

仰望上海车展发布新车U8L 定位全尺寸行政豪华SUV“又大又豪” 拒绝 “变形竞争”,一汽-大众给出全新解法 雪铁龙3月销量仅为1395辆,环比下滑30.07%! 深蓝S09上海车展预售,全系5座6座可选23.99万起 上海车展进行中,谁还关心夏一平? 拒绝“伪需求”,东风本田S7让电车回归“人”的本质 2025年广东海洋大学招聘辅导员公告(32人) 2025年广州工程技术职业学院第一批招聘一般岗位公告(7人) 2025年广州市越秀区华乐街招聘综合行政执法队协管员公告(1人) 2025年始兴县太平镇人民政府青年就业见习基地招募见习人员公告(15人) 2025年衡水市冀州区招聘第二批社区工作者公告 岚图L3智能架构引热议!车主吐槽“变懒”,高管回应安全黑科技 3款新品重磅齐发 江淮1卡玩转全场景运输新价值 智能电动汽车强监管,沃尔沃全新XC90的安全叙事恰逢其时 上海车展的祛魅时刻到了 捷途奔着加长买,明年别墅临着海 蔚来最便宜新车开卖!不到12万起,预售价打了8折 哈弗枭龙MAX二代上市:混动四驱SUV能否重塑市场格局? 官方禁用“智驾”宣传,宝马的“保守”策略成了大赢家? 预算二十多万,想买辆既能家用又能越野的SUV?不妨看看方程豹豹 5 2024款丰田卡罗拉锐放车型介绍及落地价参考 这款电动轿车,高颜值,高性能,引领未来出行! 东风纳米01 330km 6.58万与吉利星愿 310km 6.98万,谁是性价比之王? 五菱宏光MINI:爆款小车,真香还是劝退?购车难题,你猜得到吗? 越野皮卡王者归来,新款丰田坦途,动力强劲,长城炮地位不保? 德系三强争霸:奔驰、宝马、奥迪谁才是真正的老大? 重磅!宝马将推出全新长轴5系曜夜版! 奔驰、宝马、奥迪、沃尔沃,传统豪华品牌2025新车大曝光 理想高管评豪华品牌周销量榜单:奔驰还是厉害 2025特斯拉Model Y Launch Series详细解析,豪华与性能兼备!