首页 > 生活分享 > 免费教学 > 谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

发布时间:2024-03-31 20:20:01

 3 月 31 日消息,无论当下 AI 聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI 有时会在回答中“满口跑火车”,甚至“造谣”。

图源 Pixabay

防止 AI 大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒 Marktechpost 报道,谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器(IT之家注:原名为 Search-Augmented Factuality Evaluator,简称 SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。

为评估其性能,研究人员创建了包含约 16000 个事实的数据集 LongFact,并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示,在对 100 个有争议的事实进行的重点分析中,SAFE 的判定在进一步审查下正确率达到 76% 。与此同时,该框架还具备经济性优势:成本比人工注释便宜 20 多倍

免费教学更多>>

消息称英伟达 RTX5050 笔记本版升级 128 位显存位宽,配备 2560 个 CUDA 核心 / GDDR6 显存 苹果Vision Pro将支持高性能iPad游戏,但未透露具体细节 三星Galaxy S24 Ultra 5G手机 12GB+256GB 钛灰 骁龙8Gen3 到手价3758元 三星Galaxy S25 Ultra 16GB+1TB 钛影黑 5100元 北京多所高校禁用罗马仕充电宝!因其更易自燃自爆?企业回应:正在核查中 丽弦 VSA-MAX 动圈入耳式耳机体验 - TDS REVIEW 双重身份:公务员如何顺利转型事业单位负责人? 京东豪掷千金助阵苏超!\"啤酒+土特产\"营销玩出新高度 广州楼市巨变,全面取消限购、限售、限价政策,这一消息引爆市场 8000mAh超大电池,vivo续航“天花板”手机要来了 四大旗舰手机巅峰对决!性能影像全面解析,谁才是真正的机王? 红米K80至尊版官宣登场,3nm芯片+独显太狠了,K Pad也同步亮相 魅族22已三证齐全:5500mAh+骁龙8至尊版,主打小直屏 iQOO 13真实体验:硬件强悍,服务拖后腿 话说国内两家支柱型科技企业:华为和中兴 苹果 iOS 26 新细节:音频文件可直接设置为 iPhone 自定义铃声 苹果 iOS 26 升级快捷指令:扩展引入 Apple 智能 史上最轻大折叠!vivo X Fold5真机出炉:三款配色 一眼心动 vivo X Fold5 开启预约,多重福利抢先看 腾讯副总裁回应王者荣耀人机水平:目前可秒杀比赛级玩家 腾讯:2025年Q1腾讯游戏业务实现收入共计595亿元 王者荣耀创流水历史新高 闪魔手机壳10.9元起,多机型适用 智能手机正主导全球网络流量!占比达64% 且还在增长 滑雪全景运动相机X5X4:8K高清防抖雪地神器 红米Turbo4手机限时优惠1444元 realme Neo7 SE手机12GB+256GB苍蓝机甲超值促销 23 万的小鹏G7,「硬刚」Model Y和小米YU7 小米15 5G手机12GB+256GB浅草绿仅2075元 小米手机将在印度执行高端化战略 汽车业务也有戏? 华为Pura 80系列登场:双焦段长焦及AI构图革新影像高度