|

聚人网
2000活跃值=1元

首页 > 生活分享 > 免费教学 > 比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

发布时间：2024-03-30 21:52:16

大模型的幻觉问题怎么解？谷歌DeepMind：用AI来做同行评审！事实核验正确率超过人类，而且便宜20倍。

AI的同行评审来了！

一直以来，大语言模型胡说八道（幻觉）的问题最让人头疼，而近日，来自谷歌DeepMind的一项研究引发网友热议：

大模型的幻觉问题，好像被终结了？

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

论文地址：https://arxiv.org/pdf/2403.18802.pdf

项目地址：https://github.com/google-deepmind/long-form-factuality

在这篇工作中，研究人员介绍了一种名为 "搜索增强事实性评估器"（Search-Augmented Factuality Evaluator，SAFE）的方法。

对于LLM的长篇回答，SAFE使用其他的LLM，将答案文本分解为单个叙述，然后使用诸如RAG等方法，来确定每个叙述的准确性。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

——简单来说就是：AI答题，AI判卷，AI告诉AI你这里说的不对。

真正的「同行」评审。

另外，研究还发现，相比于人工标注和判断事实准确性，使用AI不但便宜20倍，而且还更靠谱！

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道，尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT：虽然我的知识储备只到2021年9月，但我敢于毫不犹豫地回答任何问题。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

Claude 3：我可以谦卑且胡说八道。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

为了对大模型的长篇回答进行事实性评估和基准测试，研究人员首先使用GPT-4生成LongFact，这是一个包含数千个问题的提示集，涵盖38个主题。

LongFact包含两个任务：LongFact-Concepts和LongFact-Objects，前者针对概念、后者针对实体。每个包括30个提示，每个任务各有1140个提示。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

然后，使用搜索增强事实性评估器（SAFE），利用LLM将长篇回复分解为一组单独的事实，并使用多步骤推理过程来评估每个事实的准确性，包括使用网络搜索来检验。

此外，作者建议将F1分数进行扩展，提出了一种兼顾精度和召回率的聚合指标。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

SAFE工作流程

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“聚人网用户上传并发布"，本平台仅提供信息存储服务。

下一篇:谷歌Pixel Watch 3智能手表曝光，配307mAh容量电池

上一篇:比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

免费教学更多>>

消息称英伟达 RTX5050 笔记本版升级 128 位显存位宽，配备 2560 个 CUDA 核心 / GDDR6 显存苹果Vision Pro将支持高性能iPad游戏，但未透露具体细节三星Galaxy S24 Ultra 5G手机 12GB+256GB 钛灰骁龙8Gen3 到手价3758元三星Galaxy S25 Ultra 16GB+1TB 钛影黑 5100元北京多所高校禁用罗马仕充电宝！因其更易自燃自爆？企业回应：正在核查中丽弦 VSA-MAX 动圈入耳式耳机体验 - TDS REVIEW 双重身份：公务员如何顺利转型事业单位负责人？京东豪掷千金助阵苏超！\"啤酒+土特产\"营销玩出新高度广州楼市巨变，全面取消限购、限售、限价政策，这一消息引爆市场 8000mAh超大电池，vivo续航“天花板”手机要来了四大旗舰手机巅峰对决！性能影像全面解析，谁才是真正的机王？红米K80至尊版官宣登场，3nm芯片+独显太狠了，K Pad也同步亮相魅族22已三证齐全：5500mAh+骁龙8至尊版，主打小直屏 iQOO 13真实体验：硬件强悍，服务拖后腿话说国内两家支柱型科技企业：华为和中兴苹果 iOS 26 新细节：音频文件可直接设置为 iPhone 自定义铃声苹果 iOS 26 升级快捷指令：扩展引入 Apple 智能史上最轻大折叠！vivo X Fold5真机出炉：三款配色一眼心动 vivo X Fold5 开启预约，多重福利抢先看腾讯副总裁回应王者荣耀人机水平：目前可秒杀比赛级玩家腾讯：2025年Q1腾讯游戏业务实现收入共计595亿元王者荣耀创流水历史新高闪魔手机壳10.9元起，多机型适用智能手机正主导全球网络流量！占比达64% 且还在增长滑雪全景运动相机X5X4：8K高清防抖雪地神器红米Turbo4手机限时优惠1444元 realme Neo7 SE手机12GB+256GB苍蓝机甲超值促销 23 万的小鹏G7，「硬刚」Model Y和小米YU7 小米15 5G手机12GB+256GB浅草绿仅2075元小米手机将在印度执行高端化战略汽车业务也有戏？华为Pura 80系列登场：双焦段长焦及AI构图革新影像高度

Copyright 2018-2025 聚人网版权所有京ICP备20190895号