首页 > 汽车知识 > 汽车热点 > 谷歌发布FACTS Grounding基准,AI大语言模型“幻觉照妖镜”

谷歌发布FACTS Grounding基准,AI大语言模型“幻觉照妖镜”

发布时间:2024-12-18 22:46:16来源: 13041198719

 12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。

数据集
在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一,最长可达 32000 个 token(约 20000 字)。用户请求涵盖摘要、问答生成和改写等任务,但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下:

 

数据集分为 860 个“公共”示例和 859 个“私有”示例,目前已发布公共数据集供评估使用,私有数据集用于排行榜评分,以防止基准污染和排行榜作弊。

 

评估方案
在评估方案上,FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委,评估答案的充分性、事实准确性和文档支持性。

 

评估分为两个阶段:首先评估响应是否符合资格,即是否充分回答了用户请求;然后评估响应的事实准确性,即是否完全基于所提供的文档,有没有出现“幻觉”,然后基于该模型在所有示例上的平均得分,最终计算得出。

在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

 

汽车热点更多>>

2025年聊城科技职业学院(筹)招聘工作人员公告 2025年聊城幼儿师范学校招聘工作人员简章 2025年青岛科技大学招聘人员公告 2025年潍坊护理职业学院招聘控制总量工作人员简章 吉利上海车展的阳谋:开放安全专利背后,行业标准争夺战已打响 2025上海车展:让我们握手言和,谁也别吹牛了! 长安猎手K50上市,18.29万元起让皮卡也有增程 深度评论:山海炮Hi4-T——越野混动皮卡的技术革新与市场破局 AI时代,如何追求科技向善+科技向美?这家车企给出很极致的答案 广汽昊铂概念车 Earth 大地将于 2025 上海车展亮相!你会喜欢吗? 荣威 D6 实车抵达上海车展!定位为纯电动紧凑型轿车 萤火虫11.98万起售,李斌真的“听劝”了? 32.98万元起,魏牌全新高山开启预售,高端MPV市场更热闹了 敢问路在何方,长安福特探险者的底气在哪里? 全系800V+灵蜥数字底盘2.0 全新智己L6顶配预售不到30万 玩起来!iCAR让年轻人的大玩具更好玩 仰望U8L官图正式发布 轴距加长/豪华感提升 上海车展亮相 压不住了!电池新规、重审智驾,新能源车遇史上最狠“倒逼” Lyft收购奔驰宝马的出行服务合资公司FreeNow 若美国关税政策继续,福特或5月起上调新产汽车价格 沃尔沃汽车CEO:或需两年才能扩大美国产能以规避关税 极星汽车向特斯拉车主提供高达2万美元折扣 一季度交付量增长76% 奔驰计划停产Citan和T级车,进一步缩减与雷诺合作 奥托立夫Q1调整后的营业利润同比大涨28%,超预期 OTA市场竞争格局揭晓,艾拉比以近三成市占率持续领跑第三方市场 6000多个就业岗位虚位以待,总有一岗适合你 新款小鹏X9曝光!更换纯视觉方案!轴距3160mm!属于纯电MPV! 广汽昊铂担任粤港澳大湾区国际青年音乐周官方用车品牌 2024中国车市盘点之七:吉利控股2024乘势而上启示录 A+王者出道屡创销量新高,“大眼小帕梅”埃安RT热销再加码