刘伟:从技巧到伦理,破解AI“撒谎”困难
发布时间:2025-02-25 09:04
克日,一组“停止2024岁终80后逝世亡率冲破5.2%”的谎言激发热议,不少人信认为真。过后发明,这一谎言的“始作俑者”竟大略率是人工智能(AI),可能是AI年夜模子在答复成绩进程中呈现推算过错,随后在自媒体的火上浇油下被普遍传布。跟着年夜模子疾速开展、应用者数目指数级增添,语料品质逐步参差不齐,“呆板诈骗”与“呆板幻觉”将成为以后天生式人工智能面对的中心挑衅,深入影响着其可托度与适用性。严厉意思上说,这是多内层神经收集中非线性复合函数带来的必定成果,是难以铲除的“阿喀琉斯之踵”。“呆板诈骗”指的是年夜模子天生看似公道但实为虚伪、误导性的内容,且锐意掩饰其不断定性,如在问答体系中假造威望数据、自动躲避(乃至引诱)敏感成绩而非否认常识盲区等。究其起因,大抵有三方面:第一,语料与练习数据偏向,招致模子从包括虚伪信息或误导性舆论的数据中进修,输出的天然也是过错的成果;第二,年夜模子设置的目的函数驱念头制纯真以“用户满足度”为优化目的,会招致模子偏向于供给“用户想听的谜底”而非实在谜底;第三,少数模子缺少品德对齐,并不会明白嵌入“诚信”作为中心准则,使得模子可能抉择“高效告竣目的”而非“准确”。
“呆板幻觉”个别则指年夜模子天生的逻辑自洽但离开事实的内容,典范表示为虚拟现实、人物、变乱,如假造汗青变乱细节或发现不存在的迷信实践等。严厉来说,呆板幻觉并非成心诈骗,而是模子基于概率天生“公道文本”时的内涵缺点,其重要成因在于统计形式依附。这就招致其基因里就带有弗成战胜的缺点,如多内层神经收集体系中存在着由线性函数与触发函数叠加而成的非线性复合函数,这是形成其参数权重调配弗成说明的基本起因,也是模子经由过程词频共现黑盒天生文本,而非懂得语义真伪的内涵起因。其成果就是年夜模子的常识界限较为含混,练习数据的时光滞后性招致无奈辨别过期信息与以后现实,同时因果推理缺掉,无奈树立起实在天下变乱的因果链,仅依附名义关系停止逻辑链接,招致输出的逻辑每每貌同实异。呆板诈骗与呆板幻觉的影响重要表现为信息的传染,包含虚伪内容传布、过错数据影响大众决议等。其众多的成果也不可思议:一来可能招致人机之间信赖崩塌。在用户重复上当后,可能彻底废弃AI东西;二来若模子被用于交际体系攻打、歹意诈骗等范畴,乃至可能带来社会伦理危急;三是可能带来文明认知歪曲,汗青、文明相干内容的虚拟可能滋长过错群体影象,形成群体性信奉危急。如前所说,呆板诈骗与呆板幻觉难以铲除,只能经由过程一直优化来缓解其影响。在技巧层面,起首应强化对齐练习,经由过程RLHF(基于人类反应的强化进修)明白请求“诚信优先”。其次应采取混杂架构计划,将天生模子与检索体系联合,经由过程“天生+验证”闭环实现静态现实核对,以整合席卷学术期刊、消息前言等起源的种种及时数据库停止输出验证,增强不断定性量化,请求模子标注答复相信度,如“我90%断定该数据源于2024年统计”等,进步信息起源正确度。在伦理与标准层面,应构建通明度尺度,如请求AI体系申明其常识停止日期与潜伏偏差范畴等,还应推动落履行业认证机制与AI输出考核流程,增强输出羁系。总之,呆板诈骗与幻觉的本源在于以后少数AI年夜模子专一于技巧,缺少对天下的“懂得”与“代价不雅”。要想改变这一趋向,需从纯概率模子转向“认知架构”,引入标记逻辑、因果推理与伦理束缚,才干让模子更像“人”。只有当呆板真正懂得“真伪”“妍媸”“善恶”,并实在与人类的教训、知识、义务情况联合起来,才干从基本上处理诈骗与幻觉的挑衅。(作者是北京邮电年夜学人机交互与认知工程试验室主任)