您当前的位置：首页 >> 聚焦 > >>

自对齐能否驾驭“狂奔”的AI 世界视点

来源: 科技日报时间：2023-05-25 12:23:48

自Open AI推出ChatGPT大模型以来，AI大模型进入到公众视野，探讨热度飙升，百度、腾讯、阿里等互联网巨头也纷纷公布了其对AI大模型的投资与布局路线图。

然而，在一片火热中，也有不少科技巨头表达了对AI大模型的担忧。利用人工智能写论文、制作虚假图片……在给人类带来便利的同时，“稚嫩”的人工智能技术也暴露出许多安全隐患问题。据媒体报道，被誉为“人工智能教父”的杰弗里·辛顿已从谷歌辞职，只为完全自由地谈论AI大模型等人工智能技术所带来的危险。

狂野生长的AI大模型，真的管不住了吗？来自美国卡内基梅隆大学语言技术研究所、国际商业机器公司研究院等机构的研究人员提出了一种全新的方法——自对齐。该方法结合了原则驱动式推理和大模型的生成能力，从而使用极少的人类监督便能实现AI大模型的“自我监管”。

(相关资料图)

和人类价值观“对齐”

目前，即便是最先进的AI大模型，也无法实现自我监管，仍需要依赖人类指令以及注释进行相应的调整。

“生成式人工智能可以被看作一个预测工具，它主要依靠大量数据样本来预测正确答案。”清华大学交叉信息研究院助理教授、人工智能国际学术交流项目主任于洋表示，所有基于数据统计的人工智能模型，对于“答案”的预测都必然有一定的随机性，而这种随机性所产生的偏差一旦与人类价值观、伦理观、道德观以及法律法规等相悖，就需要对该模型进行监管、完善。计算科学工作者致力于消除这类偏差，尽量使之与人类的价值观、伦理、法律、公序良俗等相符，这被称为“对齐”。

然而，从统计学的角度看，AI大模型一定会“犯错”。因此，AI模型对齐的监管，不应追求获得一个不犯错的完美AI大模型，而是要管理AI大模型产生违规错误的风险。“例如，对话类AI大模型在其对话中，是否会大量出现针对某个地区的地域歧视。”于洋举例道，对于AI大模型的监管，就是为了避免这类内容出现的概率过高、避免模型的答案系统性发生整体倾向这类偏误。

然而，如果AI大模型严重依赖人类监督，会造成成本过高、可靠性不足、存在偏向性等问题。因此，以最少的人类监督实现AI大模型的自我监督成为构建AI大模型的关键。

为了解决这一难题，研究人员提出了一种自对齐的新方法，仅需一个人工定义的小型原则集（规则），便能引导AI大模型生成答复的正确导向，且能显著减少对人类监督的需求，使其几乎无需任何额外注释。AI大模型可以自对齐的设计目标是开发出有用、可靠且符合人类道德观念的AI大模型，包括在生成答案时可以反对用户的有害询问，并且为表示反对的背后原因提供解释。

值得一提的是，此前一些AI大模型至少需要5万条注释，而整个自对齐过程所需的注释量少于300行，监督效率非常高，极大地降低了AI大模型对人类监管工作的需求。

把“打骂”变为“讲道理”

那么，未来AI大模型是否可以实现完全的自我监管？于洋表示，AI大模型监管的主要方式必然是自动化、机器化、算法化的，因为AI大模型依赖海量数据支撑，仅凭人工监管是不现实的。但完全的自我监督不太可能实现，这是因为即使AI学会了相应的人类规则，但它和人类所掌握的规则数量仍然无法比较。同时，人类的思维以及逻辑推理过程具有极高的复杂性，也是AI大模型难以真正“理解”人类的原因之一。

于洋举了个例子，现在的AI大模型监管就好比教育孩子，现有的人工对齐技术方案，其实都是在“打骂”孩子，也就是用奖励和惩罚的方式训练AI什么能做、什么不能做。而真正的教育，是要对孩子讲道理，了解为什么有些事情不能做，即要让AI理解背后的逻辑，理解人类的评判标准。这是一件很难的事情，目前大多数的AI大模型的训练和对齐技术的开发，还停留在“打骂”阶段，要从“打骂”变成“讲道理”，还有很长的路要走。

“除了技术人员开发教育AI合规的技术外，监管当局也必须制度化、系统化地从社会合规和社会影响等方面对AI大模型进行多维度的审计和监管。”于洋进一步解释道，相关行业及管理部门，需要对AI大模型违背人类价值的概率，有一个系统化的评估，并根据AI大模型相关产业的发展现状，调整监管手段，有针对性地提出监管方案，建立动态、敏捷响应技术前沿变化的监管体系。企业也要建立专门针对AI大模型的监管部门，来审核AI大模型中是否包含自我监管机制，以及具体到每一个模块将带来哪些影响，以此尽量降低AI模型的违规风险。

此外，于洋还建议，人工智能的治理，也需要大量的公众参与，因为和训练模型寻找漏洞相比，在大量应用实践中去发现漏洞、完善AI大模型，显然更加高效，也能显著降低AI大模型开发成本，推动AI大模型在各行各业的广泛应用。（科技日报记者翟冬冬）

标签：

上一篇：5月24日一揽子原油平均价格变化率为0.42%

下一篇：最后一页

精彩推送

自对齐能否驾驭“狂奔”的AI 世界视点

自OpenAI推出ChatGPT大模型以来，AI大模型进入到公众视野，探讨热度飙升，百度、腾讯、阿里等互联网巨头也纷纷

来源：科技日报时间：2023-05-25 12:23:48
5月24日一揽子原油平均价格变化率为0.42%
焦点信息:新华保险理赔案例：100万理赔金，为急性白血病幼儿保驾护航

父母之爱子，则为之计深远，有远见的父母懂得为子女将来做好长远打算。小Q的父母早在小Q还没有出生时便为其

来源：新华保险时间：2023-05-25 10:47:58
全球新资讯：永太科技：5月24日融资买入558.05万元，融资融券余额11.91亿元
京味话剧：传承还是创新，关键要抵达人心

赖荼由北京文化艺术基金资助、北京五十六号戏剧工作室等出品、改编自刘连书同名中篇小说的话剧《半个月亮掉

来源：央广网时间：2023-05-25 09:50:57
观点：深圳钢铁垫片进口报关|钢铁垫片进口报关单据清单【报关报检无烦忧】
手机慢应该怎么办_手机慢怎么办快速简单的方法

1、正确退出程序，及时清理内存：程序运行完毕后，按返回或HOME键并不是关闭程序，只是将其切换到后台，程

来源：互联网时间：2023-05-25 08:02:54
李芍毅：把大道理讲成小故事世界热点评
剑桥科技、众生药业等13股获特大单资金净流入超亿元

证券时报网讯，数据宝统计显示，沪深两市全天特大单净流出154 54亿元。个股来看，13股特大单净流入超1亿元

来源：证券时报网时间：2023-05-25 06:17:54
最后的一站无敌版(对于最后的一站无敌版简单介绍)
来电显示私人号码怎么回事（来电显示）

关于来电显示私人号码怎么回事，来电显示这个很多人还不知道,现在让我们一起来看看吧！1、无来电显示

来源：互联网时间：2023-05-25 03:54:58
广东佛山南海被授予“中国氢能产业之都”称号_天天信息
“小田”变“大田” 助力乡村振兴

她，十几年如一日在田间地头劳作，用最朴实的行动诠释着劳模精神；她，用柔弱的双肩攻克一个个难关，辐射带

来源：濮阳日报时间：2023-05-25 02:22:41
全球快播：女人心海底针下半句该怎么接（女人心海底针）
天天快播：卢卡库：之前在切尔西时我就知道，如果在这待不下去可以回国米

直播吧5月24日讯卢卡库在接受HetLaatsteNieuws采访时，还在切尔西效力的时候，他就知道哪怕在斯坦福桥待不

来源：直播吧时间：2023-05-25 00:21:46
环球看点！知识产权也有首席运营官？这个专门培训班日前在沪开班
环球热门:利通电子(603629.SH)董事杨冰累计完成减持7.88万股

智通财经APP讯，利通电子(603629)(603629 SH)发布公告，截至5月24日收盘，董事杨冰通过集中竞价交易方式减

来源：智通财经时间：2023-05-24 22:55:20
杭氧股份：投资设立山西杭沃氢能科技有限公司_天天速讯
全球即时看！天津方特水上乐园园区开放时间2023

2023年天津方特水上乐园园区开放时间：时段具体时间营业时间6月平日（周一～周五）10:00—18:00周末（周六

来源：本地宝时间：2023-05-24 21:44:11
中科创达：通过魔方Rubik大模型已经实现了能够自由对话的智能销售机器人
总台专访丨委内瑞拉国会议员：美国滥用美元影响力害人害己全球新动态

近日，美国又面临债务违约风险，正在寻求再次提高债务上限。委内瑞拉国会议员、经济学家托尼·博萨在接...

来源：央视新闻客户端时间：2023-05-24 19:27:56
还珠格格之人儿何处归85（还珠格格之人儿何处归大结局）
副中心舞美博物馆揭幕|天天速看

夏日午后的晴朗天空下，国家大剧院台湖舞美艺术中心内，院内一朵银白色“雪花”闪耀绽放，这个2022年北...

来源：北京台文艺频道时间：2023-05-24 18:07:07
焦点速看：梁洛施被爆获得李嘉诚认可！居住前男友15亿豪宅，顺利熬成小富婆
朴信惠出演的三时三餐有哪几期要期名_急

想必现在有很多小伙伴对于朴信惠出演的三时三餐有哪几期?要期名急方面的知识都比较想要了解，那么今天小好

来源：互联网时间：2023-05-24 16:34:19
美媒：德桑蒂斯将在与马斯克直播连线时宣布竞选美总统
没落手表贵族-浪琴是如何鉴别的？

①针轴：浪琴秒针针轴依然符合瑞士工艺标准，但由于品牌定位原因，精细程度不高甚至外形并不太圆，基本对称

来源：懂车帝时间：2023-05-24 14:55:52
【天天新要闻】鹏鼎控股：人民币汇率贬值对公司汇兑收益有正向影响
每日快看：趣店、爱财注销小贷牌照，告别金融

作者|子卿出品|消费金融频道「消费金融频道」注意到，趣店旗下小贷公司抚州高新区趣分期小额贷款有限公司（

来源：消费金融频道时间：2023-05-24 14:04:14
全球新消息丨淄博烧烤摊主开始卷横幅了：来了淄博就像到了家，价格堪比618
【天天聚看点】李家超：对国泰航空空乘歧视乘客事件感痛心类似情况不容再次发生

证券时报网讯，据大湾区之声，香港特区行政长官李家超今日（24日）表示，对于有关旅客在5月21日国泰航班CX9

来源：证券时报网时间：2023-05-24 12:34:39
登革热疫情蔓延秘鲁确诊超过2.6万人-世界今日报
Epic放出神秘游戏线索可能送《辐射：新维加斯》？_今日聚焦

近日Epic游戏商城官方在微博上分享视频，放出神秘游戏线索，并附文“假装不知道是啥”。大家来看看图像...

来源：微博时间：2023-05-24 10:44:50
寿险产品预定利率下调分红险或受青睐
索尼宣布以 900 美元的价格推出 ZV-1 II 视频博客相机

索尼最近推出了新的ZV系列视频博客相机，今天宣布了最新成员ZV-1II，这是已有三年历史的ZV-1的第二代型

来源：互联网时间：2023-05-24 09:16:26
【快播报】郑州按下中医药产业高质量发展“加速键”
焦点消息！金牌厨柜（603180）：5月23日北向资金减持7.91万股

5月23日北向资金减持7 91万股金牌厨柜。近5个交易日中，获北向资金减持的有4天，累计净减持7 85万股。近20

来源：证券之星时间：2023-05-24 07:33:23
iQOO Neo8 Pro发布：起步16G内存淘汰12G！
宁波海际电器有限公司

1、宁波海际电器有限公司于2006年08月01日在余姚市市场监督管理局登记成立。2、法定代表人周荣，公司经营范

来源：互联网时间：2023-05-24 05:47:10
快消息！碧山乡
环球信息:福能集团叶扬淼_福能集团

1、这些去面试问问了解下，观察他们员工的工作面貌如何，有机会能单独和员工聊聊那是最好的，凡是都要体验

来源：互联网时间：2023-05-24 02:07:42
武汉市鼓风机厂|观点
海南省租房提取公积金限额调整：夫妻双方单月最高3000元

5月23日，海南省住房公积金管理局发布《关于落实进一步优化租房提取住房公积金政策的实施细则》。其中提到

来源：第一财经资讯时间：2023-05-24 00:27:06
定志珍珠丸世界独家
追着花儿看新疆丨新疆洛浦：戈壁滩不再荒凉有光就有动能-天天快消息

原标题：追着花儿看新疆丨新疆洛浦：戈壁滩不再荒凉有光就有动能新疆和田地区洛浦县，位于塔克拉玛干沙漠南

来源：新华社时间：2023-05-23 22:24:38
如何将珠饰板安装到石膏墙上_给高中生送什么礼物好男生喜欢全球简讯
咏乐汇

《咏乐汇》是CCTV—2推出的一档脱口秀节目。是以主持人李咏邀请朋友做客吃饭为形式的一场闲谈，这位嘉宾既

来源：互联网时间：2023-05-23 20:50:30
中炬高新控股股东所持1087万股将被司法拍卖占总股本0.277%_世界快资讯
微头条丨滨州市技师学院：把产业学院建在产业链上

职业教育加强产业学院建设是推动技能人才培养改革，提升职业教育核心竞争力的逻辑主线，是实现教育链、人才

来源：大众网时间：2023-05-23 19:40:30
消息！门禁品牌十大排行榜（门禁品牌）

X 关闭

电视剧

白百何又“白复出”了？黄轩白百何新剧《欢迎光临》收视表现平平 2022-05-23

X 关闭

电影

热播

《欢迎来到蘑菇屋》：六个“过气艺人”翻红成“再就业男团” 2022-05-23

爱奇艺发布年度电影片单兼顾动作青春爱情等多类型 2022-05-23