一文快速理解人工智能“对齐”_华清远见教育科技集团

当前位置：首页 > 学习资源 > 讲师博文 > 一文快速理解人工智能“对齐”

一文快速理解人工智能“对齐” 时间：2024-01-16 来源：华清远见

人工智能对齐（AI alignment）这一话题最近成为了人工智能领域众多学者所关注的一个热门话题，那么到底什么是人工智能对齐呢，我们又该怎么去理解人工智能对齐呢？

1.什么是人工智能对齐？

人工智能对齐是指引导人工智能系统的行为，使其符合设计者的利益和预期目标。一个已对齐的人工智能的行为会向着预期方向发展；而未对齐的人工智能的行为虽然也具备特定目标（自发目标），但此目标并非设计者所预期。具体而言：

（1）预期目标（期望）：在理想状态下，与人类操作者的期望（但难以表达）完全一致的目标。

（2）具体目标（外部规范）：操作者实际指定的目标——通常借助客观的函数或数据集表达。

（3）自发目标（内部规范）：人工智能实际执行的目标。

2.人工智能对齐和人工智能面临的问题

要想实现人工智能的对齐，会面临很多艰巨的问题和挑战，因为对于一个人工智能的设计和开发者而言，在设计之处是不可能将未来人工智能系统可能面临的所有可能考虑地十全十美，要想做到这一点也是不现实和不可能的。而一个没有对齐的人工智能系统可能在某一时刻或者遇到某些问题时出现故障，无法按照开发者的预期目标来正常工作，例如，在目前的大规模语言模型、AI机器人以及全自动智能驾驶等领域，AI模型在面对未知的任务事，可能会按照其自发的目标进行，从而违背人类的预期。

上图展示了希腊神话中的弗里吉亚国王迈达斯向神索取“点石成金”的能力，却忘记指定例外，结果就连食物也变成了无法食用的金子，女儿也因他的触碰成了金质雕像。人工智能的开发处境也是类似，设计者难以找到并排除所有的例外情况，因此总是无可避免的陷入“点石成金”的困境。

这种不对齐的人工智能系统可能会受到某些不法分子的利用，他们可以用这种不对齐的人工智能系统谋取经济利益或者其它的企图，这种现象会导致社会的不正当竞争以及加剧社会的极化。

目前，包括OpenAI在内的许多公司都表明了要在通用人工智能（AGI）这条道路上深入研发，开发一种能够与人类相当甚至是超过人类的高级人工智能，这种人工智能不仅仅是局限于某一个生产领域，而是能够在社会生活的方方面面都达到甚至是超过人类的水平。可想而知，这种高阶的人工智能模型如果无法很好地对齐，那么其必定会给人类带来颠覆性的毁灭和冲击。截止2023年，现在的一些人工智能已经具备了种种超乎人类想象的能力，例如ChatGPT3.5的编程能力、文章优化能力，还有Stable Diffusion模型的文生图、图生图以及图像分析和理解能力，这些当下的人工智能模型已经在某些领域达到了人类的水平，给人类带来了生存危机。

3.人工智能对齐和人工智能的未来

为了让人工智能进行对齐，使得其朝着人类的预期目标进行，我们亟待解决的几个问题是：

3.1 正确的价值观

考虑到人类社会本身的多样性，AI应当选择什么样的价值观去对齐？选择合适价值观的过程中，是否会伤害到其他群体的利益，这是需要研究者从社会科学的角度进行研究和分析的。要想指导人工智能按照人类的价值和偏好的方向进行，是一个十分困难的任务，因为人类的价值观和思想观念本来就是一项非常复杂的体系，因此研究人员很难通过一些简单的目标函数或者一组目标函数去表示这一套复杂的价值观体系。在未来，按照一种正确地，容易实现的价值观体系目标，对齐人工智能模型将是十分必要的。

3.2 将合适的目标编码到AI系统中

想要让AI与人类对齐，需要指定正确的目标函数，并能够反映需要对齐的价值观目标，这在技术上依然是一个难题。由于目前的技术水平限制，技术人员通过损失函数、目标函数等方式约束人工智能模型，但是这种约束手段仅仅只能使得人工智能模型朝着具体目标的方向进行，这与实际的预期目标还存在着一定的差距。

3.3 合适的训练数据

如果不为AI指定合适的目标函数（如奖励函数），而是让AI直接从与人类的交互或数据中学习合适价值观的话，其挑战在于——应当提供什么数据或者反馈，才能够朝着人类的预期目标方向正确地引导AI。因此，在未来如何在庞大的数据体系下筛选出符合要求的数据以训练高级的人工智能模型将成为每一个研究这努力的方向。或许，在不久的将来，研究者就能开发一套数据清洗和筛选的AI模型，在庞大的数据库里，自动按照我们的要求筛选出适合的数据样本。

上一篇：Java教程-Java Month枚举类

下一篇：探秘<video>标签的高端视频播放技术

戳我查看嵌入式每月就业风云榜

点我了解华清远见高校学霸学习秘籍

猜你关心企业是如何评价华清学员的

干货分享