全球首个AI价值观数据集出炉
【导语】近日,AI公司Anthropic发布了一项针对其AI助手Claude的价值观分析研究,该研究基于70万段对话,首次公开了大规模AI价值观分类体系。研究发现,Claude在多数情境中能很好地遵循“有用、诚实、无害”等价值观,并具备任务情境适应性。这一成果为AI伦理与安全性研究提供了重要参考,同时也揭示了AI价值表达背后的复杂机制,为科技企业AI决策者带来了新的启示。随着AI模型愈发自主,理解并对齐(qí)AI与(yǔ)人(rén)类(lèi)价(jià)值(zhí)体(tǐ)系(xì)将(jiāng)成(chéng)为(wèi)新(xīn)的(de)竞(jìng)争(zhēng)焦(jiāo)点(diǎn)。
·研(yán)究(jiū)发(fā)现(xiàn),Claude在(zài)大(dà)多(duō)数(shù)情(qíng)境(jìng)中(zhōng)很(hěn)好(hǎo)遵(zūn)循(xún)了(le)Anthropic倡(chàng)导(dǎo)的(de)“有(yǒu)用(yòng)、诚(chéng)实(shí)、无(wú)害(hài)”等(děng)价(jià)值(zhí)观(guān),且(qiě)能(néng)够(gòu)根(gēn)据(jù)不(bù)同(tóng)任(rèn)务(wu)“看(kàn)场(chǎng)合(hé)说(shuō)话(huà)”,为(wèi)AI伦(lún)理(lǐ)与(yǔ)安(ān)全性研究提供重要参考。
日前,由OpenAI前员工创办(bàn)的(de)AI公(gōng)司Anthropic推出一项研究,该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析,并公开全球第一个大规模AI价值观分类体系。
研究发现,Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。
作为探索AI大语言模型内部运行机制的重要一步,该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前,Anthropic新一轮融资估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。
为分析Claude在不同任务中展(zhǎn)现(xiàn)的(de)价(jià)值(zhí)判(pàn)断(duàn),研(yán)究(jiū)团(tuán)队(duì)从(cóng)超(chāo)过(guò)30万(wàn)段(duàn)匿(nì)名对话中筛选出主观性内容,以此将Claude的价值表达分为五大类别:实用型、认知型、社会型、保护型和个体型。最终,研究总共识(shi)别(bié)出(chū)从“专业性”到“孝顺”等3307种不重复的价值表达,涵盖多样化的人类伦理与行为导向。
引人注目的是,Claude在不同情境中展现出较强的价值表达“情景适应度”。例如,在感情建议中,Claude更突出“健康”和“彼此尊重”;涉及历史事件分析,则更强调“准确性”;在哲学讨论中,“谦逊”成为其高频价值表达。此外,在6.6%的对话中,Claude会温和“重构”对方的价值认知,在极少数情况下会直接拒绝接受用户的价值观,展现出不可动摇的伦理底线。
但在极少数互动中,Claude偶尔也会出现和训练目标相悖的表达,诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为,这些异常行为占比极低,大多与用户试图绕过Claude的安全限制有关。这也说明,该评估方法可作为一种预警机制,帮助AI实验室监测系统是否遭受用户恶意操控,从而产生伦理偏移。
该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设,需警惕无意识偏见对高风险场景的影响。同时,AI的价值观会随任务情境变动,意味着其在金融、法律等行业的部署会更加复杂。更重要的是,真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险,能够为AI部署提供新的监测方案。
尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。不过,Anthropic的研究团队正尝试对该方法进行改进,以在模型大规模部署前发现潜在的价值观偏差。
“衡量AI系统的价值倾向,是对齐研究的核心,”Anthropic的研究团队成员Saffron Huang称。随着Claude新增独立研究能力等功能,AI模型也愈发自主。如何理解AI价值表达背后的机制、将其与人类价值体系“对齐”,也将成为新的AI竞争赛道。
微信公众号搜索“ 新能源 ”加关注,最新环卫前沿洞察、企业动态、产品公告全面了解。推荐关注!