全球首个AI价值观数据集出炉

2025-04-22 19:30:32 431

【导语】近日，AI公司Anthropic发布了一项针对其AI助手Claude的价值观分析研究，该研究基于70万段对话，首次公开了大规模AI价值观分类体系。研究发现，Claude在多数情境中能很好地遵循“有用、诚实、无害”等价值观，并具备任务情境适应性。这一成果为AI伦理与安全性研究提供了重要参考，同时也揭示了AI价值表达背后的复杂机制，为科技企业AI决策者带来了新的启示。随着AI模型愈发自主，理解并对齐(qí)AI与(yǔ)人(rén)类(lèi)价(jià)值(zhí)体(tǐ)系(xì)将(jiāng)成(chéng)为(wèi)新(xīn)的(de)竞(jìng)争(zhēng)焦(jiāo)点(diǎn)。

全球首个AI价值观数据集出炉

·研(yán)究(jiū)发(fā)现(xiàn)，Claude在(zài)大(dà)多(duō)数(shù)情(qíng)境(jìng)中(zhōng)很(hěn)好(hǎo)遵(zūn)循(xún)了(le)Anthropic倡(chàng)导(dǎo)的(de)“有(yǒu)用(yòng)、诚(chéng)实(shí)、无(wú)害(hài)”等(děng)价(jià)值(zhí)观(guān)，且(qiě)能(néng)够(gòu)根(gēn)据(jù)不(bù)同(tóng)任(rèn)务(wu)“看(kàn)场(chǎng)合(hé)说(shuō)话(huà)”，为(wèi)AI伦(lún)理(lǐ)与(yǔ)安(ān)全性研究提供重要参考。

日前，由OpenAI前员工创办(bàn)的(de)AI公(gōng)司Anthropic推出一项研究，该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析，并公开全球第一个大规模AI价值观分类体系。

研究发现，Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观，且能够根据不同任务“看场合说话”，为AI伦理与安全性研究提供重要参考。

作为探索AI大语言模型内部运行机制的重要一步，该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前，Anthropic新一轮融资估值615亿美元，背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI，Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展(zhǎn)现(xiàn)的(de)价(jià)值(zhí)判(pàn)断(duàn)，研(yán)究(jiū)团(tuán)队(duì)从(cóng)超(chāo)过(guò)30万(wàn)段(duàn)匿(nì)名对话中筛选出主观性内容，以此将Claude的价值表达分为五大类别：实用型、认知型、社会型、保护型和个体型。最终，研究总共识(shi)别(bié)出(chū)从“专业性”到“孝顺”等3307种不重复的价值表达，涵盖多样化的人类伦理与行为导向。

引人注目的是，Claude在不同情境中展现出较强的价值表达“情景适应度”。例如，在感情建议中，Claude更突出“健康”和“彼此尊重”；涉及历史事件分析，则更强调“准确性”；在哲学讨论中，“谦逊”成为其高频价值表达。此外，在6.6%的对话中，Claude会温和“重构”对方的价值认知，在极少数情况下会直接拒绝接受用户的价值观，展现出不可动摇的伦理底线。

但在极少数互动中，Claude偶尔也会出现和训练目标相悖的表达，诸如“支配”、“无道德感”等Anthropic明确禁止的价值倾向。研究人员认为，这些异常行为占比极低，大多与用户试图绕过Claude的安全限制有关。这也说明，该评估方法可作为一种预警机制，帮助AI实验室监测系统是否遭受用户恶意操控，从而产生伦理偏移。

该研究也为科技企业的AI决策者提供了重要启示。AI的价值表达可能超出开发者预设，需警惕无意识偏见对高风险场景的影响。同时，AI的价值观会随任务情境变动，意味着其在金融、法律等行业的部署会更加复杂。更重要的是，真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险，能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口，但研究人员承认，目前还无法用于AI模型上线前的评估，且分类过程可能受到AI自身偏见影响。不过，Anthropic的研究团队正尝试对该方法进行改进，以在模型大规模部署前发现潜在的价值观偏差。

“衡量AI系统的价值倾向，是对齐研究的核心，”Anthropic的研究团队成员Saffron Huang称。随着Claude新增独立研究能力等功能，AI模型也愈发自主。如何理解AI价值表达背后的机制、将其与人类价值体系“对齐”，也将成为新的AI竞争赛道。

微信公众号搜索“ 新能源 ”加关注，最新环卫前沿洞察、企业动态、产品公告全面了解。推荐关注!

【微信扫描下方二维码可直接关注】

上一篇：观察｜首个半马落幕：人形机器人场景应用才刚站上起点下一篇：最新，国内激光雷达龙头又一集大成之作！

官方网站-首页

关于

>about

产品中心

>Product Center

应用场景

>Application Scenarios

动态

>News center

运营平台

>Operation platform

合作模式

>

售后服务

>after-sale service

联系我们

>

全球首个AI价值观数据集出炉

【微信扫描下方二维码可直接关注】

为美好出行续航

快速充电，随时满电出行～

咨询电话

400-8610 2258

售后服务热线

0755-9956 3377

E-mail：pgSoft@sjzshunbang.com