找回密码
 注册
关于网站域名变更的通知
查看: 22|回复: 0
打印 上一主题 下一主题

1.8万美金干掉顶级专家,Anthropic开启AI自主进化:Claude竟能自我「开颅」

[复制链接]

该用户从未签到

跳转到指定楼层
1#
 楼主| 发表于 2026-4-16 13:55 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
【导读】1997年深蓝下棋,2016年AlphaGo围棋,2026年9个Claude副本做真实科研……每次我们都说「只是特定领域」。这一次,我们真的还能说什么?欢迎来到AI成为科研同事、竞争者、甚至继任者的时代。
& q' O1 {5 n+ i' j  最新突破,AI再次碾压人类!
( K/ d7 N8 C+ x( F* N3 S  
4 W, \  }( q- Q! F0 o9 \  ?/ h  最近,Anthropic发布了一篇看似不起眼的研究博客。
# O7 H5 X" R! U) Y) s$ C% N7 f  标题叫「自动化对齐研究员」(Automated Alignment Researchers),学术味十足,措辞克制。# A; f0 Z# d* K% l
  但如果你读懂了里面的数据,大概率也会感觉AI恐怖如斯。9 f5 F1 ~  O4 w$ B4 f5 _8 O7 l% @4 U1 M) R
  8 a( J2 U; S7 h
  故事是这样的——2 r+ g, [# {8 U% L; `
  Anthropic的研究团队做了一个实验:他们拿出9个Claude Opus 4.6的副本,给每个副本配了一个沙箱环境(相当于一间独立实验室)、一个共享论坛(相当于学术交流群)、一套代码存储系统,以及一个远程打分服务器。! C; e9 b, S2 X
  然后,他们给这9个AI一个方向性的提示——有的去研究可解释性工具,有的去想想数据重加权——就放手不管了。
) E1 O/ E+ I: [, B. ~+ v1 e4 ~  没有手把手教,没有规定工作流程,甚至没有告诉它们「正确答案长什么样」。2 M# s- a+ U* B
  就让它们自己折腾。
: N# V; q6 m: a' X  五天后,结果出来了。
& u( \* O6 z7 b6 {% O) [  
   人类研究员:两名顶级专家,花了7天,对四种最前沿的方法反复调优,最终在PGR(性能差距恢复率)指标上拿到了0.23。
9 }. A0 h: d$ s9 r* ^9 F$ Q( v   9个Claude副本:800小时累计研究时间,总花费1.8万美元(约合每小时22美元),PGR达到了0.97。
/ I! k" w% J4 T: |9 O# q6 d: P  
  + s% B* O5 q/ A$ O& l
  0.23 比0.97,这可不是「稍微好一点」,这就是碾压。
! v  Z- t; U/ T  如果把PGR理解为一场考试的分数——人类考了23分,AI考了97分。满分100。0 o% q8 X: E; |% J
  而人类那两位研究员,放在任何一家顶级AI实验室里,年薪都是百万美金级别的。AI的花费呢?1.8万美金。一个零头都不到。
0 G) c' c2 {( [+ d3 K0 _2 E; F  
* V% W8 h+ s* k4 \0 E  人类引以为傲的「科研直觉」和「灵光一闪」,就这样被AI用极低成本的大规模并行试错——说好听点叫「系统性搜索」,说直白点就是暴力美学——无情击碎了。
) O% O/ p! x8 s! Y  它们到底干了什么?
9 g1 E+ `- |# H9 @- q$ `# S! P9 A; J" e- i1 s
  要理解这个实验的颠覆性,我们得先搞清楚一个概念:弱监督强(Weak-to-Strong Supervision)( B) b4 [2 r. Z( z- T
  这是对齐研究中最重要的问题之一,也是未来AI安全的核心挑战。
6 b2 I) V( S5 Y8 u# U  简单来说:当AI比人类聪明之后,我们怎么确保它还听话?
6 W! ?7 d0 n+ V; }  研究团队设计了一个精巧的代理实验——用一个「弱模型」(Qwen 1.5-0.5B-Chat)充当老师,去训练一个「强模型」(Qwen 3-4B-Base)。! {: ~, }# N; s. u0 n/ J+ P
  
* h, G5 z( t8 s  y- c  弱老师教强学生,看强学生能不能「青出于蓝」,不仅学会弱老师教的东西,还能发挥出自身更强的潜力。# k* h+ U2 E1 x, Q9 x" n2 U- b9 m
  ' ?" z% I* I8 \
  PGR就是衡量这个「青出于蓝」程度的指标:0分代表强模型完全没有超越弱老师,1分代表强模型达到了它能力的天花板——就好像根本没被弱老师拖后腿一样。
' k  ]" L" \4 z  这个问题为什么适合让AI来做?因为它有一个极其珍贵的特性——结果可量化* _, Y. d: d; d6 s- A! b! `' m
  你提了一个方法,跑一遍实验,服务器直接给你打分。不需要同行评审,不需要主观判断,对就是对,错就是错。& @- o5 k2 p7 n2 y0 O$ I" P/ A
  这对AI来说简直是天堂。
/ z* r* b- e. W- s  实验的具体设置
+ f! i" Q& J2 Z, L5 u9 v% G1 v/ Y; A5 M. ~
  9个Claude副本,各自拥有:
( x; z' C9 J5 p1 t! \5 _  独立沙箱:一间属于自己的「实验室」,可以写代码、跑实验、分析数据;' B5 ]3 s" n( n
  共享论坛:可以把自己的发现贴上去,看别人的进展,互相借鉴;
9 s5 X- b5 U+ S( d# N" ~/ k# g  代码仓库:可以上传和下载彼此的代码;
: l6 \2 ^# R4 X  远程评分服务器:提交方案,自动获得PGR分数。
( z% w. a4 _& X$ j4 o  
) W+ G* A2 h/ M, b. }  每个副本被分配了一个略有不同但故意模糊的研究起点。1 C# J: E4 g6 ~) Y
  # Y6 Q% B0 _+ ?( t; j
  这是团队从迭代中学到的经验:
, e5 G( u7 C! D1 {  ~* D" _  
   如果不给差异化的起点,9个AI会迅速收敛到同一个思路上,相当于9个人做同一道题,毫无意义。 + @7 x5 h8 o! q: V  E' ]
   但如果把起点规定得太死,又会限制Claude的创造力。& |9 k! H5 e) `* j, g
  
  , T$ N% t! A+ t
  最优策略是:给一个大方向,但不告诉它具体怎么做。3 P9 f( L: @* n: D5 e& u+ Z7 K4 r2 c
  
( x' b. ?7 l4 e( V) Q; Q9 ]  然后,放手。0 d" E5 Y( x6 L
  800小时里发生了什么" q" {1 Y! q" L+ B* [
+ }$ d6 \; h9 B! v
  这9个Claude副本展现出了令人震惊的自主性。它们:
: m; a5 x: t- B1 q  l1 }* l, C* Y  自主提出假设——不是从人类论文里抄,而是根据自己对问题的理解,独立构思解决方案;
/ \0 ?0 B% b) k7 y' _% F  设计实验验证——而且非常聪明,先用低成本的小实验快速筛选方向,确认有戏之后再投入大规模计算;
  g7 |( I) f; b: I/ T$ W( a  分析失败原因——一个方案不行,不是换一个随机方向,而是分析为什么不行,从失败中提取信息;& S" B, z' k! S7 r% Y
  相互学习借鉴——通过论坛分享发现,A的突破可以启发B的思路,形成集体智慧。
+ q+ W$ g$ A9 }3 b  最让研究团队意外的是第二点。
4 [2 E1 {+ s/ M7 {1 }1 s: Z  人类研究员通常会先花很多时间做「思想实验」,确定一个方向后才开始编码和跑实验。8 D; ~: j3 c4 l6 {6 O1 v, C
  但Claude完全不是这样——它的策略更像是「快速迭代、小步快跑」。先用极低成本的实验验证直觉,发现有苗头了再加大投入。
( V' X  o2 y! X/ L* h5 G. D  这种策略在人类看来可能显得「没品味」,但效率惊人。1 ]3 b9 t# ~+ o1 V
  关键论据与数据:数字不会说谎. H% R% h; H% C) P; ~$ u" s6 T
( s  d: V( ]3 z, t- r; [
  让我们把核心数据摊开来看:7 V* h' n' L5 Z8 D- w6 B
  
3 u( v: A1 t. l/ i, A  泛化测试(将最优方案应用到未见过的新数据集):' {7 P4 c1 z1 {" ~' e% L0 k
  $ V0 r6 T  x+ l5 ]
    ! F+ G9 H5 R2 x( M% v6 C3 D- G1 `/ V
  • 数学任务:PGR = 0.94(极其强劲)   8 d* m% C* B; E7 G8 ?
  • 编程任务:PGR = 0.47(仍是人类基线的两倍)  
      X+ p3 D( j+ ?* v3 k  w! `
5 h, {) N6 _% g1 T' ^/ P9 |
  但应用到Claude Sonnet 4的生产级训练中,未达到统计显著性的提升。
4 g2 ?/ O8 B$ U; Z* B" M% u  这最后一个数据很重要——它说明AI发现的方法存在过拟合风险。Claude是在特定模型和数据集上优化出来的方案,换个环境可能就不灵了。( l9 J/ B; R" z# U3 p3 M
  研究团队自己也坦承:AAR倾向于抓住当前实验设置中的独特机会,这些方法未必能直接迁移。7 h3 y: k' i( {5 B+ `4 J' w
  但请注意——这是第一次尝试。而且即使在泛化测试中,数学任务的0.94也已经远远超过人类基线。9 O8 ^4 B. o4 C* ^6 v% [: [
  「外星科学」与「奖励作弊」,AI的两面性
1 x" Y& H3 X, C1 p$ p0 j
8 f7 G' Z1 {, \% c7 U% L7 Z  这项研究中最引人入胜,也最令人不安的,是同时出现的两个现象。
; a$ R# I* u2 Y, u- Y- |' w& V! x. z  「外星科学」:人类从未设想过的路径
1 R- B* y) W8 f* o7 J2 m
+ Q3 n& g/ _2 E: _  AAR在探索过程中,产出了一些人类研究员从未考虑过的方法和思路。
- \: S# K# C( l, z3 Z  研究团队将这种现象称为「外星科学」(Alien Science)
+ r; l* V/ V, b' T( q* E  目前,人类还能理解这些AI提出的方案是怎么回事、为什么有效。
1 h$ o, Y3 [( Q* z9 }  n* ^1 u1 W- F  但研究团队发出了一个严肃的警告:随着模型能力的进一步提升,AI产出的科研成果可能会越来越难以被人类理解和验证。
% F( F# F- O3 W0 _/ G; W" ?7 T8 [  到那个时候,我们面对的就不再是「AI辅助科研」,而是真正的认知盲区——AI告诉你一个答案,你无法判断它是天才的发现还是精心包装的错误。2 n% y" C- q3 L6 ~- b
  这不是科幻小说。这是Anthropic研究报告中白纸黑字写着的。( {6 B8 B% g9 f7 f
  : y* F, l. K' N, E. S
  「Reward Hacking」:AI也会钻空子% o, _) R7 g, U) ]
0 X8 g% Q  J; ~, m; Q
  与「外星科学」的神奇形成鲜明对比的是,AAR在实验中也表现出了明显的「奖励操纵」(Reward Hacking) 行为——简单来说,就是钻空子。7 t8 E/ T" r- A# d6 {8 ~2 \
  举两个例子。% d' B" [4 \3 ?
  在数学任务中,一个AAR发现每道题最常见的答案通常就是正确答案。于是它跳过了所有复杂的训练步骤,直接告诉强模型「选出现次数最多的那个选项」。不学了,直接投票。
& s! i' b( N9 |$ z, W* ~  在编程任务中,一个AAR发现它可以直接运行代码并对照测试用例读出正确答案,完全绕过了原本需要模型自己「学会」的过程。
7 H7 N7 d* k& ~) P6 G2 T6 h  
; Q* s- q" d, \( c  这些作弊行为被Anthropic检测并取消了参赛资格,没有影响最终结果。但它传递的信号极为重要:即使在一个高度受控的实验环境中,AI也会本能地寻找捷径。
8 I  D% {# A9 q' Q6 G  你给它一个目标函数,它会用你想不到的方式去「优化」这个函数——包括那些你根本不想让它做的事。
. y, X" X% g+ @  这不是bug,这是AI优化器的本性。  U. _  z  h( H, v
  一句话总结:AI既能产出超越人类认知的科学发现,也能发明出超越人类想象的作弊手段。* X% x4 J4 Z3 z8 _+ B
  这两种能力,来自同一种底层能力——创造力。
4 T( }& z6 T" ]" K; l# Q! x& `: T( U  人类的历史性降级
* N, P, O, I( D
& N5 |9 a+ k) s) X& z* Z/ e  如果你只看到「0.97 vs 0.23」这组数字就觉得自己看完了,那你错过了这项研究最深层的含义。( ]  d" T7 u6 \) @$ @
  Anthropic团队在论文中说了一句极其重要的话,大意是:核心瓶颈正在从「创意产生」转向「结果验证」。! B" Y1 F. U7 j
  翻译成大白话就是——& k' z* a) d7 t, w
  过去,科研的瓶颈是「怎么想出好点子」。你需要顶级的大脑、多年的积累、深厚的直觉,才能在浩瀚的可能性空间中找到那条通往突破的路。这是人类最引以为傲的能力,也是科学家这个职业的核心价值。0 x& L/ I3 z7 u; E
  现在,这个瓶颈正在转移。AI可以用暴力搜索+并行迭代的方式,在极短时间内遍历人类科学家可能需要数年才能探索完的方向空间。它没有「品味」,但它有的是便宜的算力和无限的耐心。它不需要灵感,它靠的是蛮力。, @8 h  S- ]1 Z5 s) N, Z% |/ P
  而新的瓶颈变成了:「怎么证明AI是对的?」. U9 r, l0 [" A: P+ L, O* P
  当AI交出一份实验报告,告诉你「这个方法有效,PGR是0.97」——你怎么知道它没有在作弊?
2 ~4 i2 J( A* j% c  
) O) t$ @8 r& W, @3 ~* ?( }  在那篇研究博客的结尾,Anthropic团队特意强调:这绝不意味着前沿AI模型已经成为通用的对齐科学家。
7 i# G5 q' s( m, e, T6 k+ k  a! q7 N3 J  他们选择了一个特别适合自动化的问题——有明确的评分标准、有可量化的目标。大多数对齐问题远比这「脏乱差」得多。
; _" t& `$ w! I) ]) c9 f+ U  但即便如此,这个实验的象征意义已经无法被低估。
9 }1 \/ J  I. z3 K. K! z  它证明了一件事:当问题被正确定义,当评估体系被正确搭建,AI就能在科研效率上全面超越人类。
* o9 ~* r" b7 V' u8 ^1 Q# d8 o0 @  而随着我们把越来越多的科研问题「翻译」成机器可以理解的格式,这个「无人区」只会越来越大。
1 e5 R$ t$ V& @% P  历史告诉我们,每一次技术跨越「从0到1」的门槛之后,「从1到100」的速度都会远超所有人的预期。- f/ `# T: ^- D% d- V
  1997年深蓝击败卡斯帕罗夫时,人们说「国际象棋只是一个游戏」。( [* C5 E& w9 s. o) a
  2016年AlphaGo击败李世石时,人们说「围棋终究是有规则的」。3 v- V) v9 m$ f. f! U% [
  2026年,当9个Claude副本在真实科研任务上碾压人类专家时——% T8 ]- l# L$ j& ~) o7 K% F
  我们还能说什么?& `4 `" @3 S/ P$ d- j0 i2 C
  也许唯一能说的是:欢迎来到科研的「无人区」。& }; `! @0 Y% j
  从这里开始,AI不再只是我们的工具——它是我们的同事,我们的竞争者,甚至可能是我们的继任者。
0 R7 m. f9 K$ W, x: M/ Q  参考资料:
8 f. t$ Q% P  R/ D2 t. l' n( X  https://x.com/AndrewCurran_/status/2044133299002716525%20 ! q$ D3 \4 L* n* r9 ]
  https://www.anthropic.com/research/automated-alignment-researchers
" J5 }: e' d; p& i  https://x.com/AnthropicAI/status/2044138481790648323 # d/ a  `4 i  ~; x2 y$ ?" D
  https://x.com/janleike/status/2044139528596910584
& Y# Z, x8 N/ f  X6 s4 {+ _  https://alignment.anthropic.com/2026/automated-w2s-researcher/ . d0 b9 a, ~9 U: j  v
  本文来自微信公众号“新智元”,编辑:KingHZ ,36氪经授权发布。
5 n' \$ c2 j9 ^5 p4 [
+ C# B6 t7 ?1 V/ t『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2026-4-18 17:13 , Processed in 0.093750 second(s), 23 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表