|  | 
 
| 
要说有什么瓜,能从去年吃到今年,那必须得有一大批传统媒体“开撕”AI大厂的一席之地。
x
EDA365欢迎您登录!您需要 登录 才可以下载或查看,没有帐号?注册  2 |2 m8 I: t3 \' E" |
 5 L3 \( O& ~* [2 K8 @. s# `8 S( N5 p# L" ^3 u
 为了防止有人还不知道这事儿,我先简单交代下背景。3 b6 A4 K& _8 X9 H  B% X
 
 0 g- s( \- C7 m, Y; d
 * A# s, n7 O. }这次事件的主角是一家在AI圈内声名鹊起、估值已达180亿美元的初创公司——Perplexity AI。
 / p  p+ r  H. k  y7 ]+ C. I* m% B; a
 E6 V+ W% A9 F  z7 |
 3 L9 \1 K! \( U' J; m2 O6 E而站在他们对面的,则是一个由全球顶级媒体组成的“复仇者联盟”:日本最大的报业集团《读卖新闻》、英国广播公司(BBC)、新闻集团旗下的道琼斯(《华尔街日报》母公司)和《纽约邮报》,以及早已向其发出“最后通牒”的《纽约时报》。& _" b+ h$ e5 A; I6 d3 Z
 % i+ @. X+ j& D. J# W9 U: X
 
 % Q$ @+ Z7 D7 n9 s4 O这些传统媒体们给Perplexity AI安的罪名是未经许可使用版权材料,他们还在自家网站上发了篇文章,专门报道了这事儿。! s+ T: r- i% o0 k: M1 A$ C7 l; n
 
 # [9 g7 }/ R. d% W/ \6 ]9 w# Z( g; J6 Z# b) s
 
 9 t( B# j- l* f8 X0 W
 (图源:读卖新闻) 1 `# f1 ?6 E4 ?; v/ ~: H; q- U- X/ n6 n! R( E+ f; B* s# `! L# H; }
 
 ( F# o& M  H% [2 ~6 u乍看之下,这像是一场传统媒体巨头对新兴技术公司的围剿,一场“旧时代”对“新物种”的宣战。
 0 z8 _' d. A' n( F# A8 Y0 t# ]' D1 {
 
 ( u8 ^! P( Q  B" u0 o- ]; l9 _  j但当你深入了解Perplexity的工作方式后,你会发现,这场争斗远比想象中复杂。它不仅仅是关于几篇文章的版权归属,更是关于互联网信息流转方式、商业模式乃至整个内容生态未来走向的一场深刻博弈。
 2 v: A! U& ^' e2 U: y
 / [/ [* Y9 A; W! ]9 j
 1 M' J$ R' ?( P, \5 N1 H& J1 y( C9 Q# ]2 E
 
 / m( c5 v2 o( s$ I  ~3 k& R
 (图源:雷科技制作)7 ?' A0 L% V6 F# _ * F6 d$ C! d/ u, P/ j- ]
 / A5 k% Z- u8 g
 这一幕,与2014年搜狐新闻们联合起来控诉今日头条何其相似。当年,作为新物种的今日头条用“千人千面”的推荐算法颠覆了互联网内容分发体系,多家传统媒体以及门户网站对今日头条发起诉讼。1 C/ B4 Y  |" @! J' G+ `
 # {' [0 Z7 r5 d; a" E) l0 N5 a1 X/ \
 
 8 g: N9 ~% }# j+ B2 q, C- P# p
 ![]() 2 g5 G! g; T$ [3 w0 ~  s $ G/ a3 @  z8 J
 ' D1 k2 T/ o3 ]9 \7 ^
 那么这一次媒体们起诉Perplexity AI又是怎么回事呢?
 8 e' p. L, W/ P  f9 M9 F7 S4 T
 ( w! L! T$ I$ I, u( e& O" Y7 V# iAI答案引擎PerplexityAI动了谁的蛋糕?
 9 ^3 U, l5 v; P1 Q% w$ N6 b9 o. c) D7 f+ a% n8 G, r8 X  v  Z
 
 2 L9 b1 @3 ?% O
 u, u7 Q# `- q1 f要理解这场风暴,我们首先要搞清楚Perplexity到底是什么。
 - z' ^& `4 U) K4 y2 n# x( m* U
 ! G8 Y/ m; ]# e/ t  `' a
 , R# C5 ~, R$ ^9 S许多人将其称为AI搜索引擎,但这并不完全准确。与其把它看作下一个谷歌,不如称其为答案引擎。这个定位上的细微差别,正是其颠覆性与争议性的根源所在。  J! _( M, U5 S1 R; I
 ( `2 }! z' s; C) i2 i
 
 : p/ k+ w  J& a! I
 3 N% R; l" K! l1 y  W$ d1 ~8 J# L/ F7 o" {/ W# r' Q2 X9 G/ e
 
 (图源:Perplexity)R6 u6 T3 g9 e4 x; F6 g % _8 B) I' X6 c0 p3 d; o  A' w1 V
 6 a  Y7 L$ V* l% T  x
 我们以一个简单的场景为例,假设你想了解“苹果Vision Pro的销量为什么未达预期”,在传统搜索引擎上,你会得到一个长长的链接列表。
 * w) @8 _/ z1 `* S
 : A! U& T. w! C, \. b/ |1 T7 L  b* Q) f( Z
 你需要像一个侦探一样,逐一点击、阅读、筛选、辨别,最后在脑中自己拼凑出答案。此时谷歌的角色,更像是一个尽职尽责的图书管理员,他告诉你相关的书籍都在哪些书架上,但找书和看书的功夫,还得你自己来。
 ' x8 Y4 M9 ]% H7 Z" j: l( p5 z& p" K( V7 @  {+ ~) u/ Z
 它的核心是指路,将流量导向最终的内容源头。
 ( E  K2 f+ l! h9 Q5 k6 r6 W  a9 U' t& s! w, {
 - D* U  k' R( U* t: }
 而Perplexity则不同,当你问出同样的问题,它不会给你一堆链接。2 B" {0 P2 y* ~- }
 
 5 m/ R+ |. D# {0 x0 p# }% @; C' V! f. ~# \7 C0 O; i, \3 E
 
 ' }" N4 k; ~$ d+ j3 ^
 (图:雷科技) 2 l* q  c* U- v/ o6 E7 W
 6 S: E. z* f/ h  |" h) G- v/ z- m! \! R3 ~; W9 L
 相反,它会直接生成一段文字,告诉你原因可能包括价格过高、应用生态不完善、佩戴舒适度问题等等,并在段落末尾附上几个信息来源的角标,就像是替你读完了所有的资料,并把消化、提炼后的结论直接喂到你嘴边。+ z+ F/ N/ L) k
 
 , N( q% j5 i6 z5 Y
 6 f( q' b& N6 |, P它的核心是解答,将信息价值汇聚在自己的平台之上。( J! I$ ^* w2 O( h; [% N6 n
 
 8 Q! H0 h' s  T1 p这种一步到位的便利性,对于用户而言确实是很方便的,它缩短了用户从提出问题到获得答案的路径,提供了前所未有的信息获取效率,这也是如今搜索引擎纷纷融入大模型的原因之一。
 . S$ Y1 S  Y7 |5 n$ A
 8 `5 y: w& z, K3 }% r
 $ P5 o  \  {" T9 J( T然而,这种极致便利的背后,却是对传统互联网生态链的一次降维打击。" Z* y- P% I% v/ B$ w
 ) c1 g( \  X, c9 v. C. H1 i* o
 
 4 B& s4 @$ l, x' S) q6 M; d传统新闻网站辛辛苦苦派记者采访、花编辑时间撰写、投入成本运营换来的深度文章,其最核心的信息价值,被Perplexity的AI模型轻松吸走,然后打包成了自己的产品。# w8 o! ]6 D4 S2 M8 c) D" F- e
 0 w/ f; T/ o- g
 7 G0 ]" r$ r% W; s+ ~9 ~9 ]
 
 1 i- J: N0 E+ B" b
 (图:读卖新闻) / N, V$ V/ d8 Z3 U. Y/ n
 8 v6 R; s) o/ ]$ _+ F5 p  |: y$ D3 w6 c
 这种模式直接损害了出版商们赖以为生的根本:流量、广告展示、付费订阅。在这套新玩法面前,这些都成了为人作嫁的笑话。用户在Perplexity上就已经心满意足,自然也就没有了点击原始链接、访问新闻网站的需求。: z% B) ?+ L) p
 
 + @6 ~" Y( W' V3 I1 e) n1 K, q  B- ]2 s+ w7 U9 w. }% B) U6 P6 ?
 更夸张的是,在此之前,如果你告诉Perplexity因为付费没法儿看某篇文章,让它给你打出原文的第一段,然后再让他给出下文,就能完全绕过付费墙,直接看文章了。
 ' m5 s) K7 E( n5 R- b6 m5 U7 x3 I3 \* R  |8 B8 T8 Z/ [. d3 Y5 w
 6 v' {( M7 O8 }
 ) A) p# `+ d7 w' G% N6 L2 K2 y
 
 (图:雷科技)! @! T; k# f2 ^ 
 + V& e4 m7 i9 h2 T( h% M& a8 M- T# Q- ^8 v' @# @6 _
 不过我试了一下,现在倒是会提醒版权限制了,但是关键内容依然会以摘要的形式进行展现。
 ; T& S0 d$ S$ j3 q% W; D9 M; I8 ?- q0 H0 ?! a2 X+ h# [
 
 6 h# |# u" S% r% N3 ?更让媒体无法接受的,是他们激进的数据抓取手段。
 # T( m8 i, F% Y( B# F
 ' v, [3 t8 N) B6 x% n2 A7 y
 M& D4 |, X, K8 ~2 L7 N7 C# ]% t根据云安全公司Cloudflare的报告,Perplexity存在绕过网站规则、抓取受保护内容的行为。当网站的robots.txt协议明确表示“谢绝爬虫”时,Perplexity的机器人会通过修改自己的代理信息,伪装成普通的浏览器用户,以此蒙混过关。
 # g, k/ P$ D/ D5 u* l  u& i# C% ?
 ! _) K% v9 d8 d) @- m/ }
 3 f- p/ h0 A' j+ l. n2 L) D4 D4 A2 }/ u) `! Y: J9 D/ I2 A
 说实话,看完来龙去脉后,我觉得Perplexity这么做确实有那么点不厚道。: L' v# D/ \* y, m
 
 & U7 ~; ]$ X+ |- r* [
 - v2 p0 a2 v. a; t0 a0 d8 B6 X这也难怪,读卖新闻在最后的诉求里要Perplexity赔偿21.68亿日元(约合1.06亿元人民币)的损失。
 $ g4 ~2 g" V; C; m! ^
 # {9 b% A, h, l2 y' s
 8 s9 n: {  Y) l; o. M9 p& y) ?内容源头“说不清”成了大模型的“原罪”" b. l9 p6 W8 I+ E8 [; X, T
 
 , H, f* S8 E% D6 d; C
 * J% a& q$ Q4 q! [4 t3 o. U& y( V: g# X1 V0 U! l
 有趣的是,Perplexity如今所面临的***,并非孤例。  ?8 y0 x0 Y. r6 L, d
 
 . K5 p" q5 o% D# U  b7 ?. X" d) T  |2 c
 事实上,放眼整个AI行业,类似的争议早已屡见不鲜,几乎成了所有AI巨头都无法绕开的“原罪”。
 / P) c4 t; ?  |7 q
 : }# ^' D: Q% ?2 }- R- X
 - H  |( Z, J, _8 A4 T这片战火,早已经从新闻业蔓延至文学、艺术乃至软件编程的每一个角落。
 3 P. C, I# x1 ~% |0 ]+ |7 d
 9 A4 d* e& j- s0 ^" }" Z1 F5 O
 ) D. i' o9 B  b$ T7 h& Z" j# j在文本领域,2023年末,《纽约时报》正式对OpenAI提起诉讼,指控其非法使用数百万篇文章来训练ChatGPT。诉状中最致命的证据,莫过于展示了ChatGPT在特定提示下,能够几乎逐字逐句地复述自家的付费版权内容。
 * S, Q. g/ s* H' U% S1 k% y' q
 , h) G! Q% t3 Z9 t4 H* Z0 }& p0 l9 g5 h: e+ H8 d8 c
 
 : P) b/ u- Z* d/ R9 Q6 Z! {. [5 H3 e
 (图源:US GOV) - |8 b/ O+ B* e$ D% i
 3 `0 G! E. ~3 J/ Z# g6 A0 Y/ d! U4 }# m' `! \# w& D3 `! k
 紧随其后的,是一个由众多知名作家组成的“复仇者联盟”,包括《权力的游戏》作者乔治·R·R·马丁在内的美国作家协会共同发起集体诉讼,控诉自己毕生的心血之作,在未经许可、未获分文报酬的情况下,沦为了大模型“不劳而获”的训练素材。
 . a' }6 G+ o2 A  @4 @% `, f8 j
 2 N  }+ `+ g$ c$ x$ c* E
 * o* |8 `- S: q& {  o6 k在图像领域,冲突同样白热化。全球最大的图库Getty Images在诉讼中声称,Stability AI非法抓取了其超过1200万张图片进行训练,部分生成的图像中,甚至还能看到Getty Images那标志的隐藏水印。
 . l+ y/ t( [: Z" ~9 o8 V
 1 ]9 X" L  s+ _, {# ?. O4 N, w6 E, A1 i% L! w# H+ S0 q
 此起彼伏的争议,指向了当前生成式AI发展的两个根本性问题。
 . A* j- k1 H& g$ c" {1 Y; ?
 $ {' f5 F5 {/ `
 # q' ]4 M% T8 f: g' C' M* B1 x首先,是模型对大规模训练数据的需求。 要让一个AI变得更智能,开发者就必须为其投喂更大的数据集,这种对数据的需求,决定了AI公司必然会采用“地毯式”的扫荡策略,将互联网上一切可及的数据都纳入囊中。
 , J  r9 H+ W2 L7 _7 I* l& h2 l1 M$ v$ A3 q0 f9 a7 b$ n
 
 $ P5 p% c- ^6 B& U- e) P* S其次,是AI公司试图重塑互联网生态的野心。Perplexity不仅要做网页、插件,更是最近推出了Comet浏览器,旨在成为新的“互联网入口”,希望用答案彻底取代传统的网页链接。
 ; Q  w  }7 z1 y  s7 D- O
 0 t' s$ M8 G6 O4 o7 k
 6 ?1 v$ _" g$ Y7 ?% n7 S9 e这种商业模式的本质,就是流量截留,可以说直接动摇了整个内容产业的根基。7 w) {' Q0 c, N
 ' N$ X! e+ \6 E/ u6 {6 N8 H6 N1 A
 
 # [+ ~, c; j- n6 h2 U+ b
 ! q* o8 `; m, T# s: w! p8 J
 (图源:Perplexity) % S5 c- P: l: ?! _! q
 ( d+ n# `# w( o* D4 V7 U. {1 C8 l6 I+ F  k8 j, }3 p- F2 W- R# G  M. @2 _. g
 面对排山倒海而来的诉讼,Perplexity表示自己根本就不是做AI大模型的,试图以自己只是一个代理应用为由撇责,他们认为抓取网页信息的机器人应该被视为用户驱动的AI助手,但这并不能解释为什么他们能够不经允许直接输出别家网站的内容。
 2 L$ y$ }; a/ ~: I4 ~4 N6 a/ a
 $ K6 r: W3 i' [( J- c" [7 n( l' w* u! o5 a6 m
 至于那些在训练大模型的AI公司们,则不约而同地举起了一面法律大旗——合理使用,他们声称,使用受版权作品训练AI就像一个学生为了学习写作而博览群书,其目的在于技术创新,而非市场替代,当前出现原文的情况只是BUG而已。
 * R$ F8 f; N3 u9 X- ~+ O
 R: Q' Y8 v0 @! t# n2 b" Z
 8 x# D; n. H! a" W( P& G4 q要我说,这种说法多少也有点甩锅的意思。
 * T3 m" r9 ^0 R$ q1 o8 V0 l7 q# F( O& n- z
 0 G; D% n8 Y; F+ f" G" K3 V
 内容版权问题成AI产业的关键之殇& i2 K  `0 E$ g3 {2 z
 
 2 C" k7 l! m: z  u2 w4 @
 : E' R2 }8 K+ J& _0 ~' O! u3 d1 T$ I: x
 你还别说,这次事件的关注度还蛮高的。% v" u7 i( r* G9 ]/ v4 J  D" ~
 2 N: `* y- l) H' C
 $ ~/ Z) w% G: T7 D) i7 R' Q
 
 $ f$ j/ h9 g1 _/ ^- S% _
 2 Q/ q% g9 c# k) ^0 u一边是老牌传统媒体,一边是新兴AI巨头,事情发生后,立刻就有人把这次的案件,拔到了AI版权纠纷里程碑的高度。
 / E( v6 E- ~. O% w% f/ A! F9 |3 G7 X) v; L, U0 B5 b. P
 
 ' P# |5 k+ P* N; P  m! m2 g
 , q0 r& B0 h1 L4 |/ \# Y: C# {! ?' z. `; H: J
 
 ) a! L. k* Q% A
 (图源:X)0 f# H! V) z+ n4 A! C; D$ c  L, p! A 
 3 g: v; R2 j& [2 }
 6 K+ H- E4 {6 \
 2 P) W" j; p3 {, [7 p
 " ?% S) d3 a" H1 q0 \2 B甚至,还有不少科技、媒体圈的大佬亲自下场站队,但是一直到现在,也没人能说得清楚到底谁对谁错。& C4 v( n* d+ n8 \
 
 0 J. ]; g/ C8 k4 W1 A  }) H! C2 \( e3 h' d  Q; c- _/ S0 a
 给一众吃瓜群众,看得是一愣一愣的。
 / A3 G. a: @/ G: C
 5 A3 i/ Y$ \7 ]: K+ p$ c2 M+ o4 [( M1 A
 有趣的是,尽管官司打得震天响,但截至目前,还没有任何一家大型AI公司,因为在训练数据方面的版权争议而被法庭最终裁定需要支付巨额赔偿。
 4 `- ^# R0 h! D$ H5 w; L3 H, ?$ z% o# `/ I5 M' [9 M6 L$ O
 
 % L; y/ J4 ^% D/ N7 e1 z; S  h9 i这是因为,在法庭之外,一种默契正在悄然形成。为了规避法律风险,许多AI公司都开始选择花钱买平安,主动与内容出版商达成授权协议,OpenAI、苹果等巨头,更是已在积极寻求与各大媒体的内容合作。
 7 w/ {( z: P8 i& I& j9 ^( K' W# h, c7 b
 7 J& c, M( S2 K0 U9 D2 {  i$ ^
 & l9 ]7 y! }" m3 x2 z1 ~
 
 (图源:Axios) ( p) Y- q# h+ p4 G- ?9 \. E: a
 3 n5 ?7 P# ], M8 r6 _4 v& M4 c9 i
 % K/ k% j' s! k9 G. r7 t这揭示了一个略显残酷但必须承认的现实——
 6 ?8 x: n/ d) U: K) [, g4 s" v1 f( X  g3 _* _1 z6 p( D
 - K# ?/ X6 ^, Q/ U% U
 一方面,我们无法否认AI公司在发展初期存在着对版权的漠视,其带来的利益纠纷是真实且深刻的;另一方面,我们也不得不承认,没有海量的数据滋养,就没有今天我们所见到的、能够极大提升生产力的强大AI。
 1 S. t1 m2 ~' Y5 u* ]4 X- |: j+ `6 G' f
 
 - W! d% i" O: w+ A继续停留在偷与抓的混乱状态,对双方都是一种消耗,或许是时候跳出二元对立,建立一个规范化的、覆盖全行业的数据使用和共享机制了。# L5 f) x3 b' y) p5 n$ L
 1 v& F" X- ]2 Z2 T) V
 . `) y0 V5 i5 x& z# C/ i
 依雷科技之见,这个机制完全可以借鉴音乐产业的版税系统。" v' R: x  d  z
 
 " ~; P4 Y9 T$ V+ Z  c/ J$ u- s) ~: R1 w7 }
 这样AI公司不再需要偷偷摸摸地去抓取数据,而是可以通过向这个组织支付许可费用,合法地获取高质量、经过授权的训练数据,而该组织则根据数据被使用的频率等指标,将收入分配给作为内容源头的媒体、作家和艺术家们。
 4 h- r+ \6 e' X- N' o+ Q$ r
 : Q9 p( o) X: i0 A( U/ f$ j/ k' @; X- H4 Z9 q
 如此一来,AI的发展便有了合法、稳定、高质量的材料,而内容创作者们的辛勤劳动也能获得应有的回报,从而促成良性循环。* A8 m. m; [$ r5 K
 ; C+ B9 g2 E3 W( w& T
 『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
 | 
 |