找回密码
 注册
关于网站域名变更的通知
查看: 90|回复: 0
打印 上一主题 下一主题

智元机器人发布GO-1,「稚晖君」摸着DeepSeek过河?

[复制链接]

该用户从未签到

跳转到指定楼层
1#
 楼主| 发表于 2025-3-13 12:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
机器人行业的DeepSeek-R1,被智元机器人开发出来了?
  F+ }  m3 u) k5 f* t; Q
& X8 F: m* C" d9 k0 ?( P. v% Q; L3 L- a& H* c! d; \" `' j
华为天才少年计划的经历,带给了「稚晖君」彭志辉极高人气,也让他创办的智元机器人获得了行业顶级流量。但若技术实力与流量不匹配,最终这些流量难免化为舆论攻击——就像日前涉嫌营销用力过猛的Manus一样。
, m) J. i2 }3 \. G' q5 I' `3 g! m5 @% t, }1 H6 g8 [9 P- {

7 D% a9 `, I, F好在,智元机器人一次又一次展现出了自己的实力,日前其推出全球首个通用具身智能基座大模型智元启元大模型(Genie Operator-1,以下简称:GO-1),并计划第一季度末对核心用户开源,允许用户将其部署到自家机器人上。8 J3 X# q7 `) H& |
3 B8 _  F; ]5 h% I
8 o$ i1 S8 {6 b5 ?2 E& M! ~6 A
8 H! Q& }- e- r5 G! U1 h
(图源:智元机器人)3 E$ j/ S; }' {0 k8 l" R+ a" ~
5 p( u% E* Z  d) _+ }& _" C, a
9 V# y6 y+ F( |. u# y- \

9 a5 ]$ N9 N2 u0 j3 O; L在DeepSeek-R1面世之后,全球多个AI公司将旗下的大模型开源,并承认开源方能加速推动AI行业进步。GO-1模型现阶段开源程度不如采用MIT开源协议的DeepSeek-R1,但此前智元机器人已将用于训练GO-1模型的AgiBot World数据集、工具链、预训练模型统统开源,未来很可能将GO-1核心代码和模型开源。
1 C% |6 z4 Q  `3 L2 _' [6 w- s3 A' a: k
* d3 Q/ Y; t6 Z8 k
VLM+MoE,智元带领机器人奔向AI时代/ U! @. `% o# a# D. b" J# O7 l

, @3 c9 e4 u. j6 P6 v. {
2 K+ A7 n9 h( H8 I+ D# ?1 F  p/ v
) q" R; P% g9 E模型开源智元机器人方能有机会成为机器人行业的DeepSeek,但开源却不代表一定能够获得媲美DeepSeek的地位,一切终究要实力说话。0 n& c$ u! W  {/ G8 V5 g  R2 O

4 n9 e8 n* e( |4 U% R8 F: u
$ p- z$ |( ~3 P- s( R智元机器人开发的GO-1模型基于Vision-Language-Latent-Action(ViLLA)架构,由多模态大模型(VLM)和混合专家(MoE)组合而成。VLM为具身基座大模型的主干网络,继承了上海人工智能实验室开发的开源大模型InternVL-2B的权重,可实现场景感知和语言理解,并利用互联网上的视频和图片数据训练自身。该模型还能融合多视角视觉、力觉信号,赋予自身通用场景理解能力,从而实现更多复杂的操作。
8 a$ a# b# g% s3 C
$ `. p, `7 ^/ C" S7 k, H2 ?: e
3 S8 m. P* @$ C0 r( ~MoE则分为隐式规划器和动作专家两部分,隐式规划器可利用互联网上的人类或跨本体视频,基于VLM的中间层输出潜在动作令牌(Latent Action Tokens),形成规划链(Chain of Planning),实现通用的动作理解和规划。动作专家可借助仿真或真机数据,优化潜在动作令牌的生成和输出效率,并获得高精度动作的执行能力。9 a1 u; m; b4 |* {& h) I

. K6 j0 |/ O! G" l) A' B  U3 F5 W: t. c' m' X# r0 q; @

3 G$ B, L- G5 M! w4 ]
(图源:智元机器人)! `1 S# G/ g' _5 j. \
9 U4 U1 F# e# H" m9 n* H3 O  H
8 z9 n$ D8 z; J0 C# V6 j$ W6 O) \: r
( {8 ^/ ~, y% V
其具备的动态调节机制,还能实现图像描述、OCR 解析等任务效率的提升,降低数据标注成本和优化资源分配。
/ m! d9 S2 E4 z; w  A+ b
# S& j: W5 u9 O) _' I/ N7 M
8 Y( l# N0 a" f5 v8 O基于ViLLA架构,GO-1模型构建了数字金字塔,最基础的互联网纯文本、图文数据,可帮助机器人理解通用知识和场景;第二层的大规模人类或跨本体视频,可帮助机器人学习人类或其他本体的动作操作模式;更高一层的仿真数据则能够增强机器人的泛用性;最后由真机示教数据帮助机器人训练精准动作执行能力。
7 ]5 L  {+ h! J, s7 U- G- ], ]' V0 \( ^4 D: B

$ j* h! w) K/ x3 f" l& ^. T  V在模型架构之外,用于训练模型的数据同样重要。最新版的AgiBot World包含1001552 条轨迹,覆盖了家庭、零售、工业、餐厅、办公五大关键场景,是目前全球最大的机器人真机示教数据集。
+ \/ Q0 B  e# J& H
1 H- k7 M* b/ `  v4 Z8 |) d$ K/ d$ ^5 i# m3 `
不同于普通轨迹不超过5秒的时间,AgiBot World中的轨迹跨度可达30秒左右,部分轨迹甚至长达2分钟。智元机器人官方数据显示,AgiBot World所采用的预训练模式,相较谷歌Open X-Embodiment训练策略平均性能提升30%,相较现有机器人大模型完成复杂操作的平均成功率提高了32%。
& z) f# W' ]) i6 W4 K, Z; {* `6 u, o4 h& o2 R7 S% n, V. X9 C

6 A2 H  B/ k! E5 C+ ^/ Z

9 c2 f0 K: U; |1 k, ]( b' }
(图源:智元机器人)+ h& o: G6 u2 Q# {: T
- z7 }! d% V) F+ k6 |; `! G
9 Q8 s! _4 M& f0 y8 e8 y7 n

# j0 w; L8 j6 V( ^% o: \/ z与传统机器人模型相比,GO-1模型在架构、数据、预训练模式等方面均有所改进,提升了资源利用效率和模型的能力,能够大幅降低机器人训练和执行操作所需的成本,作用与DeepSeek-R模型较为相似。二者相比,GO-1模型差的可能只有开源模式。
3 j5 M' h* A0 \4 a; t' ]/ @6 Q
, ^) M0 t1 y' X# k! w- M3 B( |8 z5 d0 o
NVIDIA CEO黄仁勋曾预言,两三年内机器人行业将迎来重大突破,未来会像汽车一样普及。在机器人技术从生涩走向成熟的今天,智元机器人也在不断推动产品量产,日前1000台机器人量产下线,已面向全球开源的灵犀X1也完成了首批交付,灵犀X2于3月11日在上海发布,功能更加强大。在未来机器人行业的竞争中,GO-1模型或将成为智元机器人的核心竞争力之一。% }; r0 h% K  t1 q1 e7 j( u; J. i# |
* _1 F& c1 J" m# H. w! [
, o% M7 d8 E6 u  [; N# w
降低门槛,GO-1要做下一个DeepSeek-R1?) L; b9 D- X, V( z$ p$ i

1 \! C( K/ L4 `3 D9 w- b5 R& t! @
, E8 h/ Q$ T1 Q* H6 s% H
阿加犀智能科技有限公司CEO孙晓刚表示,按照目前机器人行业的发展进程,三五年内机器人的价格降到5万元以内没有问题。
  R  A* S& G' k
& N9 |6 l7 ~* q) n, U& i1 G  ?3 z- v4 E6 i! C
5万元以内的机器人,已处于普通消费者可以接受的范围,但购买的前提是其功能足够强大,可以帮助我们处理一些生活琐事。决定机器人能力的关键,在于硬件和智能两方面,GO-1模型要做的就是提高机器人的智能程度。
; P: v, l+ a3 q
7 U/ `9 M( C5 D( f4 p/ N4 C& X* ?/ y0 O& p% L
ViLLA架构赋予了GO-1模型通过人类视频学习的能力,互联网上庞大的视频资源,都将成为机器人进化的「养料」,让机器人能够更高效地完成复杂操作。5 C7 x4 \1 m% B* u0 ^% {* z

) g+ ?4 s& |7 {! n9 U. W6 L; A3 z4 [; \5 J3 y  o) f0 x
其次,小样本快速泛化特性令GO-1模型可以在数据量极少,甚至零样本的情况下,泛化到新场景,无需庞大的数据,从而大幅减少训练成本,降低机器人行业的门槛。
7 |- L+ d) |& i. g4 x! u* y7 w1 R) K* o6 W+ @& t  U
+ F* Q- d) B9 Q, Y, j
最关键的是,GO-1属于「一脑多形」通用机器人模型,能够在两足、轮足等不同类型机器人之间迁移和快速适配。不同类型的机器人可能需要完全不同的AI大模型,用于适配机器人硬件的工作模式,是开发机器人企业的难点之一。GO-1模型打破常规,可以轻松适配各种机器人,无疑能够进一步降低机器人模型的开发、适配成本。; P% W6 f" f5 z, S8 P
  \( m, P  I. g% R  W  K: ~2 K, x3 w
6 e8 L* W7 d1 k4 b
) _3 s. I' r+ d1 v3 ?2 R
(图源:智元机器人)
9 J1 N3 C7 T. H( p
7 o7 I) p3 S4 z
) C8 o. T( L, Z1 A$ q

! v/ w7 A+ `* G* f5 X" t  h2 w另外,GO-1模型还具备持续进化能力,日常工作中遇到的问题,数据都会回流至系统,用于机器人的训练和功能升级。
% _  b0 k7 }) m  W/ B# ?! k2 J* d5 O) A7 E; F

( E; S: T. P5 u尽管GO-1模型仅在本月底面向核心用户开源,但从功能特性不难看出,GO-1已经把「我会开源」写在了脸上,整个大模型几乎完全面向提升能力、降低成本两方面。小样本快速泛化和一脑多形能力,令实力底蕴不足的机器人企业,也能借助GO-1模型快速开发出适合机器人产品的AI系统,并借助国内日渐成熟的机器人供应链实现产品量产。
3 }8 _3 X& L2 E( K) M9 A( y: |" c3 k3 u
; A# r; @  X0 E
与新能源汽车行业类似,机器人时代的到来是一次机遇,比亚迪、小鹏、赛力斯等车企已纷纷入场,还有许多知名度不高的小企业加入,究竟哪些企业能够成长为头部品牌,暂时无法确定。赫赫有名的宇树科技有望成为机器人行业的比亚迪,开发GO-1模型的智元机器人则拥有成为「蔚小理」的机会。
6 n% G( Q% |% ?, s( R
( C+ I  c" C" Q+ d* w! Y3 F: j) s# @+ E# F/ Q8 o; L
同样的,机器人行业的发展之路,也会有许多企业掉队。不同的是,新能源汽车行业工业实力的重要性大于AI能力,而机器人领域AI能力的重要性至少持平工业实力,甚至更胜一筹。而且在机器人行业发展过程中,供应链将不断整合,硬件会收敛,机器人最终比拼的是智能化。
, E+ e- v( E% w: g8 m4 l( k; d- K9 h% Z, a  u

$ Z0 Q4 `: ^, c. \, t: O

5 d" e3 Q* {' S
(图源:智元机器人): }& L$ O8 q$ o% M! l6 d' T  H+ P
- x( y& o( B2 }: m

! x; u/ f' m# b1 O" W6 q3 F" }7 T- Q7 @  g" j2 G  k
正如智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青所言,对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。
" n# _; H$ e& i+ U6 \7 K1 _. Y6 Q2 C# Q

! [# r6 d- X9 `. x1 h智元机器人推出的远征、灵犀、绝尘等多品类机器人,无法发挥GO-1模型的全部价值,将其开源并允许其他企业修改、部署、商用,方能最大限度挖掘GO-1模型的价值,并起到推动机器人行业发展的作用。. f4 X1 t( u) u
, C3 D1 R; u& g" S6 s3 i- x
; n! q5 F) h& l2 G( ^1 e! o
向核心用户开源模型只是开始,未来GO-1模型很可能面向全行业开源,增强其他机器人企业的实力。开源后的GO-1模型,才能获得DeepSeek-R1的地位,成为行业发展的推动者。智元机器人自身也是硬件产品开发公司,借助GO-1的声望,或将进一步打响知名度,并提高产品销量,而非如现在一般,提到智元机器人和彭志辉,大家首先想到的是华为天才少年计划出身的身份。! t: ~' p& U  _
) `. `$ q. Q- g1 I" O+ o3 u
* p: |7 M, Q: c: J/ x3 `& V

* e# S/ @7 y; J3 Y$ M' R/ ?" Q7 k" p" q, A: x; K
『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-6-5 09:54 , Processed in 0.078125 second(s), 23 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表