ag百家乐在线 机器东说念主可跨类别操作生疏物体,清华建造新步调栽植泛化才调31.6%

发布日期:2024-03-03 04:08    点击次数:119

机器东说念主是否不错像东说念主类不异纯真操作生疏物体?

要想作念到这少量,要津在于赋予其“举一反三”的才调:当东说念主类看到新物品时,能把柄外形或功能,从历史驰念或与物理天下的交互经过中赢得先验常识(比如用开瓶警戒开新饮料)。

这种才调源于东说念主类大致解析物体之间的相似性,并把对熟习物体的操作警戒用到新物体上。然则,枯竭这么的警戒,而让机器东说念主在不熟习的场景中操作物体,是结束智能机器东说念主的要津一步。

清华大学团队提倡了一种名为 Robo-ABC 的步调,使机器东说念主具备跨类别的泛化才调。通过该步调,机器东说念主不错在莫得任何异常实际或东说念主工标注的情况下,径直操作它从未见过的物体。

实验限制闪现,Robo-ABC 在识别操作面目的准确性上比现存步调提高了 31.6%。在内容的抓取任务中,Robo-ABC 的得胜率达到了 85.7%,解说了它在确凿场景中的有用性。

图丨许华哲(开端:许华哲)

日前,关系论文以《Robo-ABC:通过语义对应结束机器东说念主操作的荒芜类别的可供性泛化》(Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation)为题发表在arXiv[1],并照旧被欧洲计较机视觉会议(ECCV 2025,European Conferenceon Computer Vision)收录。

清华大学博士生鞠沅辰是第一作家,助理涵养许华哲担任通信作家。

图丨关系论文(开端:ECCV)

以往的泛化步调时常依赖于实际数据的相似性,只可在与实际数据换取的场景中结束泛化。该照应的翻新之处在于从东说念主类才调的角度开拔去想考泛化问题,而不是从传统的机器学习才调开拔,从而为结束更高档别的泛化才调提供了新的想路和主义。

该照应的初志是赋予机器东说念主雷同东说念主类的跨类别泛化才调,使机器东说念主大致从不同类别的物体中学习并愚弄常识,从而结束更平方的愚弄。

(开端:ECCV)

在该照应中,机器东说念主通过“不雅看”海量东说念主类操作视频,从中提真金不怕火有用的操作信息。当机器东说念主遭逢生疏物体时,系统会从事前提真金不怕火的“操作驰念”中快速匹配视觉/功能相似的参考物品。

接着,通过预实际 AI 模子将操作要津点(如合手持位置)智能映射到新物体上,通盘经过无需东说念主工标注或异常实际,机器东说念主大致以零样本(zero-shot)的面目径直操作从未见过的物体。

固然这听起来颇具挑战性,但照应发现,用预实际的模子不错匡助机器东说念主完成这一任务,即使物体的类别全齐不同。

在该经过中,AG百家乐下载照应东说念主员吸收了扩散特征(DIFT,diffusion features)等技能技能。DIFT 特征本人具有一定的语义对应关系,但并不是径直拿来就能用的。该课题组对其进行了异常的措置,使其对旋转、平移等变化愈加鲁棒,从而更好地符合不同场景下的需求。

(开端:ECCV)

VRB(Visual Reasoning Benchmark)是一个从大界限东说念主类数据靠拢学习的端到端模子,其蓄意是解析物体的可用性,即物体不错被若何使用或操作。照应东说念主员对比了 VRB 模子,相当是它在措置物体可用性方面的发达。

限制闪现,Robo-ABC 在效用上显赫优于 VRB。“这是因为 Robo-ABC 大致结束跨类别之间的互相移动,从而更好地解析物体的可用性。”许华哲说。

例如,若是了解若何合手住发话器,那么也大致忖度出若何合手住放大镜,尽管二者是不同的物体,但它们在体式和使用面目上有好多相似之处。这种才调恰是该模子的中枢上风。

比拟之下,VRB 是纯数据动手的模子。若是实际靠拢莫得包含某个特定的物体(比如放大镜),那么模子在面临这个未见过的物体时可能会失效。

许华哲解释说说念:“咱们的模子之是以不会失效,是因为使用了 DIFT。它是在海量数据集上进行预实际得到的,大致捕捉到物体之间的对应关系,从而在面临未见过的物体时也能作念出合理的忖度。”

在后续的模式中,照应东说念主员还将这种二维映射关系彭胀到了三维空间,结束了一种称为“功能性映射”的技能。通过这种映射,不错将一个三维物体的系数位置映射到另一个三维物体的系数位置。

许华哲例如说说念:“例如,不错将长豆角映射到短豆角上,或者将西瓜映射到南瓜上。这种技能不仅栽植了模子的泛化才调,还使其大致更好地措置体式互异的物体。”

该技能与仅能应付圭臬工业品(如饮料瓶)的传统模子比拟,结束了从“识别已知”到“学习并解析未知”的朝上,有望助力机器东说念主在措置异形食材、修剪树枝等确凿场景中展现出独有上风。

接下来,该团队将从两个主义接续激动这项照应:一方面,进一步扩大物体识别的范围,并栽植其映射精度;另一方面,将该技能与端到端的面目相荟萃,以考证其在复杂任务中具备栽植机器东说念主性能和高超泛化才调的可能性。

参考而已:

1.Ju, Y., Hu, K., Zhang, G., Zhang, G., Jiang, M., Xu, H. (2025). Robo-ABC: Affordance Generalization Beyond Categories via Semantic Correspondence for Robot Manipulation. In: Leonardis, A., Ricci, E., Roth, S., Russakovsky, O., Sattler, T., Varol, G. (eds) Computer Vision – ECCV 2024. ECCV 2024. Lecture Notes in Computer Science, vol 15099. Springer, Cham. https://doi.org/10.1007/978-3-031-72940-9_13

运营/排版:何晨龙





Powered by AG百家乐下载 @2013-2022 RSS地图 HTML地图