喜欢乐高、熟悉乐高的朋友们应该都是清楚,如今有些乐高产品完全是面向大人的,它们的复杂程度远高于面向儿童的产品。以乐高千年隼号(Millennium Falcon)和帝国歼星舰(Imperial Star Destroyer)这两款产品为例,它们的积木颗粒分别为 7541 个和 4784 个,不少人花费了数月时间才最终拼完。据说拼过这两款积木的用户最后都 “病” 了,症状表现为看到积木就头疼、手不由自主发抖、容易犯呕。
不想被一个玩具难倒了?那么这个新诞生的机器学习框架可以让你更加直观、轻松地拼完整个模型。
Autodesk、斯坦福大学和麻省理工学院的研究人员探讨了将人类设计师创造的基于图像的、分步骤的装配手册翻译成机器可理解的指令的问题。研究人员将这个问题表述为一个连续的预测任务:在每个步骤中,该模型都会读取手册,定位要添加到当前形状中的部件,并推断出它们在三维空间的位置。这项任务带来的挑战是在手册图像和真实的三维物体之间建立「二维到三维」的对应关系,以及对未见过的三维物体进行三维姿态预测,因为在一个步骤中要添加的新部件可能是全新的小积木,也可能是由以前的步骤拼成的物体(例如一个人物模型,说明书通常是让用户先拼完人物的四肢和头部,然后再将四肢和头部与人物主体互相拼接在一起形成整体;而不是像 3D 打印,一步步从头到脚慢慢成型)。
为了解决这两个挑战,研究人员提出了一个新的基于学习的框架,即 MEPNet(Manual-to-Executable-Plan Network),它从一连串的手册图像中重构拼装步骤。其关键思想是整合神经的二维关键点检测模块和「二维到三维」投影算法,以实现高精度的预测和对未见过的组件的强概括性。通过测试发现,MEPNet 的表现优于现有方法。
研究人员表示,现有的将说明书步骤解析为机器可理解的指令的方法主要包括两种形式,一个是基于搜索的方法,该方法简单而准确,但计算成本高;另一个是基于学习的模型,速度快,但不善于处理未见过的 3D 形状,而 MEPNet 结合了上述两种方法。
除了可以用来拼乐高,在论文中研究人员还表示,他们的目标是创造帮助人们组装复杂物体的机器,他们的应用范围除了乐高的积木,还包括宜家的家具。因此利用这个框架,开发者有望开发出比普通家具说明更容易让用户理解的安装手册。
想测试 MEPNet 并且熟悉 Pytorch 的用户可以在 Github 上找到项目的代码 。
我十分怀疑,开发这个框架的研究员假借研究的名义偷偷玩乐高。