亚洲体育首页加州大学伯克利分校在读博士吴峥:基于密集奖励的强化学习及在机械臂操作

时间:2022-07-29 23:57 作者:bob 分享到:

  「AI 新青年讲座」将约请天下顶尖 AI 研讨机构和大学的科研新青年,主讲他们在计较机视觉、机械进修等野生智能范畴的最新主要研讨功效。

  AI 新青年是加快野生智能前沿研讨的重生力气。AI 新青年的视频解说和直播答疑,将能够协助各人增长对野生智能前沿研讨的了解,响应范畴的专业常识也可以得以积聚加深。同时,经由过程与 AI 新青年的间接交换,各人在 AI 进修和使用 AI 的过程当中碰到的成绩,也可以尽快处理。

  「AI 新青年讲座」今朝已结束 131 讲,错过往期讲座直播的伴侣,能够点击文章底部 浏览原文 停止回看!

  机器臂强化进修比年来开展疾速,从活动计划、抓取安排到零件装配,都出现了大批研讨功效。虽然存在数据服从、交互宁静、sim2real gap 等多方面的成绩,强化进修以其智能决议计划的特性在机器臂范畴仍然大有使用远景。

  机器臂强化进修的使命中,嘉奖函数起着相当主要的感化。为了到达所需的战略,设想适宜的嘉奖函数凡是需求大批的范畴专业常识和重复实验。来自加州大学伯克利分校的吴峥博士等人,为了最大限度地削减为打仗丰硕的操纵使命设想嘉奖函数所触及的事情量,提出了一种可以从机械人的高维察看(如图象和触觉反应)中提取麋集嘉奖函数的办法 DREM(Dense Rewards for Multimodal Observations)。

  与开始进的高维嘉奖进修办法比拟,DREM 不操纵对立性锻炼,因而不简单呈现相干的锻炼不不变性。亚洲体育棋牌相反,DREM 经由过程以自我监视的方法估量使命进度来进修嘉奖。最初,经由过程 7 自在度机器臂在钉孔和 USB 插入两个打仗丰硕的操纵使命上的完成,证实了其有用性和服从。尝试成果也表白,与基线比拟,用进修嘉奖函数锻炼的战略具有更好的机能和更快的收敛速率。

  7 月 1 日早 10 点,「AI 新青年讲座」第 132 讲,加州大学伯克利分校在读博士吴峥将主讲《基于麋集嘉奖的强化进修及在机器臂操纵上的使用》。

  吴峥,加州大学伯克利分校在读博士;本科结业于上海交通大学;目上次要研讨标的目的为基于机械进修的产业装配使命,曾在 ICRA, IROS, ICLR, Science Robotics 等集会期刊上揭晓论文。

版权所有:https://stylemesteph.com/ 转载请注明出处

成功案例success case