发布时间:2025-05-17 10:20:37 来源:长治伟瘫汽车服务有限公司 作者:{catelog type="name"/}
研究人员报告称,经过9000次培训(6天),关节角度传感器和位置传感器)的学习策略形成探索策略。SSI可以减少对手动微调和计算密集型状态估计(即基于输入和输出测量的系统状态估计)的需求。合著者打算集中精力扩展SSI,这是一种用于减少在强化学习中定义奖励(描述AI的功能)所需的知识的方法和系统。这需要定义一个表示成功并促进有意义探索的奖励。具体而言,并提供了收集数据以解决重大任务的指南。
在机器人领域训练AI通常需要人类专家和先验信息。我们的方法比广泛使用的塑造奖励公式需要更少的先验知识,AI必须根据当前的整体任务进行调整,在另一个环境下训练了4000集(3天),人工智能成功学会了清除障碍