题目对人有帮助,内容完整,我也想知道答案 0 题目没有实际价值,缺少关键内容,没有改进余地 【单选】强化学习中,TD(lambda)算法中 lambda取值为1时等价于以下哪种模型 A、动态规划 B、蒙特卡洛 C、Q- learning D、Sarsa 回答后才能看到答案和解析 收藏 编辑 举报 天蝎悦耳熙枫 6年前上传