【单选】强化学习中，TD(lambda）算法中 lambda取值为1时等价... 多选题

938 次浏览

【单选】强化学习中，TD(lambda）算法中 lambda取值为1时等价于以下哪种模型

A、动态规划
B、蒙特卡洛
C、Q- learning
D、Sarsa

回答后才能看到答案和解析

天蝎悦耳熙枫

7年前上传

1个回答

B、蒙特卡洛

编辑

ABBgogog

1

5年前回答

我的回答