首页 » 技术分享 » 重温强化学习之无模型学习方法:TD(lambda)

重温强化学习之无模型学习方法:TD(lambda)

 

1、多步自举

                 

一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互。根据状态采取一个动作,转为后继状态,环境给一个奖励--》采样一步得到后继状态

MC 采样到终止状态。MC只采样一步,之后的状态利用之前的值函数进行对当前值函数的估计

多步自举通过采样和自举的方法做一个权衡,TD(0)一步采样之后多步自举,现在多步采样多步自举

 

n步回报值:

                               

几步为最优?

                                     

                            

注意:为了计算n步回报值,需要维护R,S的存储空间,对于后继状态不足n个的,使用MC目标值

2、TD(lambda)

       1)简介

将n步回报值平均

                                        

lambda回报值

                                   

                                   

  TD(lambda)加权函数

                                

TD(lambda)的两种视角:

              前向视角:主要是理解TD(lambda),上述是前向视角

              后向视角:比较实用的算法

       TD(lambda)的前向视角:

          

                             

        TD(lambda)的后向视角:前向视角提供理论,后向视角提供实用算法,通过后向视角,可以实现在线更新,每步更新,从不完整状态更新

       2)资格迹     

                       

   后向视角的TD(lambda):

                            

       简单地来说,后向视角是秋后算账,看前面那个状态贡献比较大,之后对这个状态的资格迹加1,其它状态资格迹不断地衰减

       3)TD(lambda)的两种视角的关系

  TD(lambda)与TD(0)

                              

                               

 

TD(1)和MC:

                           

                             

                             

TD(lambda)和TD(0)

     当lambda=1时,信度分配会被延迟到终止状态,这里考虑到片断性任务,而且考虑离线更新,考虑一个片段整体的情况下,TD(1)总更新量等价于MC,在每一步更新上可能有差距

对s 的总更新量

                                  

                                  

前向视角和后向视角的TD(lambda)

                                                

两种视角下的等价性:

离线更新:

                   

在线更新:

                              

小结:

                  

3、TD(lambda)优化算法

n步Sarsa:

                  

前向视角的Sarsa(lambda)算法

                  

                 

后向视角的Sarsa(lambda)

                   

Sarsa(lambda)算法:

                    

转载自原文链接, 如需删除请联系管理员。

原文链接:重温强化学习之无模型学习方法:TD(lambda),转载请注明来源!

5