Skip to content

关于DDQN的问题 #6

@Alexander-Jing

Description

@Alexander-Jing

大佬您好,我在跟着相关笔记学习,想问下,关于您笔记中的DDQN部分,对于目标价值Qtarget的计算,笔记中用的是使得产生交互行为的网络θ最优的行为a',再将a‘代入目标价值网络θ'中进行计算;有些地方我看到的是直接在目标价值网络θ'里面直接求最优的a'然后计算目标价值,不知道这样有什么不同

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions