当前在线人数17720
首页 - 分类讨论区 - 体育健身 - 黑白子版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
Re: 看大家讨论中比较少提这个 reinforcement learning
[版面:黑白子][首篇作者:arcam] , 2016年03月13日19:20:23 ,3433次阅读,46次回复
来APP回复,赚取更多伪币 关注本站公众号:
[首页][上页] [下页][末页] [分页:1 2 3 4 ]
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:20:50 2016, 美东)

mct就是RL
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:23:38 2016, 美东)


mct 难道不是Monte-Carlo tree

【 在 Ozil (Bremen) 的大作中提到: 】
: mct就是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:26:37 2016, 美东)

这就是RL

【 在 arcam (arcam) 的大作中提到: 】
: mct 难道不是Monte-Carlo tree



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:28:52 2016, 美东)





MCT 不是搜索棋的时候用的吗

怎么能等同于学习的概念



【 在 Ozil (Bremen) 的大作中提到: 】
: 这就是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:30:11 2016, 美东)



Our Nature paper published on 28th January 2016, describes the technical
details behind a new approach to computer Go that combines Monte-Carlo tree
search with deep neural networks that have been trained by supervised
learning, from human expert games, and by reinforcement learning from games
of self-play.



就这句话也表明 MCT 和 RL 两个概念啊


【 在 Ozil (Bremen) 的大作中提到: 】
: mct就是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:30:29 2016, 美东)

MCT不是monte carlo
reinforcement learning本来就是online learning
【 在 arcam (arcam) 的大作中提到: 】
: MCT 不是搜索棋的时候用的吗
: 怎么能等同于学习的概念



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:32:24 2016, 美东)

MCT 是什么缩写?
【 在 Ozil (Bremen) 的大作中提到: 】
: MCT不是monte carlo
: reinforcement learning本来就是online learning



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:33:48 2016, 美东)

搞笑

reinforcement learning 是个很大范畴

UCB guided monte carlo tree search是其中一种

【 在 arcam (arcam) 的大作中提到: 】
: MCT 是什么缩写?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:37:10 2016, 美东)


你说 MCT 不是 monte carlo tree
我问你 MCT 是什么的缩写

【 在 Ozil (Bremen) 的大作中提到: 】
: 搞笑
: reinforcement learning 是个很大范畴
: UCB guided monte carlo tree search是其中一种




--
※ 修改:·arcam 於 Mar 13 19:37:35 2016 修改本文·[FROM: 2.]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:41:16 2016, 美东)

名字没啥重要d
MCT = UCB + Monte-carlo simulation + minimax tree

属于RL的一种

【 在 arcam (arcam) 的大作中提到: 】
: 你说 MCT 不是 monte carlo tree
: 我问你 MCT 是什么的缩写



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
zyszys3
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 12 ]

发信人: zyszys3 (zyszys3), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:29:53 2016, 美东)

放屁,MCTS只是搜索方法,真正的RL技术是policy and value network。而且MCTS搜索
过程中用到RL指导搜索才是真的。说MCT是RL简直是外行。
【 在 Ozil (Bremen) 的大作中提到: 】
: mct就是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 128.]

 
zyszys3
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 13 ]

发信人: zyszys3 (zyszys3), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:31:48 2016, 美东)

reinforcement learning不是online learning。Reinforcement learning 我们内行一
般是作为一个problem,或者framework来对待。一般是用来解决问题的。如何solve
RLproblem,才出现了online 和batch 方法。
【 在 arcam (arcam) 的大作中提到: 】
: MCT 是什么缩写?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 128.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 14 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:34:05 2016, 美东)

靠 policy and value network是RL?

你逗死我 DCNN成RL了
【 在 zyszys3 (zyszys3) 的大作中提到: 】
: 放屁,MCTS只是搜索方法,真正的RL技术是policy and value network。而且MCTS搜索
: 过程中用到RL指导搜索才是真的。说MCT是RL简直是外行。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
zyszys3
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 15 ]

发信人: zyszys3 (zyszys3), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:34:29 2016, 美东)

谁告诉你属于RL的一种的?再说一遍,RL只是一个problem或者framework。

MCT严格来讲是搜索算法。

我来解释一下,AlgphaGO吧围棋作为一个RL problem来solve。用到了MCT搜索算法。

不要乱解释好不?
【 在 Ozil (Bremen) 的大作中提到: 】
: 名字没啥重要d
: MCT = UCB + Monte-carlo simulation + minimax tree
: 属于RL的一种



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 128.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 16 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:36:11 2016, 美东)

那你说说UCB1是不是RL 你内行个蛋啊

【 在 zyszys3 (zyszys3) 的大作中提到: 】
: 谁告诉你属于RL的一种的?再说一遍,RL只是一个problem或者framework。
: MCT严格来讲是搜索算法。
: 我来解释一下,AlgphaGO吧围棋作为一个RL problem来solve。用到了MCT搜索算法。
: 不要乱解释好不?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 17 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:37:45 2016, 美东)

这是MCT的原始paper

http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf

自己看看是不是RL
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 18 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:42:31 2016, 美东)

这篇论文有用 MCT 这个缩写吗?


MCT 本来就通用为Monte Carlo tree的缩写

你自己乱定义缩写,是属胡搅蛮缠

【 在 Ozil (Bremen) 的大作中提到: 】
: 这是MCT的原始paper
: http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
: 自己看看是不是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
zyszys3
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 19 ]

发信人: zyszys3 (zyszys3), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:42:39 2016, 美东)

policy和value的概念就是RL概念。

value function 看着里。
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html


policy function看着离
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html

在给你科普一下历史,最早RL的value function和policy function就是用早期的
neural network 实现的,所以RL又叫Neuro-dynamic programming。

科普在这里
http://web.mst.edu/~gosavia/neural_networks_RL.pdf

由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural
network的兴起,大家又回到了这条路上。

本人RL方向PhD,你逗我还是我逗你?

【 在 Ozil (Bremen) 的大作中提到: 】
: 靠 policy and value network是RL?
: 你逗死我 DCNN成RL了



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 128.]

 
timefall
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 20 ]

发信人: timefall (时光崩塌), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:42:46 2016, 美东)

俺趁乱收进一片 paper。

你两继续互殴,谢谢。(是真的谢谢)。当然对于火药味问题,稍微考虑一下环保也没
大错。

【 在 Ozil (Bremen) 的大作中提到: 】
: 这是MCT的原始paper
: http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
: 自己看看是不是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

 
timefall
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 21 ]

发信人: timefall (时光崩塌), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:44:20 2016, 美东)

俺趁乱再收三篇 paper / 介绍,谢谢。(真心谢谢)。

你两继续。

【 在 zyszys3 (zyszys3) 的大作中提到: 】
: policy和value的概念就是RL概念。
: value function 看着里。
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html
: policy function看着离
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html
: 在给你科普一下历史,最早RL的value function和policy function就是用早期的
: neural network 实现的,所以RL又叫Neuro-dynamic programming。
: 科普在这里
: http://web.mst.edu/~gosavia/neural_networks_RL.pdf
: 由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural
: ...................




--
※ 修改:·timefall 於 Mar 13 20:44:37 2016 修改本文·[FROM: 24.]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

[首页][上页] [下页][末页] [分页:1 2 3 4 ]
[快速返回] [ 进入黑白子讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996