当前在线人数10172
首页 - 分类讨论区 - 体育健身 - 黑白子版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
看大家讨论中比较少提这个 reinforcement learning
[版面:黑白子][首篇作者:arcam] , 2016年03月13日19:20:23 ,3429次阅读,46次回复
来APP回复,赚取更多伪币 关注本站公众号:
[首页] [上页][下页][末页] [分页:1 2 3 ]
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: arcam (arcam), 信区: Go
标  题: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:20:23 2016, 美东)


也是重要一环


We trained the neural networks on 30 million moves from games played by
human experts, until it could predict the human move 57 percent of the time
(the previous record before AlphaGo was 44 percent).

But our goal is to beat the best human players, not just mimic them. To do
this, AlphaGo learned to discover new strategies for itself, by playing
thousands of games between its neural networks, and adjusting the
connections using a trial-and-error process known as reinforcement learning.
Of course, all of this requires a huge amount of computing power, so we
made extensive use of Google Cloud Platform.

--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:20:50 2016, 美东)

mct就是RL
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:23:38 2016, 美东)


mct 难道不是Monte-Carlo tree

【 在 Ozil (Bremen) 的大作中提到: 】
: mct就是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:26:37 2016, 美东)

这就是RL

【 在 arcam (arcam) 的大作中提到: 】
: mct 难道不是Monte-Carlo tree



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:28:52 2016, 美东)





MCT 不是搜索棋的时候用的吗

怎么能等同于学习的概念



【 在 Ozil (Bremen) 的大作中提到: 】
: 这就是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:30:11 2016, 美东)



Our Nature paper published on 28th January 2016, describes the technical
details behind a new approach to computer Go that combines Monte-Carlo tree
search with deep neural networks that have been trained by supervised
learning, from human expert games, and by reinforcement learning from games
of self-play.



就这句话也表明 MCT 和 RL 两个概念啊


【 在 Ozil (Bremen) 的大作中提到: 】
: mct就是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:30:29 2016, 美东)

MCT不是monte carlo
reinforcement learning本来就是online learning
【 在 arcam (arcam) 的大作中提到: 】
: MCT 不是搜索棋的时候用的吗
: 怎么能等同于学习的概念



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:32:24 2016, 美东)

MCT 是什么缩写?
【 在 Ozil (Bremen) 的大作中提到: 】
: MCT不是monte carlo
: reinforcement learning本来就是online learning



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:33:48 2016, 美东)

搞笑

reinforcement learning 是个很大范畴

UCB guided monte carlo tree search是其中一种

【 在 arcam (arcam) 的大作中提到: 】
: MCT 是什么缩写?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:37:10 2016, 美东)


你说 MCT 不是 monte carlo tree
我问你 MCT 是什么的缩写

【 在 Ozil (Bremen) 的大作中提到: 】
: 搞笑
: reinforcement learning 是个很大范畴
: UCB guided monte carlo tree search是其中一种




--
※ 修改:·arcam 於 Mar 13 19:37:35 2016 修改本文·[FROM: 2.]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 19:41:16 2016, 美东)

名字没啥重要d
MCT = UCB + Monte-carlo simulation + minimax tree

属于RL的一种

【 在 arcam (arcam) 的大作中提到: 】
: 你说 MCT 不是 monte carlo tree
: 我问你 MCT 是什么的缩写



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
zyszys3
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 12 ]

发信人: zyszys3 (zyszys3), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:29:53 2016, 美东)

放屁,MCTS只是搜索方法,真正的RL技术是policy and value network。而且MCTS搜索
过程中用到RL指导搜索才是真的。说MCT是RL简直是外行。
【 在 Ozil (Bremen) 的大作中提到: 】
: mct就是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 128.]

 
zyszys3
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 13 ]

发信人: zyszys3 (zyszys3), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:31:48 2016, 美东)

reinforcement learning不是online learning。Reinforcement learning 我们内行一
般是作为一个problem,或者framework来对待。一般是用来解决问题的。如何solve
RLproblem,才出现了online 和batch 方法。
【 在 arcam (arcam) 的大作中提到: 】
: MCT 是什么缩写?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 128.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 14 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:34:05 2016, 美东)

靠 policy and value network是RL?

你逗死我 DCNN成RL了
【 在 zyszys3 (zyszys3) 的大作中提到: 】
: 放屁,MCTS只是搜索方法,真正的RL技术是policy and value network。而且MCTS搜索
: 过程中用到RL指导搜索才是真的。说MCT是RL简直是外行。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
zyszys3
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 15 ]

发信人: zyszys3 (zyszys3), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:34:29 2016, 美东)

谁告诉你属于RL的一种的?再说一遍,RL只是一个problem或者framework。

MCT严格来讲是搜索算法。

我来解释一下,AlgphaGO吧围棋作为一个RL problem来solve。用到了MCT搜索算法。

不要乱解释好不?
【 在 Ozil (Bremen) 的大作中提到: 】
: 名字没啥重要d
: MCT = UCB + Monte-carlo simulation + minimax tree
: 属于RL的一种



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 128.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 16 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:36:11 2016, 美东)

那你说说UCB1是不是RL 你内行个蛋啊

【 在 zyszys3 (zyszys3) 的大作中提到: 】
: 谁告诉你属于RL的一种的?再说一遍,RL只是一个problem或者framework。
: MCT严格来讲是搜索算法。
: 我来解释一下,AlgphaGO吧围棋作为一个RL problem来solve。用到了MCT搜索算法。
: 不要乱解释好不?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
Ozil
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 17 ]

发信人: Ozil (Bremen), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:37:45 2016, 美东)

这是MCT的原始paper

http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf

自己看看是不是RL
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
arcam
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 18 ]

发信人: arcam (arcam), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:42:31 2016, 美东)

这篇论文有用 MCT 这个缩写吗?


MCT 本来就通用为Monte Carlo tree的缩写

你自己乱定义缩写,是属胡搅蛮缠

【 在 Ozil (Bremen) 的大作中提到: 】
: 这是MCT的原始paper
: http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
: 自己看看是不是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2.]

 
zyszys3
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 19 ]

发信人: zyszys3 (zyszys3), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:42:39 2016, 美东)

policy和value的概念就是RL概念。

value function 看着里。
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html


policy function看着离
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html

在给你科普一下历史,最早RL的value function和policy function就是用早期的
neural network 实现的,所以RL又叫Neuro-dynamic programming。

科普在这里
http://web.mst.edu/~gosavia/neural_networks_RL.pdf

由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural
network的兴起,大家又回到了这条路上。

本人RL方向PhD,你逗我还是我逗你?

【 在 Ozil (Bremen) 的大作中提到: 】
: 靠 policy and value network是RL?
: 你逗死我 DCNN成RL了



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 128.]

 
timefall
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 20 ]

发信人: timefall (时光崩塌), 信区: Go
标  题: Re: 看大家讨论中比较少提这个 reinforcement learning
发信站: BBS 未名空间站 (Sun Mar 13 20:42:46 2016, 美东)

俺趁乱收进一片 paper。

你两继续互殴,谢谢。(是真的谢谢)。当然对于火药味问题,稍微考虑一下环保也没
大错。

【 在 Ozil (Bremen) 的大作中提到: 】
: 这是MCT的原始paper
: http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
: 自己看看是不是RL



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 24.]

[首页] [上页][下页][末页] [分页:1 2 3 ]
[快速返回] [ 进入黑白子讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996