阿尔法狗之父答疑新版解决了哪些遗留问题?
本文系网易智能工作室(公众号smartman 163)出品。聚焦AI,读懂下一个大时代! 【网易智能讯10月20日消息】DeepMind首席研究员、 AlphaGo之父 David Silver和Julian Schrittwieser(AlphaGo Zero作者之一)在Reddit回答网友提问。 资料显示, AlphaGo之父 David Silver毕业于剑桥大学,获得了艾迪生威斯利奖,随后与人共同创立了视频游戏公司Elixir Studios,2004年,成为伦敦大学学院的讲师,Silver起初是DeepMind的顾问,直到2013年正式加入DeepMind。 当被问到为什么AlphaGo Zero的训练如此稳定? David Silver说,AlphaGo Zero所用的算法与策略梯度、Q-learning之类的传统(无模型)算法不同,通过使用AlphaGo search,我们极大地改进了策略和自我对弈的结果,然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络(policy+value network)。这比渐进的、基于梯度的策略改进(policy improvement)要稳定的多。 为什么这次Zero就训练了40天?训练3个月会怎样? David Silver认为,这是一个人力和资源优先级的问题,如果训练3个月,我想你会问训练6个月会发生什么。 为什么一开始选择用人类对局数据来训练AlphaGo,而不是通过自我对弈来从0开始?之前的AlphaGo瓶颈在哪里? David Silver表示,创造一个完全自学的系统,一直是强化学习中的一个开放式问题,之前都非常不稳定,之后我们做了很多实验,发现AlphaGo Zero的算法是最有效率的。 DeepMind和Facebook几乎同时开始研究这一课题,为什么你们能达到这个水平? David Silver说,Facebook更专注于监督学习,我们关注强化学习,是因为相信它最终会超越人类的知识,研究表明,仅使用监督学习能够获得令人惊讶的表现,但如果要远超人类水平,强化学习才是关键。 AlphaGo Zero是AlphaGo的最终版本吗? David Silver:我们已经不再主动研究如何让AlphaGo变得更强,但我们仍然用它尝试新的想法。 AlphaGo有没有开源计划? David Silver:我们在过去已经开源了许多代码,但AlphaGo始终是一个复杂的过程,它是一个非常复杂的代码。 背景阅读: 谷歌子公司DeepMind日前发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏,这套系统名为 AlphaGo Zero ,它通过一种名为 强化学习 的机器学习技术,可以在与自己游戏中吸取教训。
相关文章
- 台媒:台空军一幻影2000战机坠海,飞行员跳伞获救,台军该型战机已发生9次重大事故|新竹市|台媒|飞行员_新闻
- 31省份8月CPI出炉:29地上涨,宁夏“六连降”_新闻
- 是否会选择下课? 伊万:这不是该问我的问题|伊万|国足_新闻
- 美媒:哈里斯和特朗普首场电视辩论开始_新闻
- 【央视快评】立报国强国大志向 做挺膺担当奋斗者|总书记|习近平|央视_新闻
- 朝着建成教育强国战略目标扎实迈进,习近平这样强调_新闻
- 以教育之强夯实国家富强之基——习近平总书记在全国教育大会上的重要讲话为全面推进教育强国建设提供根本遵循|习近平_新闻
- 时政微纪录丨总书记眼中的“大先生”_新闻
- 蒋圣龙头球造乌龙,王上源破门被吹,国足主场1-2不敌十人沙特_新闻
- 小学生在校死亡脖子现勒痕?警方通报_新闻