您现在的位置是：首页 > 要闻 > 正文

要闻

阿尔法狗之父答疑新版解决了哪些遗留问题？

admin2023-05-28 13:16:13要闻474

本文系网易智能工作室（公众号smartman 163）出品。聚焦AI，读懂下一个大时代！【网易智能讯10月20日消息】DeepMind首席研究员、 AlphaGo之父 David Silver和Julian Schrittwieser（AlphaGo Zero作者之一）在Reddit回答网友提问。资料显示， AlphaGo之父 David Silver毕业于剑桥大学，获得了艾迪生威斯利奖，随后与人共同创立了视频游戏公司Elixir Studios，2004年，成为伦敦大学学院的讲师，Silver起初是DeepMind的顾问，直到2013年正式加入DeepMind。当被问到为什么AlphaGo Zero的训练如此稳定？ David Silver说，AlphaGo Zero所用的算法与策略梯度、Q-learning之类的传统（无模型）算法不同，通过使用AlphaGo search，我们极大地改进了策略和自我对弈的结果，然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络（policy+value network）。这比渐进的、基于梯度的策略改进（policy improvement）要稳定的多。为什么这次Zero就训练了40天？训练3个月会怎样？ David Silver认为，这是一个人力和资源优先级的问题，如果训练3个月，我想你会问训练6个月会发生什么。为什么一开始选择用人类对局数据来训练AlphaGo，而不是通过自我对弈来从0开始？之前的AlphaGo瓶颈在哪里？ David Silver表示，创造一个完全自学的系统，一直是强化学习中的一个开放式问题，之前都非常不稳定，之后我们做了很多实验，发现AlphaGo Zero的算法是最有效率的。 DeepMind和Facebook几乎同时开始研究这一课题，为什么你们能达到这个水平？ David Silver说，Facebook更专注于监督学习，我们关注强化学习，是因为相信它最终会超越人类的知识，研究表明，仅使用监督学习能够获得令人惊讶的表现，但如果要远超人类水平，强化学习才是关键。 AlphaGo Zero是AlphaGo的最终版本吗？ David Silver：我们已经不再主动研究如何让AlphaGo变得更强，但我们仍然用它尝试新的想法。 AlphaGo有没有开源计划？ David Silver：我们在过去已经开源了许多代码，但AlphaGo始终是一个复杂的过程，它是一个非常复杂的代码。背景阅读：谷歌子公司DeepMind日前发布了一款新版本的AlphaGo程序，它能通过自学玩转多种游戏，这套系统名为 AlphaGo Zero ，它通过一种名为强化学习的机器学习技术，可以在与自己游戏中吸取教训。

发表评论

评论列表

羽毛球男子单打决赛（2023-05-28 22:16:41）回复取消回复

类的知识，研究表明，仅使用监督学习能够获得令人惊讶的表现，但如果要远超人类水平，强化学习才是关键。 AlphaGo Zero是AlphaGo的最终版本吗？ David Silver：我们

海沃德受伤（2023-05-29 00:52:36）回复取消回复

策略和自我对弈的结果，然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络（policy+value network）。这比渐进的、基于梯度的策略改进（policy improvement）要稳定的多。为什么这次Zero就训练了40天？训练3个月会怎样？ Da

2015世界女排大奖赛总决赛（2023-05-28 20:17:13）回复取消回复

达到这个水平？ David Silver说，Facebook更专注于监督学习，我们关注强化学习，是因为相信它最终会超越人类的知识，研究表明，仅使用监督学习能够获得令人惊讶的表现，但如果要远超人类水平，强化学习才是关键。 A

2018亚冠直播（2023-05-28 14:02:29）回复取消回复

者之一）在Reddit回答网友提问。资料显示， AlphaGo之父 David Silver毕业于剑桥大学，获得了艾迪生威斯利奖，随后与人共同创立了视频游戏公司Elixir Studios，2004年，成为伦敦大学学院的讲师，Silver起初是DeepMind的

陆港信息网

要闻

阿尔法狗之父答疑新版解决了哪些遗留问题？

推特粉丝量不稳，特朗普又要开撕科技公司了

阿尔法狗已经够聪明了？DeepMind：没到极限！

相关文章

发表评论

评论列表