▲点击上方蓝字关注我们
扮演 Space Invaders 的深度学习人工智能可以激发更好的搜索、翻译和移动应用程序。
来自谷歌的新人工智能软件可以自学如何玩——通常是掌握——经典的 1980 年代雅达利街机游戏。“这项工作是第一次有人建立了一个单一的通用学习系统,该系统可以直接从经验中学习,以掌握广泛的具有挑战性的任务。
在这种情况下,是一组 Atari 游戏——并且性能达到或优于人类在那些游戏中表现出的水平,”在伦敦 Google DeepMind 工作的 AI 的创造者之一 Demis Hassabis 说。
Hassabis 及其同事在本周的《自然》杂志上详细介绍了他们的发现。Hassabis说,研究人员希望能够将他们的人工智能背后的想法应用到搜索、机器翻译和智能手机应用程序等谷歌产品中,让这些事情变得更智能。
由于机器学习的突破性进步,人工智能现在正在经历复兴
一个重要的机器学习策略是强化学习,其中智能体通过反复试验来学习哪些行为可以最大化未来的奖励。然而,强化学习代理在处理接近现实世界复杂性的数据时经常遇到问题。
为了改进这些代理,研究人员将强化学习与一种称为卷积神经网络的技术相结合,这种技术受到谷歌、Facebook、苹果等科技巨头的“深度学习”的热烈追捧。(卷积网络的原始开发者、Facebook AI 负责人 Yann LeCun 在这里解释了深度学习。)
在人工神经网络中,被称为人工神经元的组件被输入数据,并协同工作以解决诸如阅读手写或识别语音等问题。然后,网络可以改变这些神经元之间的连接模式,以改变它们交互的方式,然后网络再次尝试解决问题。随着时间的推移,网络会了解哪些模式最适合计算解决方案。
Hassabis 解释说,这种学习系统不同于其他游戏系统,例如 Deep Blue 的国际象棋软件和 Watson 的 Jeopardy 程序:这些系统是非常令人印象深刻的技术壮举——显然,它们在这两场比赛中都击败了人类世界冠军。这类算法和系统的主要区别在于,它们在很大程度上预编程了这些能力。
以深蓝为例——它是一个由程序员和国际象棋大师组成的团队,他们将国际象棋知识提炼到程序中,然后该程序有效地执行了该任务,而无需适应或学习任何东西。
我们所做的是开发了一种从头开始学习的算法。它需要感知经验,并直接从第一原则的感知经验中学习如何做事。这类系统的优点是它们可以学习和适应意想不到的事情,程序员和系统设计人员不必自己知道解决方案就可以让机器掌握这项任务。
DQN的新软件代理测试
这款名为深度 Q 网络 (DQN) 的新软件代理在 49 款经典 Atari 2600 游戏上进行了测试,包括 Space Invaders、Ms. Pac-Man、Pong、Asteroids、Centipede、Q*bert 和 Breakout。代理只从一个 84 x 84 像素的屏幕上获得分数和数据——与其他一些通用的游戏 AI 不同,DQN 事先并不知道它玩的游戏规则。
Nature DQN 算法流程
该系统在一台配备 GPU 的台式电脑上运行,每场比赛训练了大约两周。DQN 的表现与专业人类游戏测试员的水平相当,达到了人类测试员在 29 场游戏中得分的 75% 以上。该代理在 43 场比赛中的表现也优于现有的最佳强化学习代理。
DQN 擅长的游戏性质多种多样,包括横向卷轴射击游戏、3D 赛车和拳击。“这个系统能够推广到任何顺序决策决策,”谷歌 DeepMind 的 Koray Kavukcuoglu 说。
DQN 表现不佳的游戏反映了代理的局限性
谷歌 DeepMind 的 Vlad Mnih 说:“目前,系统基本上是通过随机按键来学习,然后找出何时会导致高分。” 然而,这样的按钮混搭策略通常不适用于需要更复杂的探索或长期规划的游戏。研究人员现在正转向 1990 年代的游戏,其中包括一些“挑战更大”的 3-D,Hassabis 说,“星际争霸和文明是我们计划在某个时候破解的。”
那么,会不会是“今天,吃豆人女士?” 明天,世界”?不,Hassabis 说,并指出关注人工智能的企业家埃隆马斯克是 DeepMind 的早期投资者,后来被谷歌收购。“我和埃隆是好朋友,”Hassabis说。“我们同意他的观点,即存在风险,但我们距离需要担心的任何技术都还有几十年的时间。”
图片来源于网络
公众号、知乎、头条、百家号 ID:「觉醒元宇宙AI」
投稿、申请转载、合作、AI课程推广,请联系:177 9268 9552
本文来自网络,不代表「专升本要什么条件_专升本要几年_成人高考专升本_山东专升本信息网」立场,转载请注明出处:http://www.sdzsb8.cn/baike/65578.html
- 上一篇:大语文观和青少儿语言教育革新时代背景下,这些课程有什么区别?
- 下一篇:在学海中畅游