强化学习的框架化,会引爆AI开发的新脑洞吗?:亚慱体育app官网

日期:2021-03-18 00:21:01 | 人气: 2176

强化学习的框架化,会引爆AI开发的新脑洞吗?:亚慱体育app官网 本文摘要:【编者按】经过几年的市场教育,大部分开发者已经在有条不紊的关于做什么和怎么做的深入自学框架。

【编者按】经过几年的市场教育,大部分开发者已经在有条不紊的关于做什么和怎么做的深入自学框架。大多数开发者的最终市场需求是利用技术框架,超越算法的束缚,去漫游和释放自己的新思想和商业创意。虽然离行业结束还有很长的路要走,但是技术框架似乎可以通过从基础研发规划产业整合来减缓这个过程。如果你是APPlied to developers,不懂算法,想开发一个带AI功能的app,你不会自由选择:1。

自己训练一个AI模型;2.培训框架和APIR&D平台;答案显而易见,需要技术解决方案和较低管理体系门槛的后者才是王道。但是,面对众多R&D平台的深度自学框架,有很多问题必须考虑:兼容性、社区资源、框架迁移等等。

亚慱体育app官网

最近框架之争的焦点转移到了加强自学上。谷歌去年发布了基于TensorFlow的增强型自学框架多巴胺,增强型自学领域的明星OpenAI也把很多算法放进了ba seline。百度最近还修改了PaddlePaddle的PARL强化自学框架。就连一向高调的网易也发布了自律开发的增强型编程框架.对于大部分开发者来说,增强型自学能带来什么,增强型自学和深度自学框架有什么区别,在国内应用的话何去何从?所以,我们不妨在今天厘清加强自学的真正价值和现实问题。

深入自学,强化自学,深入强化自学,你是不是很迷茫?经过几年的市场教育,大部分开发者已经在有条不紊的关于做什么和怎么做的深入自学框架。但是各大平台马上发布的增强型自学框架或者深度增强型自学框架就有点蒙了。两者有什么区别,分别分担什么样的责任?下面推荐一个例子来说明这三种机器学习方法的区别:如果我是一个种植厂,想做一个需要识别苹果优劣的APP,那么我必须有一个很深的自学研发框架,在这个框架上构建一个训练流程。

所有的R&D平台都有现成的图像识别API,所以我只需要把训练图片(也就是各种苹果照片)拖进系统就可以得到一个训练好的苹果识别模型。但是如果我再笨一点,想要一个能自己学会收获高质量成熟苹果的机器人呢?深度自学有点难。这个时候,我必须使用增强的自学框架来训练一个代理。

每当它摘下一个新鲜可爱的苹果,它都不会收到系统的奖励,所以会得到增强。如果误摘了未熟或烂的苹果,不会有奖励甚至加分。

为了得到更好的奖励,聪明的人更不愿意自由选择那些好的水果去摘,戒掉那些不会带来零分甚至负分的水果。就这样,我得到了一个可以最大化果实的智能机器人。不是很荣幸吗?但我不满足甜味,不仅想让它学会摘黄瓜和西红柿,还懒得再训练。

亚慱体育app官网

这时候就需要一种全新的算法,将深度自学和增强融合自学结合起来。只要告诉他它新的奖励机制,机器就可以通过深度神经网络获得类似自律的技能。我不用亲自训练。

以前我要一行一行的打自己的代码。现在只要有一个R&D框架的训练样本,我就能享受到骂人累、学习刻苦、不能举一反三的奇妙特工。谁能拒绝接受这种欲望?当然,这里只是对他们工作模式的一个很简单的解释。

把这样的智能模型训练出来,应用到我们自己的产品上,真的是一个比较简单的综合性项目。但增强自学功能的R&D框架减少,大大降低了增强自学训练的编程可玩性和工作量。

对于想加强自学但又无法从零开始搭建环境和培训的技术人员和企业来说,无疑是个好消息。AI R&D新宠:加强自学有什么用?如今,加强自学不仅是学术界的宠儿,也涉及到重大会议上研究论文比例的快速增长;每个R&D平台也以增强自学框架为重点进行部署和争取。

但是随之而来的问题是:框架不能降低一些研发门槛,模型的定制、调试、兼容性等。仍然需要企业投入大量的人力、物力和财力。对于开发者来说,如果他们为付出巨大努力所获得的结果而付出的代价是无法应用或者不切实际的,这无疑是残忍的。

所以,在担心“以身作则”之前,再做一次是合适的。确切的说:自学的加强力度在哪里?开发者在什么情况下应该向它投诚?再次说明加强自学的核心逻辑,即Agent可以根据环境中奖励的不同,区分自己在什么状态下使用什么动作,从而最大化奖励的积累。比如打败棋手世界冠军的Alpha Go,《Dota 2》强奸人类棋手的OpenAI Five,建立雅达利2600游戏最高分的DeepMind DQN,都是建立在强化自学的基础上。

那么它的特点是什么呢?可以概括为三个方面:1 .训练样本。强化自学是通过从环境中获得的奖惩结果进行自学,必须有奖励数据。2.互动模式。加强自学的自学过程是动态的,必须通过与环境的互动来完成。

任何样本学什么都不是为了什么,没有环境也没用。3.解决问题。

亚慱体育app官网

增强自学的逻辑更像人脑,主要解决方案是智能决策,比如游戏高分、标准化机器人、转诊系统等等。这些类似的原创作品使得增强型自学在很多应用领域比传统的深度自学更加突出,比如:控制智能:工业多关节机械手的实时控制,允许机器人观看YouTube视频自学动作并应用到现实中。在现场,或者协助无人驾驶车辆学习如何应对乱过马路的人和动物;序列问题:比如文本序列预测通过不道德的系统使搜索排名超过拟合效果;电子商务推荐系统根据用户对推荐列表的系统(忽略、页面或销售)动态改变推荐策略。

对话分解:比如为了更好的体验人机多轮对话,让机器人需要不断分解有意义的对话,而不是乱聊;结合深度自学,构建更好的机器双语翻译效果。传统的深度自学已经能够解决机器的感官和识别问题,但是人类对机器智能的排斥似乎就这样了。它需要处理简单现实中决策问题的强化自学和两者的融合。

自然已经成为未来AI应用的重点发展方向。在这种情况下,控制算法先发优势的技术平台纷纷出售RL框架,无疑是争夺开发者和进入权最糟糕的布局。加强自学框架之争,具体拼什么?当然,强化自学虽然取得了不少“爽”的成绩,但其应用的局限性也是显而易见的,而且是被迫提前做计划的:比如强化自学就像新生婴儿,所有技能都要从头开始训练,要教它控制一个任务目标,必须要花很多时间;而且,强化自学不能按照系统即时指令启动动作。

玩围棋和玩dota可能很好,但是面对必须记住和推理小说的个性化语音助手任务,就有点无能为力了;另一个后遗症问题是,目前的增强自学习算法稳定性和效率参差不齐,如果应用于真实场景的市场需求,需要加强。所以,如何自由选择适合自己业务的增强型自学框架来测试wat 根据加强自学的发展方向和各个平台的特点,我们有几个不成熟的建议供参考:1。平台稳定,重现性好。深度自学比较稳定,同样的数据集,同样的目标,超强参数往往稍有变动,最终的表现会受到太大影响。

但是强化自学(或者深度强化自学)就不是这样了。训练结果不会受到随机概率、样本效率、算法稳定性等的影响。

会带来很大的结果差异,降低成功繁殖亲本率。更严重的是,机器指出,再怎么努力,也是要结束的,也是要分手的。为了解决随机性和重现性的问题,不同的平台有不同的解决方案。比如Google就是建设培训环境和测试环节的标准化。

为代码获取60款游戏的测试覆盖率和训练数据,并在街机学习环境中使用,进行标准化的体验评估。而百度则是尽可能的覆盖面积,涉及算法。PARL框架获取算法子集,该子集包括大量主流经典算法和原始的超强参数表,从而保证模型的可重复性。2.灵活性和易用性大部分开发者的最终市场需求是利用技术框架超越算法的束缚去旅行,释放自己的新思想和商业创意。

因此,框架设计一方面要平衡多样化的业务场景和粗糙的培训方式之间的对立,另一方面要跟上技术发展趋势的缓慢递归。比如Google的街机自学环境,代理如何在里面工作,解释起来非常简单,有详细的文档和完整的日志。此外,谷歌还发布了TensorBoard的可视化工具套件,帮助开发者在短时间内清晰直观地识别、测试和递归新思想。3.框架与业务的耦合虽然我们说加强自学离行业的终点还很远,但是技术框架似乎可以通过从基础研发准备行业整合来减缓这个过程。

亚慱体育app官网

因此,工业终端业务的技术框架与市场需求的耦合成为R&D平台生命力的保证。比如百度第一时间变慢增强自学框架,对于中文文档和训练数据在增强自学算法方面严重不足是一个很好的空缺。

此外,还要考虑中国世界的开发者数量、数据规模、用户量,反对技术框架的能力也是一大堆挑战。基于PaddlePaddle对大规模工业级分类/推荐等密集模型的反对,百度的PARL旨在扩大到数百亿数据或功能的培训。

这种分段公里/小时的能力更符合中国市场的实际市场需求。当然,影响自学习性能提升和用户自由选择的因素很多,比如丰富的社区资源、算法的质量、使用工具的多样性等。

总的来说,现阶段短期内培养出一个好的强化自学模式还是非常困难的。但是,正如吴恩达所说,“短期乐观、长期悲观”和深度增强自学作为机器智能的下一步发展方向是毋庸置疑的。

为了赢得未来,这个新的竞争高地被迫占领。关于加强自学框架的争论只是一个前奏。

随着各种可玩性惊人的实际问题一个个解决,很多有趣的事情就不会再发生了。


本文关键词:亚慱体育app官网

本文来源:亚慱体育app官网-www.dovenu.com

产品中心