model model是什么意思(based model)
model model是什么意思(based model),新营销网红网本栏目通过数据整理汇集了model model是什么意思(based model)相关信息,下面一起看看。
在强化学习的过程中,有两个名词迟早会出现在我们面前,分别是基于模型和无模型。在一些资料中,我们经常会看到“这是基于模型的算法”或者“这是典型的无模型算法”的说法。“基于模型”通常翻译为“基于模型”,“无模型”通常翻译为“无模型”。可能有人会问为什么会有这两种算法?我们应该从它们各自的含义入手。
本文选自《白话强化学习与PyTorch》这本书。
既然“Model-Based”翻译成“基于模型”,关键就在于理解什么是模型。这里的“模型”就是我们常说的机器学习训练出来的模型吗?不是,这里的模型指的是一个环境中状态之间转移的概率分布描述。以天气为例。我们想用“模型”这个概念来描述天气(或者建立一个天气模型)。我们做什么呢,想办法建立一个表,如下。
左边的纵坐标表示第一天的天气情况,上面的横坐标表示第二天的天气情况。经过长期统计,得到这样一个天气转移概率表。其中第三行第五列表示第一天多云第二天下雨的概率。
这是一个天气模型。这样的模型我们能做什么?不管是否满足马尔可夫特征,只要有这样的模型,在初始状态确定的情况下,必然会找到满足特定要求的路径。只要模型确定,转移概率就是确定的。只要转移概率一定,就可以知道对应的转移概率,什么样的动作在状态下会有最高的返回值。以这种方式,可以容易地精确估计状态()的估计和状态(,)中的动作的估计。
《强化学习研究什么?用白话讲就是……》我们提到了一个方形城市导航的例子,这是一个典型的规划问题的例子。
规划问题是运筹学的一个分支,用于解决决策问题,或在一定约束条件下得到最优决策。规划问题常用的套路是,要么解方程,要么解不等式,尽量找到满足约束条件的最大值或最小值。这个导航的例子很理想。因为解空间比较小,所以我们用最直接的穷举排序法来寻找满足旅行费用最小值的路径。当解空间较大时,特别是解空间连续时,通常采用其他解,如梯度下降(上升)法、模拟退火算法、遗传算法等。(求函数的自变量在最小值时)。
在导航的例子中,我们曾经说过,由于我们开启了“上帝视角”,借助GPS等高科技手段掌握了整个城市的路况,在解决这个问题时,我们根本不需要建立一个待定系数的模型,通过前向传播使其产生误差,通过最优手段求解出最小值。3354这里完全不需要使用强化学习。
这是规划问题的应用场景。如果,在一个环境中,在一个状态下做了某个动作后,能够得到移动到另一个状态的概率,并且清楚地知道在这个过程中得到的奖励值的数学期望值,那么这个问题就是规划问题。也就是说,我们可以通过遍历一棵树、解方程、解不等式等方法来求函数的最小值。没有使用机器学习的手段,更不用说强化学习了。我想写过代码,遍历过树的程序员一定明白我在说什么。
理解了Model-Base的概念,那么就可以理解Model-Free的概念,与——Model-Base相反。
如前所述,如果一个问题看起来满足一个规划问题的条件,那么它应该作为一个规划问题来解决,而不需要使用强化学习算法。,谁来完成模型的建立呢?如果环境建立后没人建模型,难道不能探索学习人工智能的策略吗?答案是否定的,其实恰恰相反很少有人帮我们做模型。在大多数情况下,模型是未知的,至少不能准确量化。我该怎么办?其实这才是更普遍的强化学习方式。
随着学习的深入,你将会对无模型算法有更多的了解。现在,你可以先建立一个基本的印象。比如Q-Learning通过不断求解一个状态下的动作估计函数(,)来学习策略。它不是根据规划前的统计结果做模型,而是通过查表直接估算出(,)中每个“小网格”的值,从而建模求解。这个想法很好。——我们不是“先知”。我们如何知道模型是什么样的?所以用直观的解决问题的方法比较靠谱。
相关十大巅峰网游小说(十大公认网游小说推荐)
百度网盘登录入口(百度网盘共享群的正确使用方法)
恶人传(《恶人传》以暴制暴成救赎)
百度网盘登录入口(百度网盘安装方法)
番禺中学排名(番禺区热门学校盘点)
道路标志(完整且有插图的交通安全标志)
哪个是苹果的序列号(iPhone序列号识字)
故宫太和殿介绍(故宫太和殿为什么叫金殿)
东营人均gdp(全国人均GDP前15名城市)
鲁振原型(鲁镇传奇的原型)
硫酸铜是什么颜色(硫酸铜的用途和危害)
小米平板4参数(小米平板4参数全曝光)
更多model model是什么意思(based model)相关信息请关注本文章,本文仅仅做为展示!