环境和代理是人工智能强化学习的主要构件。 本节详细讨论它们 -
媒介代理
代理媒介是能够通过传感器感知其环境并通过效应器作用于该环境的任何事物。
人用媒介具有与传感器平行。诸如眼睛,耳朵,鼻子,舌头和皮肤之类的感觉器官以及用于效应器的诸如手,腿,嘴等其他器官。
机器人媒介取代了传感器的摄像头和红外测距仪,以及各种效应器的马达和执行器。
软件媒介已将位串编码为其程序和操作。
代理术语
以下术语在AI中的强化学习中更频繁地使用 -
代理的性能测量 - 这是决定代理成功程度的标准。
代理的行为 - 代理在任何给定的感知顺序之后执行的行为。
感知 - 它是特定实例中代理的感知输入。
感知序列 - 这是代理人迄今为止所了解的所有历史。
代理功能 - 它是从训示序列到动作的映射。
环境
某些程序在局限于键盘输入,数据库,计算机文件系统和屏幕上字符输出的完全人造环境中运行。
相比之下,一些软件代理(如软件机器人或软驱)存在于丰富且无限的软域中。 模拟器具有非常详细和复杂的环境。 软件代理需要实时从多种行为中进行选择。
例如,设计用于扫描顾客的在线偏好并向顾客展示有趣物品的软堆可在真实环境和人工环境中工作。
环境属性
如下所述,环境具有多重属性 -
离散/连续 - 如果环境的数量有限且截然不同,则环境是离散的,否则它是连续的。 例如,象棋是一个离散的环境,驾驶是一个连续的环境。
可观察/部分可观察 - 如果可以从知觉中确定每个时间点环境的完整状态,则可观察到; 否则它只是部分可观察的。
静态/动态 - 如果环境在代理正在执行时没有改变,那么它是静态的; 否则它是动态的。
单个代理/多个代理 - 环境可能包含其他代理,这些代理可能与代理的类型相同或不同。
可访问/不可访问 - 如果代理的传感设备可以访问完整的环境状态,则可以访问该代理的环境; 否则它是无法访问的。
确定性/非确定性 - 如果环境的下一个状态完全由当前状态和代理的行为决定,那么环境是确定性的; 否则它是非确定性的。
情节式/非情节式 - 在情节化环境中,每个情节由代理人感知并然后行动组成。 其行动的质量取决于情节本身。 随后的剧集不依赖于前几集中的动作。 情景环境要简单得多,因为代理人不需要提前思考。
//更多请阅读:https://www.yiibai.com/ai_with_python/ai_with_python_reinforcement_learning.html
|