基于动态结构网络的修剪算法设计
摘要:研究具有自主学习能力的发育机器人,使机器人能够真正具有类似人的学习技能。动态结构网络的修剪算法设计使它像生物控制系统那样灵活而稳定。从模拟人的学习过程角度出发,通过不断地学习,使机器人拥有自主发展自身智能的能力,实现了机器人自主发育的功能。
关键字:发育机器人;动态结构网络;修剪算法
Pruning algorithm based on dynamic structure network design
Abstract:Robot research with independent learning ability of development, Make the robot can truly with similar learning skill of people. Pruning algorithm of dynamic structure network design to make it as flexible and stable as biological control system. From the Angle of the simulation of the human skills learning process, Through constant learning, Make robots have the ability to independently develop their intelligence, Realized the function of robot autonomous development.
Keyword: Development of a robot; Dynamic structure of the network; Pruning algorithm
1 动态结构模型
动态网络模型是一个具有输入层、竞争层和输出层的三层的网络结构,它的结构图如图1所示。它是根据自组织特征映射神经网络的竞争工作机制设计,同时将修剪学习算法应用到该模型中。
刺激P即两轮机器人的状态变量;u为网络的输出值,网络的输出采用径向基函数作为激发函数;决策选择部分是一个动作集,根据输出值以及评估机制的反馈在贪婪策略的指导下选取一个动作a作用于机器人上评估机制可以根据两轮机器人的控制效果给网络的竞争层一个反馈信号r[1]。
2 网络结构模型
基于自组织特征映射网络的三层网络采用了“全互连”型的连接方式,即各层网络神经元之间都有连接权值。三层的网络结构如图2所示[2]。
图2 基于自组织特征映射的三层网络结构
Fig.2Three?layer network?structure based on self-organizing feature map network
網络接收归一化的刺激信号 ,输入层包含n个神经元,与P的矢量维数相等。输入层不对输入信号做任何处理,通过权值连接关系W将输入刺激传送到竞争层,竞争层包含M个神经元[3]。
其中,仅有获胜神经元的输出值 为1,其余神经元的输出值都为0。
V是两层网络的连接权值,令 和 分别为输出层神经元的输入、输出值,则
其中, 为激发函数,文中采用的是径向基函数。
初始值是根据网络的输出层的输出值进行优化,再由决策选择模块根据选择策略选择一个动作a,作用于两轮机器人[4]。
3 动态仿生学习优化模型设计
采用了Boltzmann策略进行了算法的优化, 将boltzmann机引入到仿生学习算法中,能够自主采用一种行为从一种状态到另一种状态,利用对采取动作的评价找到最优策略。下面给出了Markov决策过程。
考虑一个有限的随机过程,环境状态 ,环境状态由转移到的转移概率可以用公式(3)表示: (3)
Markov决策是为了选择出一个最优策略,使机器人选择的动作得到最大的评价奖赏, 。机器人采取动作时得到的奖赏信号或惩罚信号代表着决策的好坏,Markov决策过程的评价函数由公式(70)表示:
其中 是智能体执行策略 后,环境状态由St转移到St+1的转移概率。而最优策略所产生的评价函数V*为公式(4)所示:
在无限范围的情况下,V*满足式(6),著名的Bellman最优化方程:
4 仿真实验
在真实的实验环境中,外界的干扰因素会影响到机器人状态量,为了模拟真实环境,将白噪声干扰信号加入到输入的状态量中,仿真结果图3所示,表明机器人需要经过1000步(10s)的学习调节后,机器人才能达到平衡状态。
以上仿真结果表明,Boltzmann策略算法的优化能使机器人处于匀速运动平衡的稳定状态,保持直立平衡。其能够实现机器人自主运动平衡控制目标,具有实用价值。
5 小结
动态优化仿生学习模型的设计,采用的是Boltzmann机与仿生自主学习算法相结合,根据算法策略的评价值采取动作,而不是采取当前最优策略,这样使机器人能更好的适应未知环境。将两轮机器人置于更复杂的环境,虽然向平稳状态过渡时间较长,不过仍能达到最终控制效果,表现了动态网络修剪算法的实用性。
参考文献:
[1]阮晓钢,蔡建羡,陈静.基于强化学习规则的两轮机器人自平衡控制[J].计算机测量与控制,2009,2:321-323
[2]谢艳辉.可生长结构自组织网络研究及其在倒立摆控制中的应用[D].北京:北京工业大学,2007.
[3]韩红桂.神经网络结构动态优化设计方法及应用[D].北京:北京工业大学,2011.
[4]蔡建羡.Skinner操作条件反射模型与机器人仿生自主学习控制[D]. 北京:北京工业大学,2010.
基金项目:校级青年科学研究基金项目(Z201518)。First auther: HUO Mei-jie(1989—), lady, teaching assistant
第一作者:霍美杰(1989~),女,助教。Correspondent auther: HUO Mei-jie(1981—), lady, teaching assistan.
华北理工大学信息工程学院
通信作者:霍美杰(1989~),女,硕士,助教。E-mail: 1042623870@qq.com.