4.1 适应度进化肖像
Smith等人[3]基于一个解附近地形的演化性统计提出了一种新的方法去描述地形特征,通过对具有相等适应度值的样本的平均化度量,可以构建适应度地形的进化肖像。
可演进性是进化的能力,即种群产生优良变体的能力,因此可演进性与个体可能产生适应度值的潜力有关,而与本身的适应度值的关系没有那么大,两个相等适应度值的个体也有着不同的进化能力。一般情况下,研究者基于当前个体或种群的子代提出了一些定义,这里定义一个从父代到所有可能子代之间的传递函数。
人们常常认为,在进化过程中可能存在可进化性增长的长期趋势。然而,由于可进化性与个体产生适应度值潜力的关系比个体适应度值本身更直接相关,因此长期变化不能归因于直线适应度值选择。因此,只有通过某种二阶选择机制才能理解任何可演进性变化的趋势,通过这种机制,进化倾向于保留具有更具进化性的遗传系统的解决方案。
生物学和进化计算的研究人员通常将可演进性与搜索空间的本地结构联系起来。例如,Burch和Chao(2000)[4]提出RNA病毒的进化性可以用突变邻域来理解,而许多进化计算研究者认为改变搜索空间的性质(通过增加中性等机制)可以影响进化性,这可以通过进化速度来证明。因此,进化计算研究者对可演进性的研究通常与搜索空间的崎岖性和模态紧密相关。但是,这里更关注的是解的局部搜索空间属性的可演化性。下面介绍传递函数和一组简单的可演化性度量方法[3]。
1.传递函数
可演进性的定义是个体和种群产生适应性变异的能力,这个定义与传递函数T和种群子代的概率分布函数ϕ有紧密的联系。
从所有父代基因型h,h′和k,k′中得到子代基因g和f的概率为ϕ(g,f),传递函数T是给定h,k,h′,k′得到g,f的概率密度函数。在没有重组的情况下,只有单亲h,k通过突变产生后代,因此上述公式可以写成
为了简化问题,这里集中关注一组单基因的子代情况,所以不需要在所有可能的父代集合上进行整合。同样的道理,由于已经事先选好了父代个体,选择函数也可以省略。由于只关心子代基因f,传递函数就可以简写为T(f:h,k)。
传递函数不仅包括了操作算子,还包括了表现型,而不是单单表示好的或者不好的操作算子或者表现型。也就是说个体或者种群的可演进性,只是传递函数的一个性质。下面根据连续变量的传递函数说明单个解可演进性的度量方法。
2.可演进性度量:连续变量
一个基因型是h,适应度值是k的解的可演进性与该解没有产生更低的适应度值的子代有直接的关系。基于此,可以得出第一个可演进性指标Ea
这是子代适应度值f大于或者等于当前的适应度值k的概率,即变异是有效的。由于传递函数T(f:h,k)是一个概率密度函数,所以它的无穷积分等于1,这样就得到
在此定义下,拥有较低适应度值的解的Ea可能会比拥有高适应度值的解更大,但这仅仅是因为适应度值低的解拥有更多数量的良性突变。第二个可演进性指标Eb仅仅只用了子代的适应度值
这是基因型h子代的期望适应度值。值得注意的是,这个值是依赖适应度值的,所以不应该在没有参考原来适应度值的情况下进行比较。Ea和Eb都存在一个问题就是它们依赖整个子代的适应度值,与父代相比显得更优良的子代的比例可能非常小。第三个可演进性指标就反映出了这个问题,这个指标只关注子代适应度值中前百分之C的个体,即
式中,Fc满足,Ec反映的是只有最高百分之C个体适应度值的期望。另外,还有一个相似的指标Ed计算的是最后百分之C个体适应度值的期望。
3.可演进性度量:离散集
将适应度地形看作是有E条边(根据操作算子决定)连接的V个端点(基因)构成的有向图(V,E),集合G是由父代基因h产生的子代,k定义为连接到父节点的顶点,即
适应度值函数F将每个顶点映射到单个适应度值,适应度值F(g)等于或者大于某个适应度值c的子代个体集合定义为
子代适应度值高于或等于父代适应度值的概率,即Ea,就是集合中F(g)≥k的那个部分
子代种群的平均适应度值为Eb,即
具有最高百分之C的子代个体适应度平均适应度值为
其中,Fc定义为。
4.简单的可演进性示例
将前两节的度量标准应用于一组简单的案例,以显示他们在不同地形中的求解能力,包括平坦的高原、局部最优地形和山坡。图4-1显示了三个这样的案例。
图4-1 连续一维地形实例
通过将连续可演进性度量(式(4-4)~式(4-6))应用于函数F(x)定义的连续景观,变异算子概率分布在父代解μ(x,x0)周围,对于父代解x0(以及后代解x1)的可演进性,获得了以下结果:
其中,Heaviside函数。
其中,。
类似地,可以用Heaviside函数H[Fd-F(x)]来定义最后百分之D个体适应度值的期望为Ed。
Smith等人在文献[3]中对于三个地形的可演进性进行了分析。例如,对于第一个地形,其可演进性数据说明了三个问题。首先,没有变异对于搜索过程是有害的;其次,后代适应度值的期望等于当前的适应度值;最后,后代的顶部和底部四分位数的期望适应度等于当前的适应度。从而可以得出,当前解的领域地形必须是平坦的高原。相关数据可以辅助识别山坡和局部最优地形,但单一指标无法提供全部信息。