当前位置: 首页 精选范文 博弈论方法范文

博弈论方法精选(五篇)

发布时间:2023-10-07 15:37:19

序言:作为思想的载体和知识的探索者,写作是一种独特的艺术,我们为您准备了不同风格的5篇博弈论方法,期待它们能激发您的灵感。

博弈论方法

篇1

关键词:博彝论公选课;教学内容与方法改革;措施

中图分类号:G420 文献标志码:A 文章编号:1002-0845(2012)01-0042-03

博弈论是当代西方经济学体系中最重要的理论课之一,其应用前景非常广泛。几乎所有社会科学领域中都活跃着与博弈论交叉的分支学科,为满足当代大学生对博弈论知识的需求,高校加强博弈论公选课建设迫在眉睫。鉴于此,笔者面向全校开设了“博弈论与诺贝尔经济学奖”和“博弈问题及其启示”两门通识选修课程。

一、博弈论公选课教学中存在的问题

由于博弈论与经济学、管理学和数学等学科有着十分密切的关系,所以国内本科院校的博弈论课程主要面向经济、金融、管理或数学专业开设,教学的对象通常是本专业或本学科相关专业的学生,很少面向全校开设公选课,这主要缘于以下两个方面的原因:第一,博弈理论的建立只有六七十年的历史。国内高校博弈论课程开设时间最长的也不到十年,上述情况导致了课程建设的经验不足、水平不一。第二,研究博弈理论往往需要借助数学的方法,所以,博弈论课程的讲授与学习离不开数学工具和经济学知识,课程内容不得不受制于较高的知识门槛。因而,国内博弈论公选课的建设尚处于起步阶段。

笔者在连续四个学期开设博弈论公选课后发现,该课程教学中存在的主要问题如下:

1 学生问的差异较大

由于博弈论公选课面对的本科生纵跨二、三、四三个年级。横跨本校全部学科的所有专业,导致学生的认知平台和知识面存在较大差异,学习目的和价值取向呈现出多元性,学生在学习态度、学习习惯和学习能力方也存在较大差别。

2 理论学习需要有一定的经济学基础和数学基础

博弈论是从经济学的角度提炼出个体最优决策问题后,利用数学模型对其进行描述,再运用数学工具对其理论进行研究。2007年的诺贝尔经济学奖得主罗杰・迈尔森(Roger B.Myerson)认为,“博弈论是对理人或决策者之间相互冲突及合作的数学模型进行的研究”。虽然博弈论具有广泛的应用范围和较强的解释能力。但它的标准表达是函数形式和集合论形式的,研究方法和分析过程依赖于数学工具。所以,学习博弈论既要有相关的经济学知识,又要有一定的数学基础。正因如此,学生在公选课中接触博弈论时会觉得比较抽象。

3 课程的知识容量受限

为了照顾学生差异,笔者在教学过程中会尽可能详细地为学生进行讲解,因而不得不压缩知识的容量,这导致了一部分经济学和数学基础较好的学生“吃不饱”的问题。笔者尝试通过布置课后练习的办法来解决这一问题,但效果不是很明显。或许一个不可回避的重要原因是,有限的课余时间和较快的学习节奏限制了多数学生对公选课知识的进一步学习。

4 缺少合适的教材

缺少合适的教材也是博弈论公选课教学中存在的主要问题之一。笔者认为,博弈理论的应用性和公选课内容的时效性是激发学生学习兴趣的、切入点,教材的编写应将二者有机结合起来,方能发挥最大的功效,然而目前的教材往往只能体现前者却难以涵盖后者。

二、课程内容与教学方法改革的措施

1 抓住学生的共性

大学生具有强烈的关注现实问题的意愿,对社会热点问题表现出极高的兴趣,尤其在理解焦点问题时具有很强的可塑性和认知共性。因而应牢牢抓住这一共性,迎合学生在知识需求上的实用化和功利化的特点,从当前丰富的信息资源中寻找承载博弈论知识的现实问题,以期收到事半功倍的教学效果。在教学实践中,笔者把丰田汽车赔偿、西南五省大旱、相亲类节目“非诚勿扰”、2008股市大跌等现实热点都搬上了讲台。下面,笔者就通过教学实例进行说明。

在讲授2005年诺贝尔经济学奖得主托马斯・谢林(Thomas C.Schelling)的博弈承诺及其可信性概念时,笔者以制定《反国家分裂法》为典型案例进行分析。由于祖国统一问题是所有国人关心的国家大事,大学生也不例外,所以讲授过程非常顺利,以致学生在课后反馈中把这一案例列为讲授最成功的部分。接着,为了讲解如何应用可信承诺处理现实问题,笔者选择了电视连续剧《老大的幸福》第四集中的一个视频片段,进一步强化了知识点。实践证明,人物生动的形象在给课堂增添活跃气氛的同时,也很好地承载了传递知识的作用,以缩影的形式把可信承诺的概念和应用可信承诺策略的方法植入了学生的头脑中。最后,笔者以拆迁补偿合同签订中的一种可信承诺策略为例,对本节课进行了总结,并请学生加以点评。由于拆迁问题是当前社会的焦点问题,所以学生对点评表现出极大的兴趣。这样,通过抓住学生的认知共性,展示了可信承诺策略在焦点问题上能够将劣势变为优势的强大作用,成功地引导学生了解并掌握了博弈承诺及其可信性概念。

2 增强主题的典型性和知识模块的简洁性

以经典博弈问题为主题有利于组织素材、选择教学内容;简洁地安排知识模块、弱化知识的层次性有利于照顾各类学生在知识面、综合能力和认知水平上的差异;少而精地选择课程内容有利于突出重点;多角度地反复讲解有利于降低知识门槛,提高学习的效果。

例如,在主题选择上,笔者以多数学生熟知的“囚徒困境”作为第一主题;以试验性强、易于展开的“理性基础和有限理性”作为第二主题;以现实性突出的“重复动态博弈”作为第三主题。由于“囚徒困境”与经济学中的“理性人假设”密不可分,所以第一主题既能让学生感受到博弈问题的趣味性和深刻性,又能激发他们对该主题的进一步思考,使他们逐渐认识到“理性人假设”所具有的超越现实、过于理想的特性,从而部分地为第二和第三主题做好铺垫。另外,有大量关于“囚徒困境”和理性问题的课外资料易于获得,这为学生在课程初期进行兴趣驱动的导读创造了条件。

在知识模块设置上,笔者采取“自成模块、减少关联”的策略。例如,针对非常重要的“信息不对称”主题,我们选择了以二手车市场为核心,构建了包含药品市场、电脑市场和就业市场等典型主题的知识模块。一方面,这些市场为学生所熟知,易于接受;另一方面,这些市场中包含着非常典型的“信息不对称”因素,因而通过对市场现象的自然描述完全可以弱化学生对经济学市场知识的依赖。为了弱化知识的层次性,突出重点内容,笔者舍弃了理论体系中的某些知识模块,例如“海萨尼转换”、“斯宾塞信号传递模型”和“斯蒂格利茨信息甄别模型”等。

3 重视案例应用,尤其应重视与诺贝尔经济学奖得主有关的案例

博弈论有一个显著特点,那就是它“声名显赫”,并且与

诺贝尔经济学奖的关系密切。许多诺贝尔经济学奖得主都曾涉足博弈论领域,在博弈论的建立和发展中直接或间接做出过贡献。“名声在外”为博弈论公选课的开设提供了有利条件,也为课程的讲授提供了独特的视角和丰富的素材。正因如此,笔者才面向全校开设了博弈论与诺贝尔经济学奖公选课。下面,以1994年诺贝尔经济学奖得主约翰・福布斯・纳什(John Forbes Nash Jr.)为例,详细说明如何应用与诺贝尔经济学奖得主有关的案例以及这样做的优点。

纳什是博弈理论发展的划时代人物,纳什均衡是博弈论的核心概念,两者都是公选课中必须包含的内容。为此,笔者设计了以下三个环节:1)借助“囚徒困境”和“情侣博弈”讲授纳什均衡及其不唯一性;2)播放电影《美丽心灵》,并进行讨论和点评;3)布置以纳什为主题的案例设计作业,让同学在课堂上演讲。第一部分是讲解的重点,讲好纳什均衡意味着博弈论课程成功了一半。第二部分可以把人格培养和素质教育有效融合起来。《美丽心灵》不仅能让人体悟到学生心灵中因爱而生的温暖,还能给出人生原本就是一场博弈的警示,体现出“大人物小故事”的精髓。纵然纳什这样的天才也有无法摆脱的困境,何况他人?所以,在人生的博弈中,既要承认能力的差异,又要找寻属于自己的色彩。同时还应看到,纵然如纳什般为顽疾所缠都可以逐渐康复,何况其他挫折?所以,要以积极、乐观、健康的心态对待人生,要终身学习而不轻言放弃!第三部分是对学生的启发环节。该环节不仅要培养学生对本课程的兴趣,加深学生对知识的理解,还要通过为其提供上台演讲、展示成果的机会,锻炼他们的逻辑思维能力和表达能力。值得一提的是,很多学生在设计案例时自学了有名的“智猪博弈”和“恋爱博弈”等经典模型,巩固了纳什均衡概念,还有学生甚至对纳什曾经设计过的一种“六连棋”博弈游戏(笔者对此也知之甚少)进行了分析。

4 重视学科交叉,尤其应重视学科交叉视阙下的学术前沿成果

博弈论已逐渐成为一门为诸多学科提供思维方法和分析技巧的学问,可以说,所有与生命有关的学科都蕴藏着博弈论的应用空间。在公选课中,应重视从学科交叉的视角供给知识,广泛培养各专业学生对课程的兴趣。例如,笔者选择生物演化理论和博弈论交叉所产生的演化博弈论作为知识模块,以人类社会的同性恋演化作为典型主题,挑选最前沿的学术研究案例作为教学的主要内容为学生进行讲解,扩展了学生的知识面。

在演化博弈论的开创性著作《演化与博弈论》一书中,作者约翰・梅纳德・史密斯(JohnMaynardSmith)用精妙的语言、深入浅出的分析和丰富有趣的案例把博弈论的思想融入到生物演化中,推动了对“动物为什么如此”这一问题的深入研究,揭示了动物群体行为演变的动力学机制。笔者首先以“哺乳动物一雄多雌”案例作为引导,简单介绍演化博弈论在性选择和性别比问题上的研究视角以及逻辑结构,然后立刻引出了人类面临的一个有关性的问题――同性恋演化主题下的性问题:从进化论的角度来看,男男同性恋的存在完全没有任何意义,这是因为同性恋相比于异性恋而言成功繁殖后代的可能性太小,那么为什么同性恋的基因没有被淘汰?显然,这一问题接近现实热点,对学生极具诱惑力,而且还具有很强的学术延伸性。为了讲解同性恋基因延续的演化博弈机制,笔者借助2010年2月24日美国心理科学杂志上发表的关于萨摩亚岛上男男同性恋的最新研究成果,利用最前沿的学术案例详细分析了“亲族选择”假说下的演化博弈机制。教学实践表明,通过这样的内容设计,来自不同专业的学生的学习兴趣都被调动起来,加深了他们对博弈论的理解,顺利实现了教学的目标。

5 重视开放性,尤其应重视教学信息交流反馈的开放性

信息交流有利于帮助学生巩固所学内容,让有兴趣的学生通过查阅相关资料,获得知识上的感悟和能力上的提升,并逐步脱颖而出。信息反馈有助于教师突出教学的亮点,发现教学中存在的不足,以便在今后的教学中加以改进。

教学实践中,笔者让学生通过电予邮件的形式反馈“课堂心得”,并要求他们回答以下三个问题:

(1)这次课对你影响最深或最成功的是哪部分?

(2)最失败或可有可无的又是哪部分?

(3)对本次课你有什么意见和建议?

这三个问题一方面可以督促学生对课堂内容加以回顾、梳理,另一方面,又可以从中发现笔者在教学中存在的不足之处。事实上,在交流和反馈中,许多同学都针对课程的内容、进程和教师的教学习惯、技能等提出了中肯的批评和建议,帮助教师提高教学水平。这些批评和建议包括“讲课的速度有点偏快”、“思考时间较少”、“有些理论过于深奥”、“希望针对时事展开分析”、“希望多些互动”、“理论是需要加强的”等,当绝大多数学生赞成“少一点数学知识”并希望“讲得详细点”时,笔者采纳了这一建议,并列出了几本偏重数学工具的参考书让那些“吃不饱”的学生自学。

学生给予的温馨鼓励也让笔者感觉“很给力”。例如,“本节课内容很充实,希望老师保持下去”、“老师的努力我们都看到了,希望老师以后做得更好”等话语激励着笔者,使笔者能够维持浓厚的教学热情使其永不衰减,并且有信心进一步提高自身的专业能力,挑战自我的职业水平。

教学探索与实践的过程是循序渐进的过程,学生在这一过程中所起到的作用是巨大的。只要教师能够及时、充分地了解学生的需求,不断总结、深化课程教学改革的经验,就一定能取得更大的成效。

三、下一步的设想

笔者秉承“以人为本,以学生的发展为中心”的教育理念,希望博弈论公选课能为学生打开“半”扇窗,培养他们对博弈理论的兴趣,激发学生课后自主学习的潜能,做到既为学生提供基本知识,又帮助学生脱颖而出。

教学实践表明,的确有不少学生通过自主学习脱颖而出。以下是某学生的反馈:“最近看了一本《博弈三国》,该书用博弈论的方式对三国故事进行解析,感觉博弈论有一种奇妙的功能,就是能把复杂问题简单化,而且解析后的过程、缘由都一清二楚了。”更有学生觉得自己“在研究中发现了对自己有用的东西,受益匪浅”。也有在深入思考后对教学内容提出反诘者:“从平常感知上来说,同性恋的基因遗传与博弈基本无关……博弈是一种研究竞争参加者为争取最大利益应当如何做出决策的数学方法……无法说这样一种与母系基因联系较为紧密的基因遗传行为可以用博弈的方式去解决,只能说同性恋的基因遗传在某种程度上体现了社会的平衡态。”不管这些反馈的具体情境如何,它们至少说明,应从公选课的现实性、延伸性、前沿性和开放性出发,强化学生的共性。弱化学生的差异性,充分利用教学内容的充实性和教学方法的灵活性,谨慎且大胆地进行教学改革,为满足高等教育通识选修课的教学需求,进一步提高教学的水平与质量,提供一些思路和经验。

篇2

[关键词]博弈论;理性人假定;公共知识;社会科学方法论

[中图分类号]C3

[文献标识码]A

[文章编号]1671-511X(2012)04-0020-03

博弈论是研究理性人的互动的理论,或者说研究交互决策的理论。1928年,冯·诺依曼证明了博弈论的基本原理,宣告了博弈论的正式诞生。1944年,冯·诺依曼和摩根斯坦合著的《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统应用于经济领域,奠定了这一学科的基础和理论体系。1950-1951年,约翰·纳什利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚定的基础。塞尔顿、哈桑尼、谢林、奥曼等人的研究也大大推动了博弈论的发展。因此,尽管博弈论是一门新生的学科,但是它今天已经发展成为有较完善的理论体系的科学。

今天,博弈论已经成为社会科学的通用方法论。尽管它是演绎科学,对社会现象有强大的解释力,然而,由于其理想主体的假定使得其演绎出的理论解与实际博弈结果存在差异。许多实验经济学家通过博弈实验研究实际中人们的博弈过程,分析博弈论的演绎解与博弈实验结果之间的差异。如2002年诺贝尔经济学奖就颁发给了丹尼尔·卡尼曼和迈农·史密斯,他们是实验经济学的先驱。今天在西方学术界通过实验来验证博弈的理论结果已经成为一种潮流。本文下面设计并进行了一个博弈实验,通过分析实验结果与理论解的差异,分析博弈论作为社会科学方法论的局限性,并提出改进的可能路径。

一、博弈实验及结果分析

1 实验描述

我们设计了如下的一个博弈实验。该实验的参与人是南京大学选修文化素质课“逻辑与科学方法基础”的大学生,他们是二三年级的学生,文理科学生均有。

该实验是以试题的形式进行的,该试题作为期末试卷中的最后一道题。该题目为:

在0-100之间选择一个数字,规则是:若你选择的数字“是或最接近”在座同学所选择的数字的平均数的2/3(即在座同学所选数的总和除以总人数之后所得数字的2/3,如:若平均数为90,你应当选2/3×90=60),你将获胜。请给出你选择的理由。

实验说明:

(1)实验参与者即参加考试的学生,事前不知道这是一个实验;

(2)该课程教师以讲座的形式给实验参与者传授过博弈论知识,但没有提到所进行的博弈;

(3)因为(2),他们中的大多数掌握“博弈”、“公共知识”等概念;

(4)试卷是保密的,没有任何学生预先知道考试内容,考试过程中学生间无任何交流;

(5)该博弈的理论解(即纳什均衡)为0或1。

2 实验结果

对于考试中的每个学生,在这个博弈实验中他能够获胜的关键是,他要准确猜测他人是如何选择的,一旦他猜测正确,他将他猜测的平均数乘以2/3便是获胜答案。

共有176人参加了考试。排除掉5个不明确的选择,供分析的实际选择数为171个(其中3个选择非整数)。实验结果为(按照数字大小排序):

“0”:46人;“1”:14人;“5”:1人;“9”:1人;“10”:4人;“12”:1人;“15”:3人;“20”:3人;“22”:18人;“22.44”:1人;“24”:1人;“25”:3人;“28”:2人;“29”:1人;“30”:4人;“32”:2人;“33”:24人;“100/3”:1人;“34”:4人;“35”:1人;“36”:2人;“38”:3人;“39”:1人;“40”:6人;“43”:1人;“44”:5人,“45”:3人;“47”:1人;“50”:3人;“58”:1人;“59”:1人;“60”:2人;“66”:1人;“67”:3人;“”:1人;“72”:1人;“75”:1人。

3 结果分析

在这些所选择的数字中,最大的数字为75,最小的数字为0。171个数字相加后的平均数为21.91,本博弈胜出解:21.84×2/3=14.61。

这个博弈中,0和1是均衡解(下一部分将分析),它们是“理论解”。在该实验中,0是所选最多的数字,共有46人选择,比例为26.9%;选1的为14人,比例为8.2%。两者相加共有60人,比例为35.1%。

从上述数据可以看出,在这场博弈中,“实验解”为14.61,最接近该数的是14或15,这和“理论解”的“0”或“1”不同。在本实验中,没有人选择14,而选择15的有3人,这3人是该实验的胜出者。

若按照区间来统计,实验结果的分布情况见表1。本博弈实验的“实验解”14.61落在11-20之间。若我们把11-20看成是胜出区间,则有7人胜出。

对于这些选择,有以下值得注意的几点:

第一,67以上的选择都是不理性的,因为参加考试的学生数为150-200之间,这是公共知识,即使所有的学生都选择100,胜出的数字都不会超过67。但是还有3位学生选择了大于67的数字,其中选择的最大数为75。他们在给出这些选择时没有给出理由。

第二,分析学生所给出这些选择的理由,可以看出,绝大部分选择者在进行他们的选择时考虑到了他人的选择以及他人的推理。不同的人对他人的假定不同,所进行推理的步骤也不同。如选择67的学生假定了他人都选择100,因而选择67是最优选择;再比如选择30-40之间的数字的同学,其理由大体上有两个:或者认为平均数集中在50-60之间,其2/3就集中在35-40之间;或者认为都选100的话,66.7是最优选择,都选择66.7的话,44是最优选择,而都选44的话,33是最优选择。

第三,有三个区间处的选择比例较高:0-10间为38.6%,21-30间为17.6%,31-40间为25.7%。从所给理由可看出,不同区间的选择者考虑群体的互动推理的步骤存在差别,如0-10区间的选择者考虑他人的推理步骤比31-40区间的选择者多些。

第四,值得注意的是,11-20区间里的选择较少(事实上是,在这个博弈中所选择的数字落在这个区间是最有可能胜出的)。原因可能是,一旦选择者进行了多步的互动推理,他们便能够将这样的推理进行下去,从而将选择向理论解0或1靠近。

第五,有一些“智慧的”选择者,他们知道理论解,但他们知道存在不完全理性的选择,因而他们没有选择理论解。尽管他们的选择没有胜出,他们的推理是有智慧的。这里,本文选择了其中2个。一位选择22的学生是这样给出他所选择的理由的:“作为理性人,我不会选择大于2/3×100的数,因为即使所有人都选择最大数,平均数的2/3也不会超过2/3×100。如果大家和我一样理智,那么大家都不会选择大于2/3×100,那么我不会选择大于100×2/3×2/3。因为他们选择最大的他们可能会选的数,平均数的2/3也不会超过2/3×2/3×100。依此类推,如果全班都充分理智,那么全班最终都会选择1,然而我不认为班里的人都是足够理智,故平均数的2/3会大于1。根据两次游戏,平均数的2/3在20~30。如果是我,我会选择靠近20的数,那我就22吧。”一个选择10的学生的理由是:“如果其他人都是随机选择,那么平均数最后可能接近于50,50×2/3≈33。但是,如果所有人都选择接近33的数,那么33为平均数,33×2/3≈22……如此推理应该为1。但是并非所有人均是理性、均会如此计算。我对南大有信心,所以,我将数字选得接近1一点,选10。”

第六,有一些选择是没有考虑到他人的选择。如有这样一些理由:“大家都认为60是及格分,所以我选择59”,“58是我的幸运数字”,等等。

二、博弈的理论解分析

本实验是一个多人完全信息静态博弈:参与者同时选择行动,然后根据所有参与者的选择,每个参与者得到各自的结果,每一参与者的收益函数在所有参与者之间是公共知识。

在这个实验中,参加考试的176位学生是参与者,每个考生同时对0-100之间的数字进行选择行动,即每个参与者的策略空间Si∈(0,100),即有101种可能的策略。根据所有考生的选择,每个考生最后得出自己的结果,对每个考生来说,结果无非就是,自己的选择是“大家所选数字的平均数的2/3”,胜出;要么与“大家所选数字的平均数的2/3”不一致,失败。

我们假定该博弈的参与人都是绝对理性人(事实上,这个要求在实际中难以达到,这也是本文要得到的一个结论)。

我们来分析绝对理性人的推理过程。

在这个博弈中策略组合有176×101种,每种策略组合下,每个人的收益是公共知识。如:如所有人都选100,平均数为100,此时每人都失败,胜出结果是100×2/3=67;如175人都选100,有一个人选择了67,那么选100的人失败,而选择67的人胜出……所以这些是理性参与人的公共知识。

我们看到,任何人都不应该选67或以上,或者选择67或以上是非理性的,因为所选择的数字的最大平均数为100,此时胜出的数字为67,因此选择67以上而获胜的可能性是没有。因此,作为理性人他们都不会选择67或以上。

每个人都不会选择67或以上,这本身也是公共知识。在这样的公共知识的前提下,45以上的选择都是不合理的,因为对每个人而言,只有在他人都选择67以上,我选择45或以上才是合理的(67的2/3约为45)。

每个人都不会选择45或以上,这本身也是公共知识。于是,每个人都认为不应该选择30或以上。

……

结论是:每个人选择0或1是合理的,它们是该博弈的理论解。

事实上,每个人选择0或都选择1是纳什均衡:对每个人而言,在其他人不改变选择的情况下,当下的选择是最优的。

在所有人均选择0的情况下,因为对于每个人而言,若所有人都选择0的话,0便成为平均数,该数的2/3还是0。这样,他选择0是最优选择:在他人不改变选择的情况下,他改变选择将失败。因此这点构成纳什均衡。

在所有人均选择1的情况下,同样,对于每个人而言,在其他人选择1的情况下,平均数1的2/3为0.67,此时1最接近该数。因此,他选择1是最优选择,并且若他改变了他的选择他将失败。因此,这点也构成纳什均衡。

当然,面对多个纳什均衡,作为理性的参与人作何选择才能胜出呢?具体到这个博弈中,每个人要考虑的是,他选择0还是选择1才能胜出呢?

他会这样思考:没有理由认为其中一个比另外一个更有可能胜出,这样,选择0或1胜出的概率为50%,但是,他人能够与我有同样的想法。既然如此,期望平均数应该为0.5×1+0.5×0=0.5。于是,0.5的2/3接近0。因此,选择0是最优选择。

从上面的分析可见,尽管0和1是纳什均衡点,但选择。是最优选择。

三、改进博弈论的可能路径

本文已经表明,上述博弈是一个完全信息静态博弈,然而,本实验的实验解(14.61)与理论解(0或1)之间发生偏离。本文认为,有两个主要原因:

第一,博弈论中所假定的理想主体与实际中的决策主体不相符合。理想的博弈参与人是绝对理性人;他们能够进行任何有穷步骤的推理,能够分析所有有穷可能的情况,并且他们的推理、分析是在瞬时完成的,而实际博弈中人们是有界理性的。在我们的博弈实验中若参与者是理想主体,他们能够做本文上一部分那样的分析,他们应当知道0和1是均衡解,也能够预测O是最有可能实现的结果。本实验表明,并不是所有人都能够做出这样分析的。并且,在实际中存在完全非理性的选择,如本实验中选择大于67的3人,这不是完全偶然现象。

篇3

关键词:认知无线电;功率控制;非合作博弈;纳什均衡;效用函数

中图分类号:TN014文献标识码:A文章编号:1672-3198(2009)16-0265-02

0 前言

认知无线电(cognitive radio,CR)是以软件无线电(software radio)技术为基础的能够提高无线通信频谱利用率的新技术。在很多国家,传输效率较高的频段是以授权分配的方式分配给无线通信业务部门和运营企业的,但这些频段的授权用户并不是在任何时刻都使用分配给他的频段,因此不少传输效率很高的授权频段会经常处于空闲状态,这就浪费了宝贵的频谱资源。根据美国联邦通信委员会(FCC)所进行的大量研究表明,在大部分地区,授权频段的平均利用率在15%―85%之间,而一些传输效率较高的非授权频段则过于拥挤。于是Joseph Mitola博士在1999年首先提出了认知无线电概念,目的就是解决频谱资源的有效利用问题。

博弈论(Game Theory)又被称为对策论,是现代数学的一个分支,也是运筹学的一个重要组成部分,是研究互动决策的理论。John Nash博士在1950年提出了纳什均衡(Nash equilibrium,NE)即非合作博弈均衡的概念。该理论指出,在一策略组合中,所有的参与者都面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的,此时便达到了纳什均衡。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。这种参与者为了各自利益的最大化不断改变策略的做法,与CR中各认知用户为争得传输效率的最大化对频谱和功率不断进行调整的自适应算法策略相符。因此,可以引入非合作博弈论模型对CR的频谱分配和功率控制算法进行检测和优化。

本文以认知用户的满意度为设计目标,引入代价函数得到一种新的基于非合作认知无线电功率控制的博弈模型,并结合对该模型的分析介绍了非合作博弈论在CR中的一般分析方法。

1 认知无线电体系结构

认知无线电是对软件无线的扩展,因此具备软件无线可重新配置的特点,并且能够实现基于环境认知的自动配置。S•Haykin根据CR所必需的频谱扫描、信号分析、参数测量、频谱决策、协议分析等功能,给出了CR系统构成的基本功能结构,该结构将CR系统分为三个功能模块。

(1)无线频谱分析模块。

该模块通过接收环境中的射频激励,并利用自身算法对激励信号进行动态分析,实时提供对环境中频谱空穴的检测情况,搜集可使用的频谱空穴的信息。

(2)无线信道估计模块。

该模块根据无线频谱分析模块的分析结果,对无线信道状态和容量进行估计,为系统通信信道的选择提供依据。

(3)传输功率控制和动态频谱管理模块。

该模块根据频谱分析模块和信道估计模块的分析结果,选择最优的频谱空穴进行通信。在通信过程中对传输功率进行实时控制,使得首要用户和次要用户均能达到最优的通信水平。

S•Haykin给出的三个功能模块共同构成了CR系统的物理层,从各个模块所具备的功能可以看出认知无线电是应用了多种现代信号处理技术的综合性通信平台。

2 非合作博弈论在认知无线电中的分析方法

认知无线电中的策略选择问题及相关算法的设计是该技术的研究核心。利用非合作博弈论,可以按以下方法及步骤对自适应算法进行分析:

(1)该算法是否能达到纳什均衡。即验证算法是否能达到纳什均衡,具体步骤为:先将所研究的问题抽象为相应的非合作博弈算法模型,然后证明该模型中NE的存在性和唯一性。

(2)该算法达到纳什均衡(NE)后的稳定状态是否符合帕累托最优(Pareto Optimality)。即根据系统的目标函数衡量这一稳定状态是否是实际应用环境中的最优情况。

(3)该算法达到纳什均衡和帕累托最优的约束条件。

3 基于非合作博弈论的认知无线电功率控制模型

在认知无线电中,非授权用户接入处于空闲状态的授权用户频段,可以提高系统的频谱利用率,但是该接入过程必然会导致授权用户和非授权用户之间的干扰。这是由于在CR系统中通常采用动态功率控制以扩大通信系统的工作范围,而每个用户的发射功率都会对其他用户造成干扰。2003年,为了规范移动频段的非授权操作,美国联邦通信委员会(FCC)提出了新的量化和管理干扰的指标――干扰温度。在给定干扰温度和频谱空穴的限制下控制发射功率,可以看做为一组策略问题,而且在实际环境中很好的符合了非合作博弈的模型。在CR中,每个用户都从自身的利益出发,追求功率的最大化,而任何用户发射功率的增大都会对其他用户利益造成影响。因此需要提供一种有效的算法对各个用户的发射功率进行动态控制,以达到所有用户的总利益最大化。

在CR中可以用信道利用率、系统吞吐量、系统信干比等指标来衡量用户的利益。假设以系统信干比来衡量,设计算法时就应当以系统的总干扰水平最小化为设计目标。

通常把授权用户称为主要用户(Primary User),非授权用户称为次要用户(Secondary User)。假设通信环境中多个主要用户和次要用户同时工作,次要用户具有认知能力,即把次要用户看做认知用户。假设认知用户i的发射功率为pi,传输增益为gi,且认知用户与基站存在通信链路,基站接收到的该用户的功率为pigi,第j个主要用户对第i个次要用户的干扰为Qij并有M个主要用户,则相应的次要用户在基站处的信干比(SNIR)为:

ri=WRi•pigi∑Nj=1,j≠ipigi+σ2+∑Mj=0Qij(1)

其中σ2为基站处背景噪声,Ri为传输速率,W为第i个用户在的扩频带宽。

文献提出的非合作的认知无线电网络的功率控制纯策略的博弈模型(NPCG)定义了:参与者I={1,2,…,N}为认知网络中非授权用户的集合;策略空间pi,认知用户在一次博弈中选择的策略构成功率矢量P={p1,p2,…,pN};用 表示用户i的效用,即用户i对所选策略的满意程度,其中p-i是除i外其他N-1个用户的功率。

在该模型中,每个认知用户的策略都是尽量增大功率,以获得更高的效用。但当功率超过干扰温度后,整个系统的性能会迅速恶化,进而造成每个用户的效用都会降低。因此,必须选定合适的代价函数,使用户获得更高效用时付出相应的代价。考虑到在低于干扰温度时,用户只需付出较小的代价,而当超过干扰温度时,每增加一定的效用必须让用户付出更高昂的代价,笔者选择SINR的正切函数做为代价函数:

Ci=tg(kri)(2)

其中k为干扰系数,在认知用户发射功率接近干扰温度时,kri的取值接近π2 。

在非合作的认知无线电网络的功率控制纯策略的博弈模型的基础上,结合式(2)笔者提出基于非合作的功率控制算法的数学模型:

ui(pi,p-i)=Ripif(ri)-λpiritgri(3)

其中piri表示增加单位信干比所要增加的功率,λ为惩罚因子,代表代价函数有效性的量度。该模型通过引入代价函数增加了惩罚机制,以此来控制认知用户为追求信干比一味增大发射功率的行为。当功率超过干扰温度后的严厉惩罚,会使所有认知用户意识到,牺牲一定的信干比可以带来效用的最优,从而将发射功率控制在干扰温度以下,避免了超过干扰温度后系统性能迅速下降的恶性情况出现。

按照上节介绍的分析步骤对式(3)给出的模型进行分析,讨论该模型是否存在纳什均衡(NE)以及是否符合帕累托最优。对式(3)求一阶导数后可求得微分方程的驻点,进而再求出二阶导数,易证式(3)的二阶导数小于零。因此可得出该非合作博弈过程中NE的存在性和唯一性,所求得的驻点为唯一的纳什均衡点,同时该驻点即为所应满足的约束条件。

4 结论

认知无线电概念提出的20年以来,随着相关技术的研究不断深入、相关传输标准的确立以及计算机处理能力的提高,CR的应用越来越广泛。本文首先介绍了CR物理层的基本结构,然后结合一种新的基于NPCG的非合作非合作功率控制模型的构建,介绍了非合作博弈论在认知无线电中的分析方法。综上所述,我们有理由相信,随着相关理论和技术的不断进步,非合作博弈论必将在认知无线电的功率分配、频谱分配以及其他核心研究方向发挥更大的作用。

参考文献

[1]S.Haykin,Cognitive radio:Brain - Empowered Wireless Communications Selected Areas in Communications, IEEE Journal, 2005,23(2):201-220.

[2]FOSCHINI G J, MILJANIC Z, A Simple Distributed Autonomous Power Control Algorithm and Its Convergence[J]. IEEE Transactions on Vehicular Technology, 1993,(42):641-646.

篇4

关键词: 混合无线网络; 网络选择; 博弈论

中图分类号: TP391.41

文献标志码: A

文章编号: 2095-2163(2016)06-0141-03

0引言

近年来,随着人们对无线网络连接需要的日益增加,适用于不同工作情况与使用环境的无线网络接入技术得到了飞速的发展。这些技术的提升进步满足了人们随时随地能够接入到无线网络中的理想诉求。人们使用的无线网络连接设备,如笔记本电脑、平板电脑、手机等,往往同时配备了多种满足不同通信需求的无线网络接入技术,如适用于近距离通信需要的Zigbee、Bluetooth,以及适用于中远距离通信需要的WiFi、WiMax、2G、LTE等。而且,同一地区被多种无线网络覆盖的情况也大大增加了,如办公室、商场或者是家中,这些区域往往普遍配设有无限局域网络与蜂窝网络,而蜂窝网络常常也是由多家移动网络服务商各自优化后、且分别提供的,如中国移动、中国联通等,如此这般的多种无线网络接入技术共存的情况被称为混合无线网络。综上可知,在此背景环境中,人们所能选择的无线网络的数量也必然增加。根据使用环境的各异以及用户需求的不同,人们在选择移动设备所要连接的无线网络时将会综合考虑多种因素,如网络的稳定性、网络能提供的带宽以及使用网络需要付出的代价等。网络选择中的基本问题就是研究在多种无线网络共存的情况下,人们(设备)如何根据自身的需要,选择出最合适的无线网络,以及在选择过程中设备更换无线网络的行为趋势。为了分析解决混合无线网络中不同无线接入技术的选择问题,目前已提出了多种方法,如文献[1-2]提出的最大化用户效用的选择方法,文献[3-5]提出的基于多种属性满足的决策制定方法等等。博弈论作为一种数学工具,常常用于研究分析在人们根据自己的情况选择出最有利的策略时,参与者的行为变化趋势以及不同参与者之间相互影响的情况。在无线网络的研究中,由于博弈论在分析无线网络设备选择不同通信策略时其所获得的收益情况与各个设备行为特点上的优势,越来越多的工作利用博弈理论来解决混合无线网络中的网络选择问题[6-7]。本文总结了目前一些利用博弈理论来解决混合无线网络中的网络选择问题的文章,给出了博弈理论在解决这类问题时的一般方法。

[JP3][BT4]1博弈论的基本概念以及网络选择问题的博弈模型[JP]

[BT5]1.1博弈论的基本元素

在博弈理论中,博弈是由博弈的参与者、参与者所能选择的策略的集合、每个参与者选择某种策略时所获得的收益而构成的优选进化过程,过程中包含着3个基本元素,现对其进行如下定义描述。

1)参与者。博弈中能够选择自身策略的单位,可以是某一个体、也可以是某一群体,其目标是通过选择某种策略以使自己收益最大化,当目标为削减成本时为最小化。

2)策略集。策略集中包含了参与者能够选择的所有策略,每轮博弈时参与者将在其中选择一个以指导自己的行为。

3)收益。参与者选择某个策略时所能获得的效用,该效用由参与者选择的策略与其他参与者选择的策略共同决定。

[BT5]1.2博弈结果描述方法

具体地,针对存在多个参与者的博弈描述中,每个参与者将根据收益的大小采取不同的策略,同时某个参与者采取的策略也将影响到其他参与者的收益。当博弈重复进行的时候,各参与者是否可以最终达到某一平衡状态,即参与者是否可以找到一种最合适的策略,使得博弈终止。博弈是否能够终止,以及何时达到终止是博弈论中的重要研究部分。下面将调引最常用的描述博弈终止的状态定义,即纳什均衡状态。

纳什均衡状态用于描述这样一种情况,即在一个博弈中,所有的参与者都选择好自己的策略后,如果任意一个参与者都不能在其他参与者保持所选策略也不变的前提下,通过改变自身采取的策略使得自己的收益增大。这时,就可说系统达到了纳什平衡状态。

如果博弈的参与者用集合N={1,2,…,n}来表示,参与者可以选择的策略用集合S来表示,参与者i所选择的策略用si来表示si∈S,那么s*={s1*,s2*,…,sn*}为纳什均衡,当且仅当对任意的i∈N,存在:

[HT5SS]ui(s*i,s*-i)≥ui(s'i,s*-i)[JY](1)

其中,s*-i表示除了参与者i以外其他参与者所选择的策略,ui()为参与者的收益计算函数。并不是所有的博弈均存在纳什均衡;同时,有的博弈可能存在多个纳什均衡。

[BT5]1.3网络选择问题的博弈模型

网络选择问题存在3种博弈情况。对于每种博弈情况,现做出分析概述如下。

1)用户与用户之间的博弈。这种情况下,博弈的参与者均为需要使用无线网络的用户,多个无线网络用户将分享若干个无线网络接入服务,每个用户所能选择的无线网络接入点就是用户所能采取的策略。用户通过选择不同的无线网络接入点来最大化自己的收益或者最小化自己使用无线网络服务所需支付的代价。

2)无线网络服务商之间的博弈。这种情况下,博弈的参与者为能够向用户提供无线网络服务的各个网络服务商。各个无线网络服务商通过采取不同的自费策略来吸引更多的用户选用自己的无线网络服务,从而达成最大化自己收益的目的。

3)无线网络服务商与用户之间的博弈。参与者分别为无线网络服务商与用户。服务商通过选择不同服务资费标准与服务对象来最大化自己的收益,而用户则通过选择不同的服务商来最大化自己可能获得的网络效用。

[BT4]2博弈论在网络选择问题上的主要研究情况

[BT5]2.1用户与用户之间的博弈

文献[8]将网络选择问题描述为各个自利用户之间的非合作博弈,并使用拥塞博弈模型来研究用户的行为情况。在该博弈中,用户可以在多个可用的无线网络的不同频段中选择其中之一进行连接,在选择某个网络后,该用户将会造成一定程度的网络拥塞,同时用户需要为其造成的拥塞支付费用,而费用的高低将由网络当前的拥塞程度决定。作者形式化地给出了网络拥塞程度的描述以及用户所需支付的费用。实现过程是将该用户的网络选择情况用一组布尔值来设定其表示,如表示用户u是否选择了a网络的布尔值bua。当用户u选择了网络a时,bua=1,如果没有选择网络a,bua=0。此后,研究利用整数规划的方法求解了该博弈的纳什均衡策略。

文献[9]利用演化博弈模型来研究用户的网络选择问题。演化博弈在传统的博弈理论中加入了种群的概念,种群用于表示一组相同类型的用户,种群中的用户可以改变自己的策略以使种群的总体收益增加,或者使种群中其他用户改变自己的行为,以达到收益均衡的目的。项研究利用了演化博弈中的复制动态来研究一群同类用户的行为变化情况。复制动态用来表示种群中选择不同策略的用户的比例的变化情况,数学上是利用常微分方程来构建表示, 其对应公式为:

[HT5SS]x・i(t)=xi[fi(t)-(t)][JY](2)

其中,xi表示种群中采用策略i的个体占种群全体的比例,xi=ni/N,ni为选择i策略的用户的数量,N表示种群中用户的总数量。fi(t)表示参与者选择策略i所获得的收益,(t)表示该种群中所有参与者获得的平均收益。

文献[10]描述了装备有多种无线网络通信技术的设备,在不同网络之间切换服务,以达到自身获得的网络吞吐量最大的目的。文章给出了2类不同的无线网络技术的带宽分配模型,全面分析在了每种无线网络技术下用户的行为变化情况,给出了用户最大化自身收益的算法,并证明了在同种无线通信技术内部切换无线网络基站的情况下,系统存在纳什均衡,即用户在经历有限的基站选择变化后,所有用户均将达到稳定状态,而无需继续改变自身的选择。

[BT5]2.2无线网络服务商之间的博弈

文献[11]提出了一个由4部分组成的用于分配管理无线传输资源系统框架,其中包括网络层分配、容量预留机制、用户接入控制以及连接层分配。作者将带宽分配问题描述为不同接入网络之间的博弈,同时在系统达到纳什均衡时,网络总效益最大。

文献[12]将2个独立的无线局域网之间的接入控制问题描述为多阶段的非合作博弈问题。该博弈中的参与者为2个无线局域网,而策略集则为用户发出的网络接入请求。博弈的结果给出了2个网络最大化自身收益时,网络接入请求在2个无线网络中的分布情况,

文献[13]描述了在多个无线网络共存的环境中,存在一个移动着的用户。为了保证负载平衡以及减少用户在各个网络的交接,作者提出了一合作博弈的方法。参与者为区域中各个可以被用户连接的无线网络,其策略集为用户使用每个网络的优先级。每个候选网络的收益为当前网络负载、预定负载界限与网络惩罚权重的函数。博弈的目标是使每个候选网络的收益值最大。

2.3无线网络服务商与用户之间的博弈

文献[14]利用将无线网络服务商与用户之间的竞争描述为双方博弈的方式,提出了一种防止拥塞的控制机制。作者提出框架包括2个博弈,其中一个为接入控制博弈,另一个为负载控制博弈。接入控制博弈利用了经典的囚徒困境模型,参与者为各种用户-服务商对。每一种服务请求代表了每个参与者具有2个策略选择的博弈。服务商可以接受或者拒绝服务请求,而用户可以选择继续接受服务或者停止接受当前服务商的服务。作者讨论了该博弈的纯策略纳什均衡的存在情况。在负载控制博弈中,用户在不停止传输的情况下选择是否离开当前服务商,而服务商也可以选择是否终止提供服务。文章表明当服务商同时运用2种策略时,得到的收益将会达至最大。

[BT4]3结束语

本文总结了当前利用博弈理论分析解决混合无线网络中网络选择问题的一些代表性工作。值得注意的是,在利用博弈论解决该问题时,不能仅停留在判断是否存在纳什均衡的层面上,还需对如何达到纳什均衡进行研究。博弈论分析了混合无线网络中的参与者在为了最大化收益时的行为情况,为提出更加有效的网络选择方案作出了有益、且实用的贡献。

参考文献:

[1]

BARI F, LEUNG V. Use of nonmonotonic utility in multi-attribute network selection[C]//Processings of Wireless Telecommunications Symposium 2007. Pomona:IEEE, 2001:1C8.

[2] NGUYEN-VUONG Q T, GHAMRIDOUDANE Y, AGOULMINE N. On utility models for access network selection in wireless heterogeneous networks[C]//Processings of Network Operations and Management Symposium 2008. Salvador: IEEE, 2001:144-151.

[3] WANG L, BINET D. TRUST: a triggerbased automatic subjective weighting method for network selection[C]//Processings of Fifth Advanced International Conference On Telecommunications 2009. Venice:IEEE, 2009: 362-368.

[4] BAKMAZ B, BOJKOVIC Z, BAKMAZ M. Network selection algorithm for heterogeneous wireless environment[C]//Processings of IEEE 18th International Symposium on Personal, Indoor and Mobile Radio Communications 2007. Athens:IEEE, 2007: 1-4.

[5] BARI F, LEUNG V. Automated network selection in a heterogeneous wireless network environment[J]. Network, IEEE, 2007, 21(1): 34-40.

[6] STEVENSNAVARRO E, WONG V W S. Comparison between vertical handoff decision algorithms for heterogeneous wireless networks[C]//Processings of Vehicular technology conference 2006. Melbourne:IEEE, 2006: 947-951.

[7] ZHANG W. Handover decision using fuzzy MADM in heterogeneous networks[C]//Processings of Wireless Communications and Networking Conference 2004. Atlanta:IEEE, 2004: 653-658.

[8] MALANCHINI I, CESANA M, GATTI N. Network selection and resource allocation games for wireless access networks[J]. IEEE Transactions on Mobile Computing, 2013, 12(12): 2427-2440.

[9] NIYATO D, HOSSAIN E. Dynamics of network selection in heterogeneous wireless networks: an evolutionary game approach[J]. IEEE Transactions on Vehicular Technology, 2009, 58(4):2008-2017.

[10]ARYAFAR E, KESHAVARZ-HADDAD A, WANG M, et al. RAT selection games in HetNets[C]//Proceedings of INFOCOM 2013. Turin:IEEE, 2013:998-1006.

[11]NIYATO D, HOSSAIN E. A noncooperative gametheoretic framework for radio resource management in 4G heterogeneous wireless access networks[J]. Mobile Computing, IEEE Transactions on, 2008, 7(3):332-345.

[12]CHARILAS D E, MARKAKI O I, VLACHEAS P T. Admission control as a noncooperative multistage game between wireless networks[C]//Processings of Systems, International Conference on Signals and Image 2009. Chalkida:IEEE, 2009: 1-5.

篇5

引言

一、两个简单的例子

1.1 老鹰(Hawk)与鸽子(Dove)博弈

1.2 系统选择博弈

二、进化博弈理论的产生及其发展

2.1 理性的由来及其缺陷

2.2 心理学研究成果及有限理性概念的提出

2.3 进化博弈理论的产生及其发展

三、进化博弈理论的基本内容

3.1 进化博弈理论基本模型分类

3.2 进化博弈理论基本均衡概念-----进化稳定策略

3.3 进化博弈理论基本动态概念----模仿者动态

四、进化博弈理论的应用

五、传统方法的缺陷及进化博弈理论研究方法的现实性

5.1 新古典经济学均衡分析法的缺陷

5.2 经典博弈理论的策略互动分析法及其缺陷

5.3 进化博弈理论局部动态分析方法的现实性

5.3.1 局部动态分析法的均衡观

5.3.2 局部动态法的时间观

5.3.3 局部动态法的均衡选择观

5.3.4 局部动态法的特殊性

六、结论

参考文献

摘要

本文从两个简单的博弈例子出发,以通俗的语言全面介绍了进化博弈理论的理性基础及其形成、发展、基本内容和部分应用,在此基础上文章进一步比较了新古典经济学、经典博弈理论 ①及进化博弈理论在研究方法上的不同之处,并特别强调了进化博弈理论局部动态法的均衡观、时间观、均衡选择观及方法上的特殊性。进化博弈理论的局部动态分析方法既是经济学研究方法的一次创新又是经济学直面现实的有力武器。

关键词:沉默互动;社会互动;进化稳定策略;模仿者动态;均衡分析法;局部动态法

引言

为什么同样一项经济制度在某个地方对经济发展有积极的推动作用而在另一个地方对经济发展却起着消极的阻碍作用?为什么能够有效降低交易费用的中介在一些地方会出现而在另一些地方却不能出现?为什么同样的管理方法在一个地方显示出高效率而在另一地方却不具有效率?诸如此类的问题,新古典经济学利用均衡分析法都无法给出令人满意的答案。均衡分析法的最大缺陷是把经济系统中参与人看作是互不联系的单个人(仅研究单个生产者或消费者的行为),不能把其所考察的问题放在一定的环境中去,该方法完全忽略了制度环境、社会环境及人文环境等对参与人行为的影响,单纯考察某个条件与结果之间的一一对应关系。因而,无法对现实中出现的诸多现象给予合理的解释。博弈理论尽管把参与人之间行为互动关系纳入到了模型之中,但依然没能跳出新古典均衡分析法的基本框架,并且由于其对理性赋予更强的假定,使得该理论更加脱离现实。进化博弈理论则一反常规,从一种全新的视角来考察经济及社会问题,它所提供的局部动态研究方法是从更现实的社会人出发,把其所考察的问题都置于一定的环境中进行更全面的分析,因而,其结论更接近于现实且具有较强的说服力。进化博弈理论属于经济学的前沿理论,该理论从其理论框架建立到现在仅仅只有近三十年的历史,但其在经济学、社会学、生态学等领域却得到了广泛的应用,近年来已经成为主流经济的研究方法之一。在我国由于历史原因,对经济学的研究起步较晚,特别对进化博弈这样的前沿理论更是知者甚少,本文的主要目的是以通俗的语言介绍进化博弈理论的相关内容及其应用,让读者对该理论有一个全面的了解。

本文的结构如下:第一部分给出进化博弈理论的两个典型的例子;第二部分对进化博弈理论的产生及其发展进行阐述;第三部分对进化博弈理论的基本内容进行简要的介绍;第四部分概述进化博弈理论的有关应用;第五部分论述传统的经济学研究方法的缺陷及进化博弈理论研究方法的现实性;第六部分对进化博弈理论的发展及理论前景进行简要的说明。

一、两个简单的例子

为了下文说明的方便,本文先给出进化博弈理论中两个具有代表性的例子,在此基础上再进一步给出该理论的基本内容及其研究方法的基本特点。

1.1 老鹰(Hawk)与鸽子(Dove)博弈

假定一个生态环境中有老鹰与鸽子两种动物,它们为了生存需要争夺有限的资源(如食物或生存空间等)而竞争。老鹰一般比较凶悍,必要时在斗争中直到重伤。鸽子一般比较温驯,竞争时在强敌面前常常退缩。竞争中获胜者得到了生存资源就可以更好地繁衍后代,重伤者则不利于其后代生长,即会减少其后代的数量。如果群体中老鹰与鸽子相遇并竞争资源,那么老鹰就会轻而易举地获得全部资源,而鸽子由于害怕强敌退出争夺,从而不能获得任何资源(当然不会受伤);如果群体中两个鸽子相遇并竞争生存资源,由于它们均胆小怕事不愿意战斗,结果平分资源;如果群体中两个老鹰相遇并竞争有限的生存资源,由于它们都非常勇猛而相互残杀,直到双方受到重伤而精疲力竭,结果虽然双方都获得部分生存资源但损失惨重,入不敷出。假定竞争中得到全部资源为50个单位(该数字也可以表示为生物的适应度、繁殖成活率或后代数量);得不到资源则表示其适应度为零;双方重伤则用来表示。于是老鹰、鸽子两种动物进行的资源竞争可以用一个对称博弈来描述,博弈的支付矩阵如下:

操作依赖于该群体的初始状态。如果初始时,该宿舍有多于4人使用操作系统,那么该宿舍所有学生最终都会使用该操作系统;否则所有学生最终会使用操作系统。

二、进化博弈理论的产生及其发展

进化博弈理论是经济学研究方法的一次创新,该理论从否定传统理论赖以成立的基础----理性人假定出发而建立起来一个新的分析框架,它结合了生态学、社会学、心理学及经济学的最新发展成果,从有限理性的社会人出发来分析参与人的资源配置行为。

2.1 理性的由来及其缺陷

经济学自从古希腊哲学中分离出来并成为一门系统的学问,是在亚当•斯密1776年发表《国富论》之后。以斯密为代表的古典经济学关注的核心是资源的稀缺程度如何能被人类经济活动所减少,他们关注的重点不是资源配置问题而是国民财富的增长及国别差异的原因。1890年马歇尔《经济学原理》的出版,标志着新古典经济学的成形,马歇尔之后,新古典经济学关注的核心逐渐转向在给定稀缺程度下资源的最优配置问题。稀缺资源的配置是需要人的参与,也就是说经济学研究的问题演变为关于经济中参与人如何把稀缺的资源配置到效率最高地方去的问题,强调个体行为在资源配置中的作用。经济中参与人的决策行为是通过高度复杂的思维活动作出的,为了更好地从微观个体行为来解释资源配置问题,新古典经济学借用了哲学中“理性”概念对复杂的人类行为过程进行了抽象的假定。然而,理性一词用于经济学时却对其含义的理解与哲学中对其含义的理解已经有了明显的区别。哲学中的理性是指人类所特有的用以探索自然和社会奥秘的认知能力,当代伟大的哲学家康德在其著作《纯理性批判》一书中指出,人类理性即认知能力并不是万能的,而是有限的。经济学中的理性则是指一种行为方式,具体地说即是经济中参与人对其所处世界的各种状态及不同状态对自己支付的意义都具有完全信息,并且在既定的条件下每个参与人都具有选择使自己获得最大效用或最大利润的能力。

经济学家认为理性是至高无上的,人们凭借理性就可以完全地认识自然与社会。经济学中对理性的含义经过这样的处理以后,就使得经济学能够充分运用数学理论发展的成果来进行分析。为了应用数学工具并更好地处理经济问题,传统经济学家们从偏好,信念及理性三个方面来界定经济主体的特征,其中信念就是个体认为不同结果将会出现的基于个体所获信息之上的条件概率。偏好则是基于不同结果的信念之上的序。理性是根据上述偏好及信念,个体获得最优决策的程度以及个体根据已经获得的信息来修正其信念的能力。这三个特征使得经济学研究的对象由现实人转向了理想化的对象,经济学越来越偏离了现实。

由理性概念而引致的缺陷首先表现在理性人具有无限的信息收集及处理能力的均衡观,认为经济系统常常处于均衡状态,非均衡只是一种暂时的现象,当受到外生因素扰动而使系统偏离均衡状态时,系统会以线性的方式回归均衡,这种机械式线性反应的均衡观来源于牛顿力学,由此而得出的比较静态分析法完全忽视了系统受到非线性扰动及连续因素的影响。其次表现在由全知全能的理性人而引致的均衡跳跃观,认为经济系统达到均衡或者从一个均衡到另一个均衡是不需要时间的,认为时间是可逆的,即经济变量与物理学的变量一样,只要条件相同系统的均衡也就相同,市场和经济对于过去的记忆是短暂的或者是没有的。这种应用经典牛顿力学分析方法来分析高度复杂的参与人经济行为使得其预测效果大打折扣。最后表现在其比较静态分析方法上,传统经济学的最基本分析方法----比较静态分析法赖以成立的基础是假定经济系统只受到外界一个个相互独立、互不重叠的冲击的影响,或者当一个因素的影响消除之后,下一因素才开始对经济系统产生影响。我们知道现实世界是普遍联系的,各种因素之间不可能相互独立,系统中任何一个因素的变动都会引起其他因素的变动,这些因素之间相互作用的时间可能很短也可能很长,各因素对最终目标会产生不同程度的影响。比较静态法却只见局部不见整体,企图通过比较不同均衡来找出系统达到均衡的条件,因此得不出符合现实的结论,其研究方法上的局限性大大降低了其理论的现实意义。

2.2 心理学研究成果及有限理性概念的提出

随着经济学家对理论研究的深入,特别近来实验经济学的迅速发展,主流经济学赖以成立的基础“理性人”假定及其基本的比较静态均衡分析法越来越受到了人们的质疑。相继出现了许多其他的研究方法,其中在经济学中影响最大的就是心理学的研究方法。心理学应用于经济分析有着非常曲折的历史。事实上,斯密、马歇尔、庇古、费雪尔和凯恩斯等一批古典经济学家都仔细地分析了偏好和信念的心理学基础。但从1940’s开始,一方面受到萨缪尔森及希克斯等新一派基于理性假定经济学家的影响,心理分析在经济学中的地位慢慢地被降低了;另一方面理性模型也遇到了许多如Allais(1952)悖论等难以给出合理解释的经济现象。于是1960’s开始,许多微观经济学家再次运用心理学研究方法来解释现实中的异常现象,宏观经济学也把经验法则和适应性预期纳入到其模型之中,正是在这一时期心理学家Simon(1957)提出了其著名的“有限理性”概念。然而,1970’s初随着Robert Lucas等人提出的理性预期理论、Selten、Kreps等倡导的强调正确信念及贝叶斯修正的博弈理论及Stiglitz、Spence等研究的信息经济学理论相继成为主流经济学的一部分,经济学界再一次掀起了排除渗透在经济学领域中心理学研究方法的热潮,心理的研究方法在经济学界几乎无立足之地,严格理性假定席卷整个经济学界。行为经济学的发起者Amos Tversky在经济学界根本找不到志趣相投者。1970’s末期,随着心理学家Amos Tversky与Kahneman合作发表了一系列应用心理分析方法来研究经济学问题的原创性文章,如1974年他们在Science发表的Judgment under uncertainty: Heuristics and biases,1979年他们合作在Econometrica发表Prospect theory: An analysis of decision under risk,慢慢消除了经济学界中存在的对心理学分析方法的偏见,此后应用心理分析方法来解释经济现象的文献见诸于各种经济学期刊之中,心理分析方法也渐渐地成为了主流经济学的研究方法之一。

进入1980’s,随着经典博弈理论、生态理论及心理学理论研究的深入发展,特别是心理学家西蒙把其在心理学领域研究的成果直接应用经济分析并因此获得了诺贝尔经济学奖,极大地激励着经济及社会学家从现实人行为出发来解释经济及社会现象。心理学研究表明人类认知过程首先表现为人们通过一种“感知秩序”进行学习活动,并形成分散的非同质的知识,其中“感知秩序”是指人的理解力、知识和人类行动之间的关系;其次表现为个体通过学习所达到的理性程度的有限性,组织学习个体学习行为的整合而形成的多层次“理性结构”,个体理性便会在一个累积性的组织或制度环境中得到塑造和提高并发挥作用,在这个过程中,个体学习行为总会受到组织、习惯和文化等制度性的限制和影响。西蒙认为人类并不是完全理性而是有限理性的,因为人类认知能力有着心理的临界极限,人类进行推理活动需要消耗大量的能量,推理也是一种相对稀缺的资源,另外决策者决策时需要大量的信息,而这些信息是不可能免费获得的,获得决策所需要的信息是需要大量成本的。考虑到参与人有限的知识水平、有限的推理能力、有限的信息收集及处理能力,经济主体的决策行为并非总是最大化的结果,其决策受到参与人所处的社会环境、过去的经验、日常惯例及其他人相似情形下的行为选择等因素的影响。在有限理性条件下,由于参与人无法免费获得决策所需要的全部信息,并且参与人即使获得了决策所需要的全部信息也可能由于有限的计算能力而无法得出最优决策。因此,参与人只能采取模仿、学习等简单的直观决策方法或一些固定的常规来进行决策。人类的决策结果受到复杂的认知过程的影响,不同的人或者同一个人在不同时间即使给出相同的条件也可能会得出不同的决策结果,即决策结果受到认知过程的路径影响。

2002年诺贝尔经济学奖得主之一心理学家丹尼尔·卡内曼(Daniel Kahneman)将源于心理学的综合洞察力应用于研究在不确定条件下参与人的决策过程及行为结果并展示了人为决策是如何异于标准经济理论预测的结果。在1979年,他与有着深厚数学及哲学背景的心理学家特韦尔斯基(Tversky)提出了震撼经济学界的“前景理论”(Prospect theory)。他们的发现激励了新一代经济学研究人员运用认知心理学来研究经济学,使经济学的理论更加丰富。一个理论获得诺贝尔经济学奖不仅是对获奖者过去成就的肯定,更主要说明了获奖理论将会成为主流经济学未来的发展方向。2002年诺贝尔经济学奖授予给丹尼尔·卡内曼标志着经济学的研究对象从传统的“经济人”转向现实的“社会人”,经济学直面现实。如何从有限理性出发来研究参与人的行为,许多经济学家对之进行了广泛而深入的研究并提出了许多理论,在这些理论之中影响最大且受到了经济学界普遍接受的理论即进化博弈理论。

2.3 进化博弈理论的产生及其发展

进化博弈理论源于对生态现象的解释,1960年代生态学家Lewontin就开始运用进化博弈理论的思想来研究生态问题。生态学家从动植物进化的研究中发现,动植物进化结果在多数情况下都可以用博弈论的纳什均衡概念来解释。然而,博弈论是研究完全理性的人类互动行为时提出来的,为什么能够解释根本无理性可言的动植物的进化现象呢?我们知道动植物的进化遵循达尔文“优胜劣汰”生物进化理论,生态演化的结果却能够利用博弈理论来给予合理的解释,这种巧合意味着我们可以去掉经典博弈理论中理性人假定的要求。另外,1960年代生态学理论研究取得突破性的进展,非合作博弈理论研究成果也不断涌现并日趋成熟,进化博弈理论具备了产生的现实及理论基础。

进化博弈理论应用于研究经济学问题在学术界曾经引起极大的争议,争论的焦点在于理性假定。当时由于理性概念在经济学界已经根深蒂固。多数人认为利用研究生态演化的进化博弈理论来研究参与人的行为是不合适的。因为动植物行为是完全由其基因所决定的,而经济问题则涉及到具有逻辑思维及学习、模仿能力的理性参与人的行为,因此,借助于进化博弈理论来研究远比动植物复杂的人类行为显然是行不通的。但随着心理学研究的发展及有限理性概念的提出,越来越多的经济学家应用进化博弈理论来解释经济现象并获得了巨大的成功,利用进化博弈理论来研究并解释经济现象的文献大量出现于各种经济学期刊了。尽管如此,利用进化博弈理论来解释经济现象还是需要对该理论的基本分析框架作出相应的调整。如果去掉参与人偏好、信念及理性假定等条件,那么参与人是如何作出决策的呢?进化博弈理论在处理有限理性参与人决策问题时,常常假定参与人遵循某种比贝叶斯法则更简单的行为规则,这种行为规则应该告诉如何采取行动及如何根据经验来改变行为选择,这样参与人只要知道什么会发生,而不必知道为什么会发生。

1970年代,生态学家Maynard Smith and Price(1973)结合生物进化论与经典博弈理论在研究生态演化现象的基础上而提出了进化博弈理论的基本均衡概念----进化稳定策略(Evolutionarily stable stragegy ESS),目前学术界普遍认为进化稳定策略概念的提出标志着进化博弈理论的诞生。此后,生态学家Taylor and Jonker(1978)在考察生态演化现象时首次提出了进化博弈理论的基本动态概念----模仿者动态(Replicator Dynamics)。至此,进化博弈理论有了明确的研究目标。

1980年代以后,随着新古典经济学及博弈论固有的缺陷逐渐被人们所认识,有限理性概念得到了学术界的普遍认可,加之进化博弈理论在解释生态现象时获得的巨大成功,特别是经济学界于1992年在康奈尔大学召开的进化博弈理论学术会议,正式确立了该理论的学术地位。一大批如Larry Sameulson、Ken Binmore、Peyton Young等经济学家从不同的角度对传统的进化博弈理论分析框架进行拓展,并使之逐渐转化为描述经济行为的理论。目前,进化博弈理论的基本理论体系虽然已经形成但还是相当粗糙。因此,它仍然处于不断发展和完善的阶段,但该理论提供了比传统理论更具现实性且能够更准确地解释并预测参与人行为的研究方法,从而得到了越来越多的经济学家、社会学家、生态学家的重视,我们有理由相信该理论成为主流经济学的一部分已经为时不远。

三、进化博弈理论的基本内容

进化博弈理论结合经典博弈理论及生态理论研究成果,并以有限理性的参与人群体为研究对象,利用动态分析方法把影响参与人行为的各种因素纳入其模型之中,并以系统论的观点来考察群体行为的演化趋势。

进化生态学与博弈论的结合至少已有三十几年的历史,初看起来使人觉得奇怪,因为博弈论常常假定参与人是完全理性的,而基因和其他的演化载体常常被假定是以一种完全机械的方式运动。然而一旦用参与人群体来代替博弈论中的参与者个人,用群体中选择不同纯策略的个体占群体中个体总数的百分比来代替博弈论中的混合策略,那么这两种理论就达到了形式上的统一。尽管这两种理论在形式上达到了统一,但进化博弈理论与经典博弈理论还是存在本质区别。在进化博弈理论中每个参与人都是随机地从群体中抽取并进行重复、匿名博弈,他们没有特定的博弈对手 ④。在这种情况下,参与人既可以通过自己的经验直接获得决策信息,也可以通过观察在相似环境中其他参与人的决策并模仿而间接地获得决策信息,还可以通过观察博弈的历史而从群体分布中获得决策信息。对参与人来说,观察群体行为的历史即估算群体分布是非常重要的,首先,群体分布包含了对手如何选择策略的信息。其次,通过观察群体分布也有助于参与人知道什么是好的策略什么是不好的策略。参与人常常会模仿好的策略⑤ 而不好的策略则会在进化过程中淘汰,模仿是学习过程中的一个重要组成部分,成功的行为不仅以说教的形式传递下来,而且也容易被模仿。参与人由于受到理性的约束而其行为是幼稚的(Naive),其决策不是通过迅速的最优化计算得到,而是需要经历一个适应性的调整过程,在此过程中参与人会受到其所处环境中各种确定性或随机性因素影响。因此,系统均衡是达到均衡过程的函数,要更准确地描述参与人行为就必须考察经济系统的动态调整过程,动态均衡概念及动态模型在进化博弈理论中占有相当重要的地位。

3.1 进化博弈理论基本模型分类

进化博弈理论的基本模型按其所考察的群体数目可分为单群体模型(Monomorphic Population Model)与多群体模型(Polymorphic Populations Model)。单群体模型直接来源生态学的研究,在研究生态现象时,生态学家常常把同一个生态环境中所有种群看作一个大群体,由于生物的行为是由其基因唯一确定的,因而可以把生态环境中每一个种群都程式化为一个特定的纯策略。经过这样处理以后,整个群体就相当于一个选择不同纯策略(纯策略集的数目就相当于群体中的种群数)的个体。群体中随机抽取的个体两两进行的都是对称博弈,有些文献中称这类模型为对称模型(Symmetry model)。严格地说,单群体时个体进行的并不是真正意义上的博弈,博弈是在个体与群体分布所代表的虚拟参与人之间进行。如第一部分的老鹰----鸽子博弈,该生态环境中有两个种群老鹰与鸽子,它们代表两个不同的纯策略,用进化方法进行处理时认为该生态群体中每个个体都有两种可供选择策略即老鹰策略与鸽子策略,此时的博弈并不是在随机抽取的两个个体之间进行,而是每个个体都观察群体状态(选择老鹰策略与鸽子策略个体数在群体中所占的比例),给定此状态它就可以计算自己选择不同策略所得的期望支付(严格地说这并不是期望支付,但为了说明的方便本文仍然借用该概念)进而确定选择哪一个策略不选择哪一个策略,对物种而言这就意味着种群数量的增加或减少。

多群体模型是由Selten (1980)首次提出并进行研究的,他在传统单群体生态进化模型中通过引入角色限制行为(Role Conditioned Behavior)而把对称模型变为了非对称模型。在非对称博弈个体之间有角色区分,此时可以从大群体中区分出不同的小群体,群体中随机抽取的个体之间进行真正意义上的两两配对重复、匿名非对称博弈,有时又称之为非对称模型(Asymmetry model)。如果我们把系统选择博弈中的宿舍变成学校(整个学校相当于一个大群体)而把十个人变成十个班(每一个班看成是一个小群体,且同一班的同学无角色区分即与单群体情形一样),每个班的学生都有多种选择,此时该校学生所进行的计算机系统选择博弈就是非对称博弈。非对称博弈模型并不是对单群体博弈模型的简单改进,由单群体到多群体涉及到一系列的如均衡及稳定性等问题的变化。Selten(1980)证明了“在多群体博弈中进化稳定均衡都是严格纳什均衡⑥ ”的结论,这就说明在多群体博弈中,传统的进化稳定均衡概念就显示出其局限性了。同时,在模仿者动态下,同一博弈在单群体与多群体时也会有不同的进化稳定均衡。

按照群体在演化过程中所受到的影响因素是确定性的还是随机性的,进化博弈模型可分为确定性动态模型和随机性动态模型。确定性模型一般比较简单并且能够较好地描述系统的演化趋势,因而,理论界对之进行较多的研究。随机性模型需要考虑许多随机因素对动态系统的影响,一般比较复杂,但该类模型却能够更准确地描述系统的行为,近年来理论界对之也进行广泛的探讨[对随机动态的详细讨论可以参阅这方面的经典文献Foster, D., and P. Young.(1990), Fudenberg, D. and C. Harris (1992), Kandori, M. G. Mailath, and R. Rob(1993)]。

3.2 进化博弈理论基本均衡概念-----进化稳定策略

进化博弈理论的基本均衡概念---进化稳定策略⑦ [文献2、5有详细介绍]是由Maynard Smith and Price(1973)及Maynard Smith(1974)在研究生态演化问题时提出来的,其直观思想是:如果一个群体(原群体)的行为模式能够消除任何小的突变群体,那么这种行为模式一定能够获得比突变群体高的支付,随着时间的演化突变者群体最后会从原群体中消失,原群体所选择的策略就是进化稳定策略。系统选择进化稳定策略时所处的状态即是进化稳定状态,此时的均衡就是进化稳定均衡。下面给出Maynard Smith and Price(1973)对进化稳定策略的定义(此后本文称之为原初定义),用符号表示如下:

说是进化稳定策略,如果,存在一个<,不等式对任意都成立。其中A是群体中个体博弈时的支付矩阵;y表示突变策略;是一个与突变策略y有关的常数,称之为侵入边界(Invasion Barriers);表示选择进化稳定策略群体与选择突变策略群体所组成的混合群体。实际上相当于该吸引子对应吸引域的半径,也就说进化稳定策略考察的是系统落于该均衡的吸引域范围之内的动态性质,而落于吸引域范围之外是不考虑的,所以说它只能够描述系统的局部动态性质。至于系统是如何进入吸引域的原初的进化稳定策略定义所没有给予足够的重视。

要准确地理解进化稳定策略概念就必须正确理解突变者和侵入边界的含义。我们可借助于前面的两个例子来理解。在老鹰、鸽子博弈中,当该生态环境中只有老鹰(或只有鸽子)时,这时系统已经处于均衡状态,但它们都是不稳定的均衡,因为这两个均衡都可以被突变者侵入。开始时,假定该生态环境处于老鹰均衡,如果由于某种原因而进入鸽子时,那么随着时间的演化,整个生态系统最终就会稳定于一半为老鹰一半为鸽子的状态,即混合策略纳什均衡是进化稳定的。这说明该博弈中两个纯策略纳什均衡是不稳定的。因为,当系统处于纯策略所表示的状态时,只要存在突变者系统就会离开这种状态,所以它们都不是进化稳定的。相反混合策略纳什均衡却不一样,即当系统处于一半是老鹰一半是鸽子时,如果由于某种因素使得系统偏离该状态,那么系统会自动恢复到原来状态。另外,在系统选择博弈中突变者、侵入边界就更为明显,所谓突变者即是指选择进化稳定策略以外的策略者,且侵入边界与不同的均衡有关。该博弈有两个纯策略纳什均衡和一个混合策略纳什均衡(),前一个均衡所对应的侵入边界就是,也就是说如果选择操作系统的学生数占群体总数的比例大于(即学生数大于4),那么选择操作系统的突变者就不可能侵入到该群体中,如果选择操作系统的学生数占群体总的比例小于(即学生数小于4),那么选择操作系统的突变者就会侵入到该群体中而原来选择操作系统的学生会转而学习操作系统。

最初进化稳定策略定义有比较苛刻的条件限制,如单群体、群体中个体数目无限大、系统只受到不连续且互不重叠冲击的影响等。这些条件大大地限制该定义的应用,随着学术界对进化博弈理论研究的深入,许多理论家们从不同的角度对最初定义进行了拓展,如Selten 1980首次给出了适应于描述多群体均衡的定义;Schaffer 1988首次给出了适应于描述有限规模群体的均衡定义;Foster and Young(1990)首次给出了适应于描述连续随机系统的均衡定义等等(有关对进化稳定策略进行拓展的讨论见文献[5])。最初定义是在解释生态现象时提出来的,如果进行经济分析,时需要进行相应的改变。在分析生态现象时,把每一个种群的行为都程式化为一个策略,因此进化的结果将会是突变种群的消失(消失的原因在于生物的行为是由其遗传基因唯一确定的)。如果用于经济分析,那么进化的结果将是那些选择突变策略的个体最终会改变策略而选择进化稳定策略(因为人类可以通过学习、模仿等来改变自己所选择的策略)。

经典博弈理论中的核心概念纳什均衡即是指一种策略组合,在该策略组合下任何个人单独偏离都不会变得比不偏离好。纳什均衡是一个静态概念,不能描述系统的动态性质,用数学语言来说它是动态系统的不动点,纳什的成功就是在于他应用拓扑学的不动点定理证明了纳什均衡的存在性。进化稳定策略必定是纳什均衡策略,它是纳什均衡的精练,文献[3]对此有详细的介绍。在进化稳定策略的定义中引入突变者及侵入边界使之能够更好地描述系统的局部动态性质。第一部分的两个例子中,按照纳什均衡的概念是无法得知两个系统最终会选择哪一个均衡,但利用进化稳定策略却可以说明系统最终会稳定哪一个均衡并可以分析系统达到不同均衡的条件,在某种程度上,较好地解决了多重均衡选择问题。

3.3 进化博弈理论基本动态概念----模仿者动态

进化博弈理论来源于生态学的研究,该理论基本上从“优胜劣汰”的进化论观点来看待群体行为的调整过程。一般的进化过程都包括两个可能的行为演化机制:选择机制(Selection Mechanism)和突变机制(Mutation mechanism)。选择机制是指本期中能够获得较高支付的策略,在下期被更多参与者选择;突变是指参与者以随机(无目的性)的方式选择策略,因此突变策略可能获得较高支付也可能获得较低支付,突变一般很少发生。新的突变也必须经过选择,并且只有获得较高支付的策略才能生存(Survive)下来。进化博弈理论需要解决的关键问题就是如何描述群体行为的这种选择机制和突变机制。博弈理论家对群体行为调整过程进行了广泛而深入的研究,由于他们考虑问题的角度不同,对群体行为调整过程的研究重点也就不同,因而提出了不同的动态模型,如Weibull(1995) 提出的模仿动态(Imitation Dynamics)模型,认为人们常常模仿其他人的行为尤其是能够产生较高支付的行为;Börgers and Sarin(1995,1997)等提出并应用强化动态(Reinforcement Dynamics)来研究现实中参与人的学习过程;Skyrms (1986) 引入了意向动态(Deliberational Dynamics)模型对哲学中的理性问题进行了讨论;Swinkels(1993)提出了近似调整动态(Myopic Adjustment Dynamics);Borgers and Sarin(1995)提出了刺激—反应动态(Stimulus-Response Dynamics)等等。到目前为止,在进化博弈理论中应用得最多的还是由Taylor and Jonker(1978)在对生态现象进行解释时首次提出描述单群体动态调整过程的模仿者动态(Replicator Dynamics)。所谓模仿者动态是指使用某一策略人数的增长率等于使用该策略时所得的支付与平均支付之差。下面就给出Taylor and Jonker(1978)提出的模仿者动态的微分形式:

化的而且因素之间的互动作用也是需要时间的。因此,均衡只是一种暂时现象或者在多数情况下,系统根本不可能达到的现象,要更准确地考察参与人的行为就必须运用系统论的观点,把行为互动性、因素互动性及时间因素纳入到其模型之中。

5.2 经典博弈理论的策略互动分析法及其缺陷

考虑到新古典经济学没有把参与人行为之间的互动关系纳入到其模型之中,经典博弈理论则在理性人假定的基础上把参与人行为的互动关系纳入到其模型之中进一步考察了参与人的决策问题。在我国,对人类互动行为的研究至少可以追溯到三国时期田赛马的故事,但作为一种正式理论提出来,一般认为是始于冯·诺意曼和摩根斯藤(Von Neumann and O. Morgenstern, 1944)出版的《博弈论与经济行为》一书,直到纳什(Nash 1950)在研究非合作博弈的基础上提出著名的纳什均衡(Nash Equilibrium)概念才使得博弈论成为一门完整的理论。经过近五十年的发展,终于在1994年,三位杰出的博弈论大师:纳什(John F. Nash)、泽尔藤(Rechard Selten)和海萨尼(John C. Harsanyi)获得了经济学的最高荣誉——诺贝尔经济学奖,在全球经济学界再次掀起了对博弈论的研究热潮。经典博弈论为社会科学提供了一个新的研究视角,使我们能够以全新的方法来处理各种冲突与合作的问题。博弈论作为一种理论工具,其应用相当广泛。在信息经济学中得到了充分的应用,1996年诺奖得主Mirrlees等、2001年诺奖得主Akerlof等都对信息经济学研究作出了卓越的贡献。这充分说明了博弈论在经济学的地位可见一斑。

经典博弈理论的核心概念----纳什均衡就是由普林斯顿大学数学家纳什在研究非合作博弈时提出来的。纳什均衡即是指给定其他参与人选择的情况下,每一个人单独偏离均衡都不会变得比不偏离好,显然纳什均衡是一个静态均衡概念。经典博弈理论尽管把参与人的互动行为引入到其模型之中,并认为现实中参与人不是孤立地作出自己的决策,每一个参与人的决策不仅依赖于其自身所面临的条件及其所拥有的信息,而且也依赖于其他参与人的决策选择。但该理论却面临着其自身无法克服的缺点。首先,博弈论中的互动是一种“沉默互动⑨ ”,这种互动不允许参与人之间存在任何形式的交流,即假定参与人都是一个个只会理性计算的孤立经济人而非社会人,一旦引入社会互动,许多博弈都无法进行分析,也就是说经典博弈理论中的互动并不“社会互动”而是孤立的“沉默互动”。其次,博弈论的基本均衡概念纳什均衡要求博弈各方都是理性的,并且理性是共同知识,博弈时如果某一方选择了非理,那么博弈就无法进行下去。特别地该理论在利用后向归纳法(Backward Induction)对纳什均衡进行精练时,不但要求参与人完全理性,而且还要求参与人的行为满足序贯理性(Sequential Rationality)要求。这一比理性更强的要求使得博弈论更加远离现实人。再次,在处理参与人所面临的不确定性时,不仅要求各参与人知道世界的各种状态,而且要求参与人知道每一种状态所出现的概率,并且给定一个先念信念,当出现任何新信息时,每个参与人都能够应用贝叶斯法则修正自己的先念信念,也就是说参与人不但具有很强的计算、推理能力,而且能够在一个大的状态空间上应用贝叶斯法则解决相当复杂的问题。现实中多数情况下,参与人并不都具有这种计算、推理能力。最后,博弈论碰到了其最棘手的问题就是多重均衡的处理,当博弈出现多重均衡特别是多重严格纳什均衡时,尽管许多理论家提出了一些方法(Selten(1965)提出的子博弈精炼纳什均衡概念,Selten(1975)提出的颤抖手精练纳什均衡,Kerps—wilson(1982)提出的序贯均衡,Schelling(1960)提出的聚点均衡等)来处理多重均衡问题,但始终没能获得一致认可的结论。

与新古典经济学相比,经典博弈理论虽然在其模型中纳入了行为的“沉默互动”关系,但该理论给出的研究方法仍然没能跳出新古典经济学的均衡分析框架,这种只注重结果而忽略达到结果的过程的分析方法依然把对经济系统的影响因素都看作为一个个孤立因素,依然认为影响因素与决策结果是一一对应的关系,依然没能把参与人所处社会环境等因素纳入到其模型之中,因而不能准确地描述现实中人的决策行为,其结论也仅仅具有理论意义而缺乏政策含义。

5.3 进化博弈理论局部动态分析方法的现实性

进化博弈理论利用达尔文“优胜劣汰”的生物进化论、经典博弈理论并结合心理学的研究成果,从西蒙提出有限理性(Bounded Rationality)的参与人群体出发,通过对群体行为的研究进一步得出参与人个体的行为。进化博弈理论跨越了完全理性的“经济人”与有限理性的“社会人”的鸿沟,实现了经济学研究方法革命性的突破。与传统均衡分析法相比,进化博弈理论的局部动态分析方法在以下几个方面独具特色。

5.3.1 局部动态分析法的均衡观

传统的均衡分析方法认为完全理性参与人能够对环境的任何变化作出迅速的最优反应,因而,经济系统是常常处于均衡状态的,分析参与人的行为只需要研究均衡结果,并以此来预测经济人的行为,通过比较不同均衡结果来寻找系统达到均衡的条件。这种处理方法为了数学上处理的方便而撇开现实中“因素互动”而分别考察单个因素对均衡的影响,使得理论更加缺乏现实基础。进化博弈理论则完全摒弃传统理论中非现实的“理性人”假定,直接从有限理性参与人群体出发而提出的一种全新的研究方法----局部动态法。局部动态法把经济系统达到均衡结果的过程纳入到其模型之中,认为经济系统达到均衡需要一个长期的渐进过程,均衡结果依赖于达到均衡的过程,也就是说任何一个结果都是路径依赖的,它与混沌经济学完全动态的研究方法具有某种程度的相似之处。

5.3.2 局部动态法的时间观

传统的均衡分析法并没有纳入因素互动关系并且理性计算是不需要时间的,所以得出经济系统常常是均衡的结论。进化博弈理论的局部动态法一个显著特征就是把参与人的决策过程时间及因素互动的时间纳入到其基本模型之中,强调系统达到均衡的过程,并认为经济系统由于受到各种互动行为及互动因素的影响,有些系统达到均衡可能只需要很短的时间,有些系统达到均衡可能需要很长的时间,有些系统可能无法达到均衡。时间因素对经济学研究有着非常重要的意义,如均衡分析法无法考虑宏观经济政策中“时滞”使得许多实施时有效的政策在发生作用时却出现了与原意相反的结果。时间是度量政策效率的一个很重要的因素,如果不考虑时间因素有些政策可能很有效率,但纳入时间因素,一些需要太长时间才能使系统达到意愿均衡的政策可能根本就没有效率。进化博弈理论把时间纳入到模型分析中并充分应用数学中的相图来描述经济系统达到均衡的路径,这样有利于决策者控制经济系统使之朝向既定的目标前进,也有利于决策者寻找能够最大限度地促进系统向意愿均衡转化的因素,使系统尽快达到有效率的均衡。

5.3.3 局部动态法的均衡选择观

新古典经济学研究的逻辑有理性就有均衡,然后在既定均衡下通过对不同均衡的比较来寻找系统达到不同均衡的条件,即比较静态法,最后结合条件找出希望达到的均衡,因此,该理论不存在真正意义的均衡选择问题。经典博弈理论提供的分析方法在多数情况下都存在其自身所无法处理的多重均衡问题。如老鹰与鸽子博弈及系统选择博弈中多重均衡问题。进化博弈理论的局部动态法引入突变因素就能够较好地解决了多重均衡的选择问题,在老鹰与鸽子博弈中,尽管全是老鹰(全是鸽子)都是均衡的,但这两个均衡都极不稳定即都不是进化稳定均衡,一旦有鸽子(老鹰)突变者进入该系统就会使系统偏离,随着时间的推移而使得系统趋向于混合策略进化稳定均衡即一半鸽子一半老鹰(该均衡是一个全局吸引子);在系统选择博弈中经典博弈理论无法解释系统最终会趋于哪一个均衡,局部动态法引入了突变因素就能够很好地解决了均衡选择问题,即系统最终会趋于哪一个均衡依赖于系统的初始状态即路径依赖。进化博弈理论的基本均衡概念----进化稳定均衡描述的是当经济系统一旦进入到某一均衡的吸引域内时,系统就会对其他的突变策略具有一定程度(即在突变边界内)的抵抗力。

5.3.4 局部动态法的特殊性

新古典经济学与经典博弈理论均衡分析法都是以单个消费者、单个生产者、单个市场为研究对象来考察参与人的最优决策行为,并由此研究整个社会的资源配置问题。然而它们却碰到了如何由个体行为转化到群体行为的困难,因为这种转化过程涉及到各种互动因素的影响。一个明显的例子是经典博弈理论中囚徒困境博弈,在该博弈中两个囚徒都从个体理性出发,但得到了集体非理性均衡的结论。也就是说,均衡分析法根本无法实现从个体行为向集体行为的过渡,在此框架内寻找宏观经济的微观基础的困难是非常大的。进化博弈理论的局部动态法则从人的社会性出发,利用系统论的处理方法来看待参与人的决策行为。该理论直接以参与人的群体为其研究的逻辑起点,在考虑到影响参与人行为的社会因素、文化因素、民族习俗及个体生活习惯等因素的基础上进一步考察群体中有限理性个体的行为互动关系,很巧妙地避开由个体行为向集体行为转化问题,因而能够更加真实地反应现实人的决策过程及其决策结果。

六、结论

进化博弈理论是经济学领域的前沿理论,它来源于对生态现象的研究,虽然该理论应用于经济分析的时间不长,但它为经济学研究提供了一个全新的分析方法,较好地克服了新古典经济学及经典博弈理论中理性假定及多重均衡的困难。并且,应用进化博弈理论来研究经济系统能够获得比传统理论更准确的结果,能够更加现实地解释经济现象,因而在短期内为多数经济学家所接受。从某种意义上说引入进化博弈理论局部动态法来分析经济中参与人的行为是经济学研究方法的一次创新。

注释: ①本文把源于冯·诺意曼和摩根斯藤经纳什发展而成的博弈理论称之为经典博弈理论。 ②即无性生殖,这样假定的意思就是说后代继承其母体的策略,并且永远不改变,当然用于研究人类的行为时,需要作相应的调整。 ③所谓近视调整即是指参与人不管未来怎么样,只知道使当前的支付最大化 ④ 经典博弈理论中每一个参与人都有特定的博弈对象,并且,在重复动态博弈中,后行动者通过观察先行动者的理而利用贝叶斯法则来修正自己的先念信念,然后,在此信念下选择使自己获得最大支付的策略。 ⑤好的策略即是指能够获得较高支付的策略。 ⑥所谓严格纳什均衡即是严格占优纳什均衡。给定对手选择的情况下,每个人都通过选择严占优的策略而组成的纳什均衡。 ⑦事实上,这与Selten提出的颤抖手均衡概念具有相似性,所谓颤抖手均衡是指一个战略组合,只有当它在允许所有参与人都可能犯错误时仍是每一个参与人的最优战略的组合时才是一个均衡,其严格定义可以参阅张维迎的《博弈论与信息经济学》。其中的颤抖或者犯错误与进化稳定策略中的突变因素有差不多的含义,但它们之间存在本质上的不同。 ⑧由模仿者动态方程进行支付变换,可得。 ⑨这一点我们可以从博弈论一个著名的捐款----回赠实验中看出,募捐者要求每一个人都自愿捐款,最终募捐者以3倍于捐款总额的钱平均分派给每个捐款者,为了使得博弈能够分析下去,募捐者要求自愿捐款时每个人都不得与其他人讨论,否则该博弈就无法进行下去,因此,本文称博弈论中的互动是一种沉默互动而非社会互动。这个实验充分体现了古典经济学及博弈论研究对象上的一致性,即它们都是研究单个个体的行为而排除了人的一个重要特征----社会性。参考文献

[1] 王则柯(1999):《博弈论平话》,中国经济出版社。

[2] 张维迎(1999):《博弈论与信息经济学》,上海三联出版社。

[3] 张良桥,冯从文(2001):《进化稳定均衡与纳什均衡:兼谈进化博弈理论的发展》,《经济科学》,3,103-111。

[4] 张良桥(2001):《理性与有限理性:论经典博弈理论与进化博弈理论之关系》,《世界经济》,8,74-78。

[5] 张良桥(2003):《论进化稳定策略》,《经济评论》,2,70-74。

[6] 张良桥,郭立国(2003):《论模仿者动态》,《中山大学学报自然科学版》,3。

[7] 杨小凯(2000):《新兴古典经济学和超边际分析》,中国人民大学出版社。

[8] 青木昌彦, 奥野正宽(1999):《经济体制的比较制度分析》, 魏加宁等译, 北京: 中国发展出版社.

[9] Allais, M., (1952): The foundations of a positive theory of choice involving risk and a criticism of the postulates and axioms of the American school, in expected utility hypotheses and the Allais Paradox, edited by M. Allais and O. Hagen, Dordrecht: Teidel.

[10] Börgers, T. and R. Sarin (1997): Learning Through Reinforcement and Replicator Dynamics, Journal of Economic Theory, 77, 1-14.

[11] Börgers, T. and R. Sarin, (1995): “Learning through Reinforcement and Replicator dynamics”, Mimeo University College London.

[12] Conlisk, J.(1980): Costly Optimizers Versus Cheap Imitators, Journal of Economic Behavior and Organization, 1980, (1): 275-293.

[13] Cowen , Tyler, and Randall Kroszner, The Development of the New Monetary Economics, Journal of Political Economy , 1987, (95): 567-590.

[14] Crawford, Vincent, P. (1989): “An Evolutionary explanation of Van Huyck. Battalio, and Beil’s Experimental Results on Coordination,”Manuscript, Department of Economics, University of California, San Diego.

[15] Daniel Kahneman and Amos Tversky (1979):Prospect theory: An analysis of decision under risk, Econometrica, 1979, (47), 263-291.

[16] Foster, D., and P. Young.(1990) Stochastic Evolutionary Game Dynamics, Theoretical Population biology, (38): 219-232.

[17] Fudenberg, D. and C. Harris (1992): Evolutionary Dynamics with Aggregate Shocks, Journal of Economic Theory, 1992, (57): 420-441.

[18] Jones, R.. The Origin and Development of Media of Exchange, Journal of Political Economy, 1976, (84): 757-775.

[19] Kahneman, D. and A. Tversky(1974) : judgment under uncertainty: heuristics and biases, Science, 185, 1124-1131.

[20] Kahneman, D. and A. Tversky(1979) : Prospect theory: An analysis of decision under risk, Econometrica, 47, 263-291.

[21] Kandori, M. G. Mailath, and R. Rob (1993): Learning, Mutation, and Long-run Equilibria in Games, Econometrica, 61, 29-56.

[22] Kreps. D., and Wilson,(1982): Signaling Games and Stable equilibrium, Econometrica, 50, 863-894.

[23] Lewontin, R. C. (1960): Evolution and the Theory of Games. Journal of Theoretical. Biology. 1, 382-403.

[24] Maynard Smith, J. and G. R. Price.(1973): “The Logic of Animal Conflicts”, Nature, , (246): 15-18.

[25] Nash, Jr. John F.(1950), The Bargaining Problem. Econometrica.

[26] Nash, Jr. John F.(1951), Noncooperative games, Annals Mathematics 54.

[27] Schelling, T. (1960): The Strategy of Conflict, Harvard University Press, Cambridge, MA.

[28] Schelling, Thomas(1960), Strategy of Conflict, Harvard U. Press.

[29] Selten, P. (1978): The chain store paradox,Theory and decision 9, 127-159.

[30] Selten, R. (1980): A Note on Evolutionarily Stable Strategies in Asymmetric Games Conflicts, Journal of Theoretical. Biology. 84, 93-101.

[31] Selten, R.(1975), Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games, International Journal of Game Theory, 4, 25-55.

[32] Selten, R., (1965): Spieltheoretische Behandlung Eines Pligopolmodells mit Nachfagetragheit, Zeitschrift fur die gesamte Staatswissenschaft, 12, 301-324.

[33] Simon, H. A., (1955): A behavioral model of rational choice, Quarterly Journal of Economics, 69,99-118.

[34] Skyrms, Brian (1986): Deliberational Equilibria, Topoi, 5, 59-67.

[35] Smith, V. L. (1979): Indirect revelation of the demand for public goods: An overview and critique, Scottish Journal of political economy, 25, 183-189.

[36] Swinkels, J. (1993): Adjustment Dynamics and rational Play in Games, Games and Economic Behavior, .5, 455-484.

[37] Taylor, P. D. and L. B. Jonker.(1973): Evolutionarily Stable Strategy and Game Dynamics, Mathematical Social. Science (40): 145-156.

[38] Tversky, A. and D. kahneman(1992): Advances in prospect theory: cumulative representation under uncertainty, Journal of risk and uncertainty, 5, 297-323.

[39] Von Neumann, John and Oskar Morgenstern(1944), Theory of Games and Economic Behavior, Princeton U Press.

[40] Weitzman, Martin(1984): The Share Economy.Cambridge, Harvard University Press.

友情链接