《GameTheory耶鲁大学博弈论》读书笔记
2021-05-14 20:47:26 1 举报
AI智能生成
学习博弈论最大的收益是培养了一种思维方式,并应用到实践之中。学习过程不需要太多的数学基础,但需要一些头脑风暴。
作者其他创作
大纲/内容
第十三讲 序贯博弈:道德风险,激励和饥饿的狮子
逆向归纳(#BI,Backward Induction)
希望得到一个更好的结果,某种动机却阻止我们达成更好的结局
典型的道德风险
担保( collateral)
承诺( commitment)
《Thinking Strategically》: Looking Forward,Thinking Backward.
第十四讲 #逆向归纳 :承诺,间谍,和先行者优势
古诺产量下的NE
需要一个有可信度的承诺沉没成本(sunk cost)
对手知道你已经或者将要掌握更多信息,有时更多的信息反而会害了你。
斯塔克伯格 #模型 是个典型的先行者得利的范例,先行者一定会占优
第十五讲 #逆向归纳 :国际象棋,战略和可信的威胁
策梅洛定理(Zermelo theorem)
两个参与人,完全信息博弈,博弈有限节数
三个结果参与人1 Wwin; Li loss ; T tie
完全信息博弈(games of perfect information)
在任意一个节点上或者说每个节点上被轮中的参与者,都知道自己处在真个博弈的哪个节点的博弈。这也暗示着,参与者知道如何到达该节点。
纯策略,在一个完全信息博弈里,参与人1的纯策略,它是一个完整的行动计划,这个纯策略明确了参与人1将要在每个节点上采取怎样的行动。
第十六讲 #逆向归纳 :声誉和决斗
一个公司,处于垄断地位,垄断了十个不同的市场,假如它们有顺序性
垄断者会对第一个尝试进入者发起攻击,从而威慑后面观望者
对于最后一个市场垄断者不会发起进攻,因为没有建立威慑的动机了。
因为不可能去阻止第十个尝试进入者
所以第九个尝试进入者就成了最后一个
逆向归纳,所有人都该进入市场
即使在十个市场都处于垄断地位,人们也会进入并与之竞争,连锁店博弈(the ChainStore Paradox)
有时等待是个好策略。
不要过度自信,也不要迷信先下手为强。
第十七讲 #逆向归纳 :最后通牒和讨价还价
两期议价博弈( two period bargaining)
给予者、接受者:
这里的offerer指首先出价的人(这里是player1)
receiver 则指接受价格的人(这里是player2)
1-3期:指n期博弈的结果
1期的0:若player2拒绝了player1的出价则ta将无所有,因此即使player1提出(1,0) 的分配方案ta也会接受
2期的δ:如果2拒绝了player1的出价,那么到第二轮ta将会提出(0,1)的方案并且player1会接受,因此player1会将1贴现到今天的值δ留给2,并且双方都接受((1-δ,8))的出价。
下面n期的推理都用相同的逆向归纳法进行
分析这类问题时总是假定:
在player 1提出的价格与player2在下一期得到的价值贴现到本期的值两者相等时,
player2 会接受player 1的出价
总结:
(1)轮流提议的议价过程,在特殊条件下,会得到平均分配,这需要满足三个条件。
可能会出现无穷次议价
δ→1 可视为无折损
有相同的折损原因δ1= δ2(分析在折损率不同的情况下的结果)
(2)快速给出的提议被接受,没有议价环节
第十八讲 不完全信息:信息集和子博弈完美
信息集合( information set):
《策略与博弈》中以一个椭圆型来表示信息集合,这和数学上所用的表示法是一致的
且更易于理解,但为了作图的方便并和课程保持一致后续仍然会使用虚线。
参与人2不能分辨处于信息集合中的两个节点,
参与人2可以区别:参与人1是选了上中,还是选了下,但无法区别上或中。
子博弈(sub-game) :
子博弈必须从单个节点开始
它包含该节点的所有后代节点
它不能破坏任何信息集合
如果(S1,S2,.....Sn*)它们能在任意一个子博弈中达到NE,
那它就是一个子博弈完美均衡(SPE,sub-game perfect equilibrium)。
子博弈精炼NE的一个重要特点是它可以排除不可信的威胁
要成为SPE,本身必须是一个NE。
SPE(B,D,r )
第十九讲 #子博弈 精炼均衡:招商引资和战略投资
#子博弈 精炼(sub-game perfect)
假设你是A公司经理,A公司的由你决策,是否接受租用一台新设备的提议。
新设备的特点:
1.该设备专供A公司
2.每年租金0.7百万美元
3.使用该设备可以将生产成本降低到0.5$/吨
问:是否应该租用该设备?
(1)会计学的答案
固定成本:无法解雇的工人工资及福利,设备折旧(无形磨损,第二类有形磨损),无形资产摊销费用(专利技术使用权等),说的更直白一点就生产与否都不会改变的支出。
可变成本:原材料,燃料动力费,包装费,计件工人工资等。
(2)经济学的答案
假设自己垄断,那么产量应遵照边际收益等于边际成本
(3)博弈论的答案
经济学答案的局限在于仅仅考虑了自身产量的变化。
关于博弈结果、博弈的均衡与博弈的均衡解
博弈的结果等同于博弈的均衡解,但博弈的均衡跟均衡解不同
在上图的两阶段博弈中,博弈的均衡解是(R,L'),但博弈的均衡却是(R,(R',L'))
因为NE均衡是定义在players的策略之上,因此博弈的均衡策略要包含完整的计划这一点很重要
第二十讲 #子博弈 精炼均衡:消耗战
分析方式推广到无限博弈,分析结果也是一致的,在混合策略的NE下,延续收益仍然为0
在消耗战为背景的博弈中,在理性参与人中有个一个均衡,更进一步说是一个合理的常识,即每个人都很理性,也知道其他人也是理性的,但却存在这样一个平衡,使人们不仅选择攻击而且一直攻击下去,在每个阶段他们有可能选择攻击。
随时间推移消耗战持续的可能性下降
第二十一讲 #重复博弈 :合作与最后一局游戏
重复互动(Repeated Interaction)
在一个正在进行的关系中,对于将来奖励的承诺和未来惩罚的威胁,可能会为现在的好行为提供激励。
最后一轮都会背叛,因为没有一个将来的奖励,那么通过逆向归纳在这之前的一轮也会背叛,以此类推自始至终都会背叛。
要有一个明确的未来
重复互动博弈的重点在于明确的未来会为现在的行动提供激励。
第二十二讲 #重复博弈 :作弊,惩罚和外包
#结论:使用恐怖和扳机策略,可以在囚徒困境中实现合作,达到SPE
更为一般化的 #结论:如果一段持续关系能为今日的好行为提供激励,那它有助于让这段关系有个持续下去的高概率。
重复道德风险:
今天背叛的诱惑 ≤ [ 继续关系值(继续雇佣)— 终止关系值(解雇) ]
即是关系继续下去的概率相对较小,也会大幅度减少工资溢价
为了在这些持续关系中获得良好行为,必须要在明天提供一定的报酬
如果你放到明天的砝码,或如果明天继续下去的概率比较低,那么这个报酬就要比较高
第二十三讲 #非对称信息 :沉默,信号和教育之苦
传递信号有成本的 #模型(Costly Signaling)
#结论:一个好的信号不一定与很高的成本有关,但是要能通过成本区别不同的类型
此处 #模型 的缺陷:
(1)模型中没有学习的概念
(2〉教育失去了社会用途,仅仅成为了区别优秀与差劲的工具
(3)教育加剧了不平等
第二十四讲 #非对称信息 :拍卖和获奖者的诅咒
私人价值
物品的最终价值对每个人都不同,它完全具有特异性
并且我对它赋予的价值和你是没有关系的
一般来说最后获胜的出价会比真实价值高很多
序言 -- Looking Forward , Thinking Backward.
学习博弈论最大的收益是培养了一种思维方式,并应用到实践之中
设身处地换位思考,从目标需求逆推其决策路径,然后在最好的时机切入,四两拨千斤
学习过程不需要太多的数学基础,但需要一些头脑风暴
第一讲 导论:入门五个 #结论
1. 不选择严格劣势策略,原因是每次博弈会得到更好的收益。
人们不会选择劣势策略,反而选择优势策略,使总结果变得糟糕,导致不充分的结果(Inefficient)
和囚徒困境类似的案例还有恋爱中的表白困境
即帕雷托效应:
是指资源分配的一种理想状态
假定固有的一群人和可分配的资源,从一种分配状态到另一种分配状态的变化中
在没有使任何人境况变坏的前提下,使得至少一个人变得更好,这就是帕累托改进或帕累托最优化。
2. 理性选择导致次优结果
协商难以达成目的的原因不是缺少沟通,而是没有强制力。
人们在乎的东西不同了,所以得到了完全不同的。协和谬误,协调问题(coordination problem)
3. Payoffs matter.
永远选择优势策略,选择非劣势策略,损失小
如果对手有优势策略则应以此作为选择策略的指导。
4. 策略决策的核心:换位思考,了解别人的举动
人总是以自己为出发点思考问题
5.站在别人的立场去分析他们会怎么做
第二讲 换位思考
博弈的三大要素:Players, Strategies,Payoffs.
优势策略和劣势策略
严格劣势策略:无论对方做出哪个选择,你的这个选择都是极端不利的
弱劣势策略:其中的一个策略严格劣于另外一个策略
换位思考 In shoes argument
common knowledge(不同于 mutual knowledge.)
站在对手的角度
思考对手在这次博弈中有多老练
思考对手知道你在博弈中有多老练
思考对手知道你在思考他有多老练
第三讲 迭代剔除和中位选民定理
学会在剔除劣势策略的情况下再重新审视博弈问题,再做决策。
站在对方的立场上,考虑他们不会选择什么,再考虑对方会认为我们不会选择什么……
eg: 中间选民定理Candidates crowd towards the center.政治选举候选人的politic position.
如果从极左到极右有10个程度,则大部分人会选择5,6。
在政治上,人们倾向于中间站位。
在商业上,人们倾向于选址集中。
最佳策略/最优反应(Best Response):在对方不同的选择概率下,做出自己的最佳选择。
第四讲:足球比赛与商业合作之最优反应(BR)
决策的理由:
我认为对方会选择什么做法,因而我的应对策略是XX.
关于最佳策略的若干定义:
简单说来,就是在信念P的情况下,Si'会使我的Payoff最大化
Partnership game:商业合作
列出合作对象的效用函数,对此求导,令其一介导数为0
假设合作只有两方,令两函数相等,所得交点即为 #纳什均衡。
第五讲 #纳什均衡 之坏风气与银行挤兑
博弈论几个概念:
#最佳策略
#纳什均衡
#严格优势策略
纳什均衡(#NE)的两大定义:
No individual can do better by divieding
#NE can be thought of self-fullfilling.
协和谬误与囚徒困境的差别:
前者可以通过沟通解决,本身具有强制力,因为符合自身利益。
第六讲 #纳什均衡 之约会策略与古诺模型
策略互补博弈 > 协调博弈
策略代替博弈 > 古诺模型
完全竞争产量>古诺产量>垄断产量
完全竞争价格<古诺价格<垄断价格
第七讲 #纳什均衡 之伯川德模型
伯川德竞争(Bertrand competition)
NE = (p1= c, p2= c )
第八讲 #纳什均衡 之立场选择、种族隔离与策略随机化
选民 #模型
#结论 1:此 #模型 可能存在多个 #NE
#结论 2:如果左派有一个新的候选人加入,可能会导致右派获胜的概率增大,反之亦然。
#结论 3:如果候选人太极端就会有新的中间候选人参选。
选址 #模型
#结论 1:看上去毫无意义的博弈规则,有时是很重要的条件。
#结论 2:社会随机分配,其结果要比所谓的自主选择要好。
猜拳博弈
在纯策略(pure)中没有 #NE
第九讲 混合策略定义及其在网球比赛中的应用
《策略与博弈》中考虑混合策略的意义
#理由 1:混合策略可能优于一些纯策略(这些纯策略本身并不劣于其他纯策略)。--P101
#理由 2:混合策略的最差情况可能好于所有纯策略的最差情况。--P103
#理由 3:如果我们只限于纯策略,那么,我们也许不能找到博弈的纳什均衡。--P104
第十讲 混合战略棒球,约会和支付您的税
#结论 :只需要考虑改变纯策略是否严格有利即可。
纯策略不存在 #NE,寻找混合策略的 #NE
第十一讲 进化稳定:合作,突变,与平衡
进化论(Evolution)
①博弈论对生物学的重大影响,尤其在动物行为学中
把基因看成策略,把遗传适应性当做收益,好的策略使种群不断壮大,即有适合基因的个体会繁衍,带有不适合基因的个体会灭绝。
②生物学尤其是进化生物学,对社会科学产生了重大影响
长颈鹿的进化显示:
并不是说蹄子大的,腿长的,大耳朵的变异没有用,只是说在这个环境中长颈更占优。
而环境是自然形成的,它赋予了某些突变基因生存的优势。这也就是自然的定向选择。
公司倒闭和基因灭绝道理是类似的。
进化稳定策略(Evolutionarily Stable)
#结论 1:自然选择的进化结果是很糟的
#结论 2:如果一个策略是严格劣势策略,那么它就不是ES
第十二讲 进化稳定:社会公约,侵略,和周期
#模型 社会传统的进化( Evolution of social convention )
#结论 NE(L,L) (R,R)且都是严格NE,都是ES
可以有多种进化稳定的社会传统存在
社会没有绝对的高效率,习惯没有必要一样好(此例中的RR劣于LL)
#模型 三色蜥蜴例子,解释循环维持平衡的过程
0 条评论
下一页