首页  思维导图  详情

《GameTheory耶鲁大学博弈论》读书笔记

2021-05-14 20:47:26   2  举报





AI智能生成

学习博弈论最大的收益是培养了一种思维方式，并应用到实践之中。学习过程不需要太多的数学基础，但需要一些头脑风暴。

拆书稿征集

博弈

学习

作者其他创作

大纲/内容

第十三讲序贯博弈：道德风险，激励和饥饿的狮子

逆向归纳(#BI，Backward Induction)

希望得到一个更好的结果，某种动机却阻止我们达成更好的结局

典型的道德风险

担保( collateral)

承诺( commitment)

《Thinking Strategically》: Looking Forward，Thinking Backward.

第十四讲 #逆向归纳：承诺，间谍，和先行者优势

古诺产量下的NE

需要一个有可信度的承诺沉没成本(sunk cost)

对手知道你已经或者将要掌握更多信息，有时更多的信息反而会害了你。

斯塔克伯格 #模型是个典型的先行者得利的范例，先行者一定会占优

第十五讲 #逆向归纳：国际象棋，战略和可信的威胁

策梅洛定理(Zermelo theorem)

两个参与人，完全信息博弈，博弈有限节数

三个结果参与人1 Wwin; Li loss ; T tie

完全信息博弈(games of perfect information)

在任意一个节点上或者说每个节点上被轮中的参与者，都知道自己处在真个博弈的哪个节点的博弈。这也暗示着，参与者知道如何到达该节点。

纯策略，在一个完全信息博弈里，参与人1的纯策略，它是一个完整的行动计划，这个纯策略明确了参与人1将要在每个节点上采取怎样的行动。

第十六讲 #逆向归纳：声誉和决斗

一个公司，处于垄断地位，垄断了十个不同的市场，假如它们有顺序性

垄断者会对第一个尝试进入者发起攻击，从而威慑后面观望者

对于最后一个市场垄断者不会发起进攻，因为没有建立威慑的动机了。

因为不可能去阻止第十个尝试进入者

所以第九个尝试进入者就成了最后一个

逆向归纳，所有人都该进入市场

即使在十个市场都处于垄断地位，人们也会进入并与之竞争，连锁店博弈(the ChainStore Paradox)

有时等待是个好策略。

不要过度自信，也不要迷信先下手为强。

第十七讲 #逆向归纳：最后通牒和讨价还价

两期议价博弈( two period bargaining)

给予者、接受者：

这里的offerer指首先出价的人(这里是player1)

receiver 则指接受价格的人(这里是player2)

1-3期:指n期博弈的结果

1期的0:若player2拒绝了player1的出价则ta将无所有，因此即使player1提出(1,0) 的分配方案ta也会接受

2期的δ:如果2拒绝了player1的出价，那么到第二轮ta将会提出(0,1)的方案并且player1会接受，因此player1会将1贴现到今天的值δ留给2,并且双方都接受((1-δ,8))的出价。

下面n期的推理都用相同的逆向归纳法进行

分析这类问题时总是假定:

在player 1提出的价格与player2在下一期得到的价值贴现到本期的值两者相等时，

player2 会接受player 1的出价

总结：

(1)轮流提议的议价过程，在特殊条件下，会得到平均分配，这需要满足三个条件。

可能会出现无穷次议价

δ→1 可视为无折损

有相同的折损原因δ1= δ2(分析在折损率不同的情况下的结果)

(2)快速给出的提议被接受，没有议价环节

第十八讲不完全信息：信息集和子博弈完美

信息集合（ information set)：

《策略与博弈》中以一个椭圆型来表示信息集合,这和数学上所用的表示法是一致的

且更易于理解，但为了作图的方便并和课程保持一致后续仍然会使用虚线。

参与人2不能分辨处于信息集合中的两个节点，

参与人2可以区别：参与人1是选了上中，还是选了下，但无法区别上或中。

子博弈(sub-game) :

子博弈必须从单个节点开始

它包含该节点的所有后代节点

它不能破坏任何信息集合

如果(S1，S2，.....Sn*)它们能在任意一个子博弈中达到NE，

那它就是一个子博弈完美均衡(SPE，sub-game perfect equilibrium)。

子博弈精炼NE的一个重要特点是它可以排除不可信的威胁

要成为SPE，本身必须是一个NE。

SPE(B，D，r )

第十九讲 #子博弈精炼均衡：招商引资和战略投资

#子博弈精炼(sub-game perfect)

假设你是A公司经理，A公司的由你决策，是否接受租用一台新设备的提议。

新设备的特点:

1.该设备专供A公司

2.每年租金0.7百万美元

3.使用该设备可以将生产成本降低到0.5$/吨

问：是否应该租用该设备?

(1)会计学的答案

固定成本：无法解雇的工人工资及福利，设备折旧（无形磨损，第二类有形磨损），无形资产摊销费用（专利技术使用权等），说的更直白一点就生产与否都不会改变的支出。

可变成本：原材料，燃料动力费，包装费，计件工人工资等。

(2)经济学的答案

假设自己垄断，那么产量应遵照边际收益等于边际成本

(3)博弈论的答案

经济学答案的局限在于仅仅考虑了自身产量的变化。

关于博弈结果、博弈的均衡与博弈的均衡解

博弈的结果等同于博弈的均衡解，但博弈的均衡跟均衡解不同

在上图的两阶段博弈中，博弈的均衡解是(R，L')，但博弈的均衡却是(R,(R'，L'))

因为NE均衡是定义在players的策略之上，因此博弈的均衡策略要包含完整的计划这一点很重要

第二十讲 #子博弈精炼均衡：消耗战

分析方式推广到无限博弈，分析结果也是一致的，在混合策略的NE下，延续收益仍然为0

在消耗战为背景的博弈中，在理性参与人中有个一个均衡，更进一步说是一个合理的常识，即每个人都很理性，也知道其他人也是理性的，但却存在这样一个平衡，使人们不仅选择攻击而且一直攻击下去，在每个阶段他们有可能选择攻击。

随时间推移消耗战持续的可能性下降

第二十一讲 #重复博弈：合作与最后一局游戏

重复互动(Repeated Interaction)

在一个正在进行的关系中，对于将来奖励的承诺和未来惩罚的威胁，可能会为现在的好行为提供激励。

最后一轮都会背叛，因为没有一个将来的奖励，那么通过逆向归纳在这之前的一轮也会背叛，以此类推自始至终都会背叛。

要有一个明确的未来

重复互动博弈的重点在于明确的未来会为现在的行动提供激励。

第二十二讲 #重复博弈：作弊，惩罚和外包

#结论：使用恐怖和扳机策略，可以在囚徒困境中实现合作，达到SPE

更为一般化的 #结论：如果一段持续关系能为今日的好行为提供激励，那它有助于让这段关系有个持续下去的高概率。

重复道德风险：

今天背叛的诱惑 ≤ [ 继续关系值(继续雇佣)— 终止关系值(解雇) ]

即是关系继续下去的概率相对较小，也会大幅度减少工资溢价

为了在这些持续关系中获得良好行为，必须要在明天提供一定的报酬

如果你放到明天的砝码，或如果明天继续下去的概率比较低，那么这个报酬就要比较高

第二十三讲 #非对称信息：沉默，信号和教育之苦

传递信号有成本的 #模型(Costly Signaling）

#结论：一个好的信号不一定与很高的成本有关，但是要能通过成本区别不同的类型

此处 #模型的缺陷:

(1）模型中没有学习的概念

(2〉教育失去了社会用途，仅仅成为了区别优秀与差劲的工具

(3）教育加剧了不平等

第二十四讲 #非对称信息：拍卖和获奖者的诅咒

私人价值

物品的最终价值对每个人都不同，它完全具有特异性

并且我对它赋予的价值和你是没有关系的

一般来说最后获胜的出价会比真实价值高很多

序言 -- Looking Forward , Thinking Backward.

学习博弈论最大的收益是培养了一种思维方式，并应用到实践之中

设身处地换位思考，从目标需求逆推其决策路径，然后在最好的时机切入，四两拨千斤

学习过程不需要太多的数学基础，但需要一些头脑风暴

第一讲导论：入门五个 #结论

1. 不选择严格劣势策略，原因是每次博弈会得到更好的收益。

人们不会选择劣势策略，反而选择优势策略，使总结果变得糟糕，导致不充分的结果(Inefficient）

和囚徒困境类似的案例还有恋爱中的表白困境

即帕雷托效应：

是指资源分配的一种理想状态

假定固有的一群人和可分配的资源，从一种分配状态到另一种分配状态的变化中

在没有使任何人境况变坏的前提下，使得至少一个人变得更好，这就是帕累托改进或帕累托最优化。

2. 理性选择导致次优结果

协商难以达成目的的原因不是缺少沟通，而是没有强制力。

人们在乎的东西不同了，所以得到了完全不同的。协和谬误，协调问题(coordination problem)

3. Payoffs matter.

永远选择优势策略，选择非劣势策略，损失小

如果对手有优势策略则应以此作为选择策略的指导。

4. 策略决策的核心：换位思考，了解别人的举动

人总是以自己为出发点思考问题

5.站在别人的立场去分析他们会怎么做

第二讲换位思考

博弈的三大要素：Players, Strategies,Payoffs.

优势策略和劣势策略

严格劣势策略：无论对方做出哪个选择，你的这个选择都是极端不利的

弱劣势策略：其中的一个策略严格劣于另外一个策略

换位思考 In shoes argument

common knowledge（不同于 mutual knowledge.）

站在对手的角度

思考对手在这次博弈中有多老练

思考对手知道你在博弈中有多老练

思考对手知道你在思考他有多老练

第三讲迭代剔除和中位选民定理

学会在剔除劣势策略的情况下再重新审视博弈问题，再做决策。

站在对方的立场上，考虑他们不会选择什么，再考虑对方会认为我们不会选择什么……

eg: 中间选民定理Candidates crowd towards the center.政治选举候选人的politic position.

如果从极左到极右有10个程度，则大部分人会选择5，6。

在政治上，人们倾向于中间站位。

在商业上，人们倾向于选址集中。

最佳策略/最优反应(Best Response)：在对方不同的选择概率下，做出自己的最佳选择。

第四讲：足球比赛与商业合作之最优反应(BR)

决策的理由：

我认为对方会选择什么做法，因而我的应对策略是XX.

关于最佳策略的若干定义：

简单说来，就是在信念P的情况下，Si'会使我的Payoff最大化

Partnership game：商业合作

列出合作对象的效用函数，对此求导，令其一介导数为0

假设合作只有两方，令两函数相等，所得交点即为 #纳什均衡。

第五讲 #纳什均衡之坏风气与银行挤兑

博弈论几个概念：

#最佳策略

#纳什均衡

#严格优势策略

纳什均衡(#NE)的两大定义：

No individual can do better by divieding

#NE can be thought of self-fullfilling.

协和谬误与囚徒困境的差别：

前者可以通过沟通解决，本身具有强制力，因为符合自身利益。

第六讲 #纳什均衡之约会策略与古诺模型

策略互补博弈 > 协调博弈

策略代替博弈 > 古诺模型

完全竞争产量>古诺产量>垄断产量

完全竞争价格<古诺价格<垄断价格

第七讲 #纳什均衡之伯川德模型

伯川德竞争(Bertrand competition)

NE = (p1= c, p2= c )

第八讲 #纳什均衡之立场选择、种族隔离与策略随机化

选民 #模型

#结论 1：此 #模型可能存在多个 #NE

#结论 2：如果左派有一个新的候选人加入，可能会导致右派获胜的概率增大，反之亦然。

#结论 3：如果候选人太极端就会有新的中间候选人参选。

选址 #模型

#结论 1：看上去毫无意义的博弈规则，有时是很重要的条件。

#结论 2：社会随机分配，其结果要比所谓的自主选择要好。

猜拳博弈

在纯策略(pure)中没有 #NE

第九讲混合策略定义及其在网球比赛中的应用

《策略与博弈》中考虑混合策略的意义

#理由 1：混合策略可能优于一些纯策略(这些纯策略本身并不劣于其他纯策略)。--P101

#理由 2：混合策略的最差情况可能好于所有纯策略的最差情况。--P103

#理由 3：如果我们只限于纯策略，那么，我们也许不能找到博弈的纳什均衡。--P104

第十讲混合战略棒球，约会和支付您的税

#结论：只需要考虑改变纯策略是否严格有利即可。

纯策略不存在 #NE，寻找混合策略的 #NE

第十一讲进化稳定：合作，突变，与平衡

进化论(Evolution)

①博弈论对生物学的重大影响，尤其在动物行为学中

把基因看成策略，把遗传适应性当做收益，好的策略使种群不断壮大，即有适合基因的个体会繁衍，带有不适合基因的个体会灭绝。

②生物学尤其是进化生物学，对社会科学产生了重大影响

长颈鹿的进化显示：

并不是说蹄子大的，腿长的，大耳朵的变异没有用，只是说在这个环境中长颈更占优。

而环境是自然形成的，它赋予了某些突变基因生存的优势。这也就是自然的定向选择。

公司倒闭和基因灭绝道理是类似的。

进化稳定策略(Evolutionarily Stable)

#结论 1：自然选择的进化结果是很糟的

#结论 2：如果一个策略是严格劣势策略，那么它就不是ES

第十二讲进化稳定：社会公约，侵略，和周期

#模型社会传统的进化( Evolution of social convention )

#结论 NE(L,L) (R,R）且都是严格NE，都是ES

可以有多种进化稳定的社会传统存在

社会没有绝对的高效率，习惯没有必要一样好(此例中的RR劣于LL)

#模型三色蜥蜴例子，解释循环维持平衡的过程

 收藏

立即使用

《心流》与《发现心流》的核心内容

 收藏

立即使用

运营工具及素材大全

 收藏

立即使用

《中医基础理论》读书笔记

 收藏

立即使用

《传染病学与皮肤性病学》读书笔记

心流

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多

