原因的原因不是原因，结果的结果不是结果-技术圈

导读：人生难料，世事无常，大多是“原因”和“结果”之间的纠缠。

作者：老喻在加

来源：孤独大脑（ID：lonelybrain）

故事A

某地空气极好，但是当地死于呼吸系统疾病的患者数量，却名列全国前几位。

为什么呢？

原来，因为空气好，所以大量有呼吸疾病的患者前来疗养。就像医院里死人最多，所以这里的呼吸疾病死亡人数也较多。

所以，空气好，是“呼吸疾病死亡率”的原因的原因。

但是“空气好”，并不能成为“呼吸疾病死亡率高”的原因。

这就是：

原因的原因，不是原因。

故事B

我有个亲戚，开服装厂，行业每况愈下，总说要关门。去年底好容易接了几个大单，年初因为疫情，订单被砍掉了一大半！

结果没几个月，他们不仅没关门，生意还前所未有的好。

为什么呢？

原来，因为印度疫情严重，而中国控制较好，所以前些年转到印度的订单，又转回中国了。

所以，亲戚服装厂的生意转好，是疫情的“结果的结果”。

而这种结果，通常是第一个“结果”（例如疫情导致的对经济的影响）发生时，人们难以预料的。

这就是：

结果的结果，不是结果。

本文将探究“原因的原因不是原因、结果的结果不是结果”背后的逻辑。

我最想探讨的焦点问题是：

对未来的计算，我们到底应该算很多步，还是走好当下的那一步？

这个问题，经常被从两个对立的角度，分别出现于各类文章里：

A面：我们应该看得更长远；
B面：我们应该立足当下，做好眼前的事情。

你也许会说，难道A、B不能兼容吗？

问题是，你如何区分：何时该选择A面的长远，何时该选择B面的当下呢？

这个话题比看上去要有趣得多，也是“决策”方面的关键点。

这是一个跨越自然世界与人类社会的有趣话题，也指向人类历史上最聪明的那些家伙们的思想闪耀时刻。

并且，这一话题甚至还会引出当前这个混乱世界里的“生存法则”。

或许，我们与未来的关系，有赖于重新理解“原因的原因”，和“结果的结果”。

让我们开始这段历险吧。

先说“原因的原因，不是原因”。

前两年，新闻报道说“温哥华万名土豪上街游行”，理由是“抗议房价上涨。”

乍一看很奇怪，房价上涨不是很开心吗？

杭州某小区传来励志故事，为了实现房价的快速上涨，家长们组团抓孩子的教育，成功将该小区打造成学区房，房价变成原来的10倍。

难道温哥华土豪很傻？

原来，土豪们抗议的原因是，因为房价上涨，导致物业税跟着涨，每年多缴不少钱。

尤其是有些房子因为房价上涨，被划分为“豪宅”，还要额外缴一笔“豪宅税”，每年高达几万加币。

许多屋主的房子，是几十年前很低价格买的，房价大涨成为豪宅，但屋主的收入并不“豪”，对新增的税费难以承受。

所以，“土豪”们表面上是抗议房价上涨，实际原因是反对加税。

而房价上涨，是“加税”这个原因的原因。

为什么原因的原因不是原因呢？

先转一个例子：

假设有人吓走了一只鸽子。
鸽子飞走的时候，惊到了一位正在穿越街道的路人。
路人驻足观望，结果导致一辆正在朝他骑过来的自行车不得不在最后一秒急转车头。
自行车避让行人后，正好骑到了一辆出租车行驶的车道上。
出租车为了避让自行车，结果撞上了一个消防栓。
消防栓出水导致附近一栋大楼的地下室被淹，破坏了地下室的供电设施。

该文作者对此评论：

虽然吓走鸽子是启动整个原因链的原因，我们也可以认为是吓走鸽子这件事导致了后面的一系列事件，但很少有人会认为吓走鸽子的那个人应该对之后出现的一系列事件负责——即使很多人都同意是那个人引起了这一系列的事件。

但是，我们可以说，是鸽子导致了这场事故吗？

又比如说，我记得有一次赶联程的国际航班，结果仅仅晚了不到一分钟，所有的航程都不得不取消掉重新购买。

那么，是不是可以说，此前的每一分钟，都可能要成为这“迟到”的一分钟的原因？

压死骆驼的最后一根稻草，是真正的凶手吗？还是说此前的每一根稻草都要为此负责？

假如此前的稻草，只是原因的原因，所以不算直接原因，那么为什么人们又说：

一只蝴蝶在巴西轻拍翅膀，可以导致一个月后德克萨斯州的一场龙卷风。

真是世事无常。

再说“结果的结果，不是结果”。

据传，英国殖民印度时期，计划要减少眼镜蛇的数量，因而颁布法令说每打死一条眼镜蛇都可以领取赏金。

一看有赏金，印度人为了多拿钱，反而开始养殖眼镜蛇。

英国人一看事与愿违，于是取消了赏金。

没了大买家，养蛇的印度人把蛇都放了。

结果，眼镜蛇数量反而大幅增加了。

当年法国殖民越南时，也有类似的事情，为了灭老鼠，政府出了一个奖金计划：

只要将老鼠杀死，将尾巴交给政府就可以获取奖金。

同样的荒诞剧上演了：很多人抓住老鼠，切下尾巴去拿奖金。

老鼠呢？放走，令其大量繁殖，这可是财神鼠，怎么能杀呢？

这就是“古德哈特定律”：

当一个措施本身成为目标时，它就不再是一个好的措施。

在经济学领域，古德哈特定律说：

若一个经济学的特性被用作经济指标，那这项指标最终一定会失去其功能，因为人们会开始玩弄这项指标。

所以，这就解释了，为什么很多美好的愿望，常常有糟糕的结果。

而不少“正确的计划”，最终也以错误的“结果的结果”收场。

举例说，有研究表明，更好的登山设备，可能会令登山爱好者遭遇风险的可能性更大。

更好的登山设备的直接结果，应该是保护登山者。但登山者因为这增加的保护而更大胆，反而导致了更大的风险这一“结果的结果”。

有个实验让我印象深刻。试验者测试：

骑自行车不戴头盔，会如何影响汽车驾驶者。

结果发现，假如司机发现前方骑自行车的人没带头盔，会离自行车更远。

我们知道，骑自行车的主要危险是被机动车撞，戴头盔是为了缓冲撞击。

但是，不戴头盔，反而获得了更大的安全空间，令骑车的人可能更安全了。（这仅是一个局部的实验）

真是人生难料。

是什么导致了“原因的原因不是原因、结果的结果不是结果”？

为了使本文不至于太让作者和读者受累，我简单概括了如下8点原因，供你作为脚手架或线索：

人类对因果的“幻觉”；
误将“相关性”当作“因果性”；
因果之间距离过大；
混淆了原因和结果；
对条件概率的混乱；
人类的无知和科学的局限；
过于依赖确定性；
“自上而下”的习惯思维。

尽管没多新鲜，但为了完备性，简述如下。

1. 人类对因果的“幻觉”

人类对“因果”有很深的执念。

休谟老师早说了：

虽然我们能观察到一件事物随着另一件事物而来，我们却并不能观察到这两件事物之间的关联。

当我们看一本小说，或者看一部电影，会分析其中剧情的连续与转折。

但是现实生活中，并没有作者和导演，所以并不需要这种连续性。

休谟如先知般，讲出了下面这段貌似有些杠精的话：

我们无从得知因果之间的关系，只能得知某些事物总是会连结在一起，而这些事物在过去的经验里又是从不曾分开过的。

我们并不能看透连结这些事物背后的理性为何，我们只能观察到这些事物的本身，并且发现这些事物总是透过一种经常的连结而被我们在想像中归类。

休谟还提了“恒常连结”这个词，意思是说，某两样东西貌似总是前后出现，但你也不能说二者之间是一直“互相连结”的。

看似很杠，其实，休谟如先知般，说出了300年后人们才想明白的一件事：

相关性不等于因果性。

2. 误将“相关性”当作“因果性”

有统计表明，游泳死亡人数越高，冰糕卖得越多。

即：游泳死亡人数和冰糕售出量之间呈正相关性。

那么，能得出“吃冰糕会增加游泳死亡风险”的结论吗？

并不能，这两个事件之间并无直接因果关系。二者只是因为夏天高温而“连结”在一起，而且是以概率的形式。

所以，少吃冰糕并不能救人于水中。

这类“隐变量”，经常被我们忽略。

3. 因果之间距离过大

“一块钱不是钱，所以一块钱和十万块钱之间没区别。”

看起来有点儿怪？

第1个人给第2个人一块钱，因为一块钱不是钱，所以给两块钱。

第2个人则给第3个人三块钱，因为和两块钱也只差“不是钱的一块钱”。

由此不断往后，第十万个人将得到十万块钱。

原因和结果之间的距离，有时候可以用来评估因果之间连接的强弱。

通常，我们说：近因就是和结果直接相连的原因。

在法律上，近因还具有可预见性。

即：人们应该能够预见该原因可能会（直接）导致某个结果。

这个很实用。例如你的朋友为了给你买蛋糕，开车时遭遇了车祸。你不必为此过于内疚。

因为即使两件事“非常近”，但是因为你的朋友出门时，并不能预见会发生车祸，所以这不算“近因”。

4. 混淆了原因和结果

这是最被广泛“应用”的因果谬误。

例如，有研究表明，红酒令人长寿。

甚至于研究过程看起来都很靠谱。两组人，一组喝红酒，一组不喝，样本量足够，实验时间也够长。

但这里最大的谬误，可能是：有钱人更可能有闲有钱喝红酒，是有钱导致长寿，而不是红酒。

也可能是，喝红酒的人喜欢社交，而社交令人长寿。

又或者是，有长寿基因的人倾向于社交，而喝红酒只是社交的一种道具。

几乎所有长寿秘方和发财秘诀，都是犯了因果颠倒的谬误。

许多研究发财秘籍的书籍，采用的方法，是研究“大量”（其实只是“少量”）成功者的共性，以从中发现“规律”和“秘诀”。

可惜，大部分都是“先射箭后画靶子”的总结。

例如说富豪善于利用厉害的朋友圈，但事实是成为富豪后才有厉害的朋友圈。

又例如说价值投资令人长寿，但事实是长寿（且运气好）的人才有机会收获长线价值。

就像巴菲特调侃的，自己喜欢喝可乐，是因为他发现小孩子最爱喝可乐，而小孩子的死亡率最低。

5. 对条件概率的颠倒

这一点，比“因果颠倒”更隐蔽。

辛普森是个美式橄榄球明星、演员，他被指控于1994年犯下两宗谋杀罪，受害人为其前妻及她的好友。

尽管警方在案件现场收集到了很多证据，包括带血的手套、血迹、现场DNA检验，看似辛普森难逃被定罪伏法的命运，可是辩护律师们通过各种方法一一化解。

辛普森高价请来了顶级律师团，其中一位是哈佛大学法学院的教授Alan。

Alan在法庭上用概率来为辛普森辩解：

已知：美国400万被虐待的妻子中只有1432名被其丈夫杀死。
所以：辛普森杀死妻子的概率只有1432/400万，即1/2500。
因此：辛普森杀死妻子的概率是非常低的事件，即辛普森几乎不可能杀死他的妻子。

辩词听起来很有道理，检察官一时无法反驳。

问题出在哪儿呢？

让我用直观的方式，来分析一下。

先看下面这个图，蓝色圆圈代表被虐待的美国400万妻子，红色代表1432名被丈夫杀死的妻子。

律师的逻辑看起来没毛病，你看图中，算下来虐待妻子的老公，只有一小部分（也就是1/2500）谋杀了妻子。

如上图，1/2500是“红色面积/蓝色圆圈面积”的结果。

但是，律师偷换了概念。

再看下面这个图，蓝色圆圈代表被虐待的美国400万妻子，红色代表1432名被丈夫杀死的妻子。

这里新加了一个绿色的圆圈。其信息如下：

因为我们讨论的是被谋杀的被虐待妻子，所以绿色圆圈被包含在蓝色圆圈内；
因为并不是所有被谋杀的妻子都是被丈夫杀害的，所以红色圆圈被包含在绿色圆圈内，“问号”部分表示那些被别人谋杀的被丈夫虐待的妻子。

你看看，即使不知道凶手是谁，辛普森的妻子应该在哪个圆圈里？

是绿色圆圈。

所以，辛普森是凶手的概率，应该是用红色面积除以绿色面积。

律师的鬼把戏是什么？

他用蓝色替换了绿色，用“红色/蓝色”的虚假概率1/2500，替换了“红色/绿色”的真实概率。

那么，这个真实概率应该是多少呢？

据统计，高达90%！

条件概率的颠倒，看似很简单，但迷惑性极强，连聪明人也不能幸免。

6. 人类的无知和科学的局限

生物学家爱德华·威尔逊写道，如果自然的历史是一座图书馆，我们甚至还没有读完其中第一本书的第一章。

我们教科书上的公式，以及那些令这个世界运行得还算不错的原理，极有可能只是一个谬误较少的假设，某日会被推翻。

人类的知识不完善，不准确，有时候带来的麻烦甚至大于解决的问题。

萨特雅吉特·达斯举例说，抗生素的流行增加了耐药性，由此带来的“不是结果的结果”是：

到2050年，所谓的“超级细菌”会导致全球1000万人死亡，这将给全球经济带来100万亿美元的损失。（来自一份英国的报告）

他由此总结道：

由于不正确的假设、错误的因果联系、输入的噪声多于数据，以及未被预测到的人为因素，经济模型经常遭遇反复失败。预测被证明是不准确的。模型总是会低估风险，从而导致金融危机的爆发。

7. 过于依赖确定性

关于人对确定性的迷恋，是陈词滥调。但我发现，几乎可以用这一点来为人分类：

一种是理解不确定性的；
一种是不理解不确定性的。

诡异之处是，对不确定性的理解，与智商无关，与学历无关。

而且有些人天生就理解，有些人一辈子都无法理解，不管他如何学习，如何历练。

有次在《人生算法》的签售会上，一位朋友问：你如何确保我看了这本书能实现人生的富足？

首先《人生算法》是一本关于不确定性的书；
其次为什么有人愿意相信花几十块钱买本书可以“确保”人生富足？（别信图书封面......）

还有一次，有位年轻人谈及想通过开设公众号和抖音，来打造个人的IP，但又有所顾虑：

你说，要是我辛辛苦苦弄好了，微信和抖音又不火了，那该咋办呢？

很有趣的是：

人们对于需要追求确定性的事情，例如投资，以及一些关乎幸福的关键决策，往往不假思索。
反倒对那些无法预料、需要伸手去触碰的事情思前想后。

8. “自上而下”的习惯思维

人类习惯于追寻目的和意义，并且相信目的与意义背后的设计者。

由此，我们强调谋略、设计、规划，仰慕天才自上而下改变世界。

我们到底该如何解释这个世界所发生的一切？尤其是其中那些壮阔的、戏剧化的、千钧一发的历史转折点？

亚当·弗格森说：这些都是人类行为的结果，而非出于人类的设计。它们是演变现象。

不管是有神论者，还是无神论者，我们的习惯思维，都偏向于智慧的设计。

我们潜意识里相信，有某种“天钩”，自上而下地排兵布阵，计算好了日月星河，安排好了万物生长，并且用某些我们已经看到或尚未看到的秩序编织在一起。

我们总觉得这种编织，有蓝图，有逻辑，有目的，并且是连续的。

事实并非如此。

真实的世界是自下而上生成的。

支撑我们信念的“因果链条”，只是比象形的星座文化稍微好一点儿的东西。

作为亚当·斯密与大卫·休谟的朋友，弗格森强调自然而然所形成的秩序，即：

完整且有效的成果必定是来自许多人之间非规划好的行动。

《自下而上》认为：

演变就发生在我们身边。它是理解人类世界和自然世界如何变化的最佳途径。

人类制度、人工制品和习惯的改变，都是渐进的、必然的、不可抵挡的。

它遵循从一个阶段进入下一个阶段的叙述方式；
它慢慢推进而非大步跳跃；
它有自己自发的势头，不为外部所推动；
它心里没有什么目标，也没有具体的终点；
它基本上是靠试错产生的，而试错是自然选择的一种形式。

达尔文可能是最被我们低估的科学家之一，在很多人的心目里他甚至算不上牛顿那类“硬核”的科学家。

“自上而下”的思维，令我们习惯于在混乱无序的世界里寻求解释，就和原始人以及导游热衷于在一个大石头的形状背后编造传说。

性格温和的达尔文，不知是否想过，“达尔文主义”会被用来形容弱肉强食的生存哲学。

彻底接受达尔文的思想，是一件不容易的事情，即使达尔文自己，也对“眼睛”这一精妙的“设计”不寒而栗，如此复杂的功能，真的可以通过自然选择形成吗？

达尔文坚持了自己的理性，而DNA的发现则确认了达尔文的勇敢。

促使眼睛总对光做出反应的“视蛋白”分子，可以追溯到所有动物的共同祖先身上（海绵类动物除外）。

大约7亿年前，视蛋白基因复制了两次，产生了我们今天拥有的3种感光分子。

故此，眼睛演变的每一个阶段，从感光分子的发展、透镜和色觉的自然形成，都可以从基因的语言里直接读取。

如果我们用演化论来撼动人类社会里至今仍然大规模使用的“自上而下”的话语体系，会不会像“基因决定论”一样，将个体导入命中注定的宿命论，以及存在毫无方向的虚无主义？

如果说地球生命孤寂、漫长、奇迹般的演化进程，是一个“耐心又无意义的过程”，那么人类的自由意志，在这个过程中扮演着什么角色？

如果如道金斯所言，演化的真相是“从原始简单形态中构建有序复杂性”，那么人类社会为了“目标、规划、干预”而构建的功能，该如何从自然法则（假如真有的话）中寻求借鉴？

再拉回到个体，几乎所有美好传说，振奋人心的成功秘诀，都是基于环环相扣的因果链条，也需要“自上而下”的光芒的指引。如果我们将此一刀斩断，又将如何重建意义和秩序呢？

让我们回到现实。

演化论，自下而上，是不是说“规划无用”？

但是，达尔文不正是使用一种“鸟瞰式”的视野，发现了“演化论”吗？

但愿你还记得开头，我提到本文最想探讨的焦点问题是：

对未来的计算，我们到底应该算很多步，还是走好当下的那一步？

由此引发的，不仅是对一个人生道理的思考，更是对决策本质的理解。

我曾经写过，厉害的人都是人肉阿尔法狗。

什么叫人肉阿尔法狗？

先看阿尔法狗如何做决策。

阿尔法狗几乎会在每一手棋时，都计算自己的赢棋概率。

即：对它而言，每一个决策点都是独立的，阿尔法狗都会冷静地寻找“当下”的最大获胜概率。

听起来，这不也是人类棋手下棋的方法吗？

有什么不一样呢？

难道人类的职业棋手下棋时，不也是如此吗？计算每一手棋，推算可能的走法之后的变化，比较结果的优劣，然后从中选择最优的一手。

要想理解这一点，我需要在很短的时间里，来说说围棋的“特别之处”。

对比其它棋类，围棋有如下特点：

极其复杂，棋局变化的可能性约等于2.08x10^170种，比整个宇宙里的原子数量还要多很多。
棋子都是一样的，反而更难评估优劣。
象棋越下棋子越少，围棋越下棋子越多。
围棋既有局部精确的计算，又有宏观局面模糊的判断。

因为不止于以上数点的原因，所以，人类以前用来对付国际象棋的那一套穷举搜索，难以用来解决复杂的围棋，因为搜索空间太大，无法写出精确的评估程序。

这也是围棋棋手的自豪之处。围棋被视为完美博弈游戏的巅峰，其中被视为体现了人类灵性的那部分，象征了人类大脑引以为荣的对抗AI的智慧堡垒。

阿尔法狗的策略是，学习人类的直觉。

DeepMind的创始人哈萨比斯说：

围棋中没有等级概念，所有棋子都一样，围棋是筑防游戏，因此需要盘算未来。你在下棋的过程中，是棋盘在心中，必须要预测未来。小小一个棋子可撼动全局，牵一发动全身。

如今，人们已经接受了AI在围棋上碾压人类，我也经常忙中偷闲看AI和人类下让子棋。

我总结了如下10点，不是从技术层面去分析AI下围棋的原理，而是试图从AI下棋的十个特点中学习“阿尔法狗思维”，以改善人做决策的思维。

1. AI不讲棋理。

什么叫棋理？

棋理可能介于公式和道理之间。

算是一些模糊的“夹层解释”。

对比很多人生大道理，棋理，以及各种围棋格言，已经算很靠谱了，有些围棋格言看起来连AI都在“遵循”，由此可见经验和人类群体智慧的厉害。

但AI并不需要棋理，它的世界里只有计算。

年轻人不讲武德…

其实，有些德啊，理啊，要么是因为不够智能，要么是用来忽悠外行和年轻人的。

2. AI一心一意，只为终局胜率。

围棋只要胜半目就赢，这是一盘棋胜负的唯一评判方式，和你是否下得漂亮、是否走出了妙手、杀死了对手多少棋子等等都没啥关系。

这是基本规则，按理说AI和人的理解都一样啊，能有啥区别？

区别很大。人是情感动物，在某个局部杀红了眼，经常就要争口气，争一下就忘记了自己的目的不是争气，是赢棋。

在围棋中，有个名词叫“气合”，是指对局者在气势上坚持的强劲着法，经常是双方都较劲儿，结果互相转换。

由此延伸的概念，就有“动机”，以及“评价系统”。

这二者在现实中都是决定性的玩意儿，动机就不用说了，这是人性的火源。

评价系统，有点儿像巴菲特说的内部计分卡或者外部计分卡。

评价系统对于一个人或者企业来说，就是其使命、愿景、价值观。

这些看起来假大空的东西，真的很有用。

为什么？

围棋可以用半目来定胜负。但人类社会是复杂的没边界的无限游戏，有了价值观这类东西，更有利于个人或企业在模糊的领域做计算。

3. AI下没有记忆的棋。

AI经常脱先，甚至在很多看起来重要的地方，说不下就不下，跑到别处走棋了。

看起来，转身非常灵活。

当然，AI不懂什么叫转身，什么叫灵活，它永远在搜索计算当前局面下对终局胜率最高的一手棋。

沉没成本、纠结、放不下，这是人类文化的副产品。

4. AI大局观好，有远见。

哎，其实就是算力强。

人类算力不够，就制造了一些概念。

大局观啊，远见啊，就是一步一步算出来的，当然有些人可以跳着算。

但绝对不是什么屠龙术。

别指望去学来什么大局观、远见、一眼看穿本质的能力。

脱离了计算的长期主义毫无意义。

5. AI很本分。

什么叫本分？

就是该稳的时候稳住，绝不心存侥幸，绝不能想“万一对方傻逼一下呢”，尊重每一个对手，堂堂正正；更重要的是，该狠的时候一定要狠，绝不手软。毕竟是下棋嘛。

AI经常走出很平常的招法，像缓慢的铁锤，朴实，强大，效果之好令人意外。

6. AI都是宇宙流。

稍微懂点儿围棋的，都知道“金角银边草肚皮”，意思是说中腹不要围空。

人类历史上敢下中腹且下得好的，可能只有吴清源和武宫正树。

AI既能爬二路，又非常会围中腹。

真的是“高手在腹”。

说来说去，还是计算力强。

7. AI连厚势都敢攻。

你自己以为固若金汤，在AI看来是一块儿准备吃的肉。

而且吃起来，像蟒蛇吞噬猎物，缓慢，毫无生路。

人类对于“厚”和“薄”的感觉，在AI面前弱爆了。

8. AI舍得弃子。

反正它只算胜率，你要占便宜就给你呗。

9. 喜欢刺、碰、肩冲。

这些人类看来并不那么正经的动作（相当于打架时老去蹭人家一下），AI用得得心应手。

10. 精通死活和官子。

AI经常表演“做活大法”，有些看起来毫无希望的棋，它也能用不起眼的方式做活。

AI的妙手也很多。幸好看习惯了，不然真的就像看见你家狗在辅导你家孩子做奥数题。

总之，看AI下棋，最大感觉就是：

严格以终局胜率为目标，按照计算来算胜率，严格按照胜率来做决策。

我们再看那些投资大师，那些决策高手，就会发现，这方面，他们几乎和AI都是一样的。

说起来容易，做起来难，为什么？

因为“反人性”。

不说10点，单是第3点“下没有记忆的棋”，就很少有人能够做到。

围棋有一点特别奇怪的地方。

围棋是与顺序有关的游戏。

围棋棋子除了颜色以外，完全一样，不像象棋那样分帅车兵马。
另外，围棋的棋子，落下之后就不能移动。
围棋棋子的效率和价值，是由棋子之间的空间关系而决定的。
就像搭宜家家具或者乐高玩具，即使空间位置对了，但如果顺序错了，也不行。

可是，对于一局棋的过去而言，“顺序”并不重要。这就是“奇怪”的地方。

让我略去围棋关于时空的思考过程，来概述一下：

当我们站在围棋对局中的某个决策点上，当下的局面，是所有“已知”构建的一个静态空间结构图，单个棋子当初的使命、顺序，并不能作为决策的依据。

相反，你要像一个刚刚空降到棋盘边的外星人，压根儿不在乎当前局面的发生过程，包括顺序，而是从头开始思考。

看起来，这似乎是一个“马尔可夫决策过程”。

马尔可夫性是一种假设：“未来的一切仅与现在有关，独立于过去的状态”。

马尔可夫模型，这一概念来自对“大数定律”的探讨。

大数定律里的抛硬币游戏，需要每一次抛硬币都是完全独立的。

而数学家帕维尔·涅克拉索夫则认为：现实世界中的事物是相互依存的（比如人的行为），所以现实中的事物并不恰好符合数学模式或分布。

马尔可夫不这么认为。他建立了一个模型，在这个模型中，结果的概率取决于以前发生的事件，但长期来看仍然遵循大数定律。

《天才与算法》里写道：

抛硬币的结果并不取决于以前抛硬币的结果，所以这不是马尔可夫理想的模型。

但是，如果增加一点依赖关系，使下一个事件取决于刚刚发生了什么，而不是整个系统如何影响了当前事件，又会怎么样呢？

每个事件的概率仅取决于先前事件的一系列事件被称为马尔可夫链。

预测天气就是一个例子：明天的天气肯定取决于今天的天气，但并不特别依赖于上周的天气。

马尔可夫链，为状态空间中经过从一个状态到另一个状态的转换的随机过程。

该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。

马尔可夫模型构建的意义，是为了探寻未来的最优策略，以及马尔可夫性与历史总是不相关的，仅与当前状态有关。所以一切模型构建均是围绕未来进行展开的。

（本段来自网络）

围棋的对弈，可以视为马尔可夫决策过程：

起始状态是一个空的棋盘，棋手根据棋面（状态）选择落子点（动作）后，转换到下一个状态（转换概率为：其中一个状态的概率为 1，其他状态的概率为 0），局势的优劣是每个状态的回报。棋手需要根据棋面选择合适落子点，建立优势并最终赢下游戏。

（本段来自刘思乡）

AlphaGo 是一个基于深度神经网络的围棋AI，其秘密在于通过深度学习和强化学习来“自学”。

深度强化学习可以概括为构建一种算法(或AI智能体)，直接从与环境的交互中学习。

这其中，就有马尔可夫奖励过程，也就是：含有奖励的马尔可夫链，

Artem Oppermann如此介绍：

环境可以是真实世界，电脑游戏，模拟，甚至棋盘游戏，比如围棋或象棋。就像人类一样，人工智能代理人从其行为的结果中学习，而不是从明确的教导中学习。

在深度强化学习中，智能体是由神经网络表示的。神经网络直接与环境相互作用。它观察环境的当前状态，并根据当前状态和过去的经验决定采取何种行动（例如向左、向右移动等）。根据采取的行动，AI智能体收到一个奖励（Reward）。奖励的数量决定了在解决给定问题时采取的行动的质量(例如学习如何走路)。智能体的目标是学习在任何特定的情况下采取行动，使累积的奖励随时间最大化。

如下图：

让我们跳出这些我也不太懂的地方，回到现实中，看看人类可以从阿尔法狗那里学到什么决策方法。

我总结如下：

阿尔法狗每下的一盘棋，都是一次自我进化的学习过程，工作即学习，学习即工作；
阿尔法狗的唯一目标是终局胜负，因此而有强烈的使命感，钢铁般的意志，和石佛般的平常心（尽管它不需要这些形容词）；
把每一手棋，都当作一个独立决策点，将当前的整个局面视为一个初始状态，根据当前局面，发现（模仿人的直觉）获胜概率较高的几手棋，并估算每一手棋的终局胜率；
从中选择最优决策；
等对方落子后，再次进入“初始状态”，根据更新的信息，重复以上动作，直至终局。

围棋应该自由舒展，妙趣横生地下。因此，我觉得应该把整个棋盘当做自己的舞台。

这是我买的第一本围棋书的开篇第一句话，作者是大竹英雄，当年著名的超一流棋手，人称“美学棋士”，是胜负世界的“求道派”。

多年以后，看到AI下围棋，我会感慨这些人类顶尖棋手在“道”上的追求，与“冷血”的阿尔法狗们不谋而合。

但愿你还记得本文的标题：

原因的原因不是原因，结果的结果不是结果。

在这个充满未知和不确定性的世界里，我们对于确定性和连续性有太多幻觉。

我们对过去有太多懊恼，对未来有太多恐惧。

对于过去，我们有太多“要是...就好了”，要是多买几套房就好了，要是茅台股票没早抛就好了，要是我高考数学不丢10分我可能就上985然后去了腾讯拿股票涨了一百倍全仓杀入比特币逢高变现买了深圳湾的十套房子......

在这个不确定的随机世界里，熟知马尔可夫链的阿尔法狗是人类做决策的好老师。

在人肉阿尔法狗眼中，过去没有故事，没有假设，没有悲喜得失，没有得意或遗憾，凡事皆能放下，绝不维护自己的过往和颜面，一切只是“人生若只如初见”的初始状态。

对于未来，我们太畏手畏脚。我们总是想准备好一切，想某个完美时刻可以重新出发，想算好下一手，下一手的下一手，再下手，万无一失再撒鹰。

而人肉阿尔法狗呢？的确，他们对每一手都会算得很深，并将终局胜率作为唯一的价值函数。但是，在做决策时，他们只会专注而冷静地下一手，而丝毫不担忧下下下手该怎么办。

思考时“望见山那边”，行动时则信奉“车到山前必有路”。

一个有趣的现实是：

就像每天都是你余生中最年轻的一天，面向未来的决策不管多么艰难，在决策选项中，你总能发现相对最优的那一个。

假如在此过程中，你还能将其变成一个马尔可夫奖励过程，满足于概率的提升，而非暂时的成败，那么你就离人肉阿尔法狗更近了一步。

抛开这些理性的计算与现实的得失，以上种种，甚至可能是你我探究人生本义的唯一途径。

海德格尔说，生命就是两段永恒的黑暗之间的一段偶然而短暂的光明。

这道光明，位于“原因的原因”，与“结果的结果”之间，如一扫而过的探照灯，只有靠置身黑暗之中才能实现。

最后

很长一段时间，
我的生活看似马上就要开始了，
真正的生活，
但是总有一些障碍阻挡着，
有些事得先解决，
有些工作还有待完成，
时间貌似够用，
还有一笔债务要去付清，
然后生活就会开始，
最后我终于明白，
这些障碍，
正是我的生活。

我喜欢艾弗利德·德索萨的这段话。

围观AI下棋时，最大的快乐之一就是看AI像《机器人总动员》里的瓦力那样勤勉而乐观地工作，不管屋外多么狂风四起，依然安然入睡，准点出勤。

我喜欢围棋的黑白世界，单纯而复杂，残酷且美好，并且是很好的决策练习场。

老子说：知其白，守其黑。

黑白之间，即为灰。

现实是灰度的，而我们的此刻必须做出黑白分明的选择。

这就是我说的“灰度认知、黑白决策”。

海德格尔在引用老子的“知其白、守其黑”时，将其译为：

那知光亮者，将自身隐藏于黑暗之中。

进而，他解释说：

有死之人的思想必须让自身没入深深泉源的黑暗中，以便在白天能看到星星。

如何在白天看到星星？

张志伟对此解读：

黑暗有黑暗的清澈，不过我们没有洞悉黑暗的眼睛。于是我们点亮了烛光，企图照亮整个宇宙。

然而，我们越来越固执于光明，在此光明中营造自己的家园，反而遗忘了那深不可测无边无际的黑暗，遗忘了我们本源的家。

他还讲了一个故事，说有个人丢了钥匙，在路灯下寻找。别人问，你是在这里丢的吗？那个人回答说：不知道。

既然不知道，为什么还在这里找呢？那个人回答说：只有这里有光亮。

人类的存在极其偶然，于有限的岁月里编织的因果传说，在无尽的宇宙里只是一缕暗淡的光亮。

我们该如何找寻不在灯下的丢失之物？

海德格尔的回答是：

“让自身没入深深泉源的黑暗之中”。