如何一步一步设计一个大规模复杂的系统-技术圈

良好的系统设计能力，是一个优秀程序员的必要素质，反应出了处理复杂问题的能力，也是面试过程中能否获得相应的职位和薪酬的关键。

最近在 https://www.educative.io/ 上看到一份介绍系统设计的教程：Grokking the System Design Interview^[1]，里面有很多系统设计实例，如 Dropbox, Twitter, Facebook Messenger, Uber 等，教程是收费的，质量很高，学习系统设计的绝佳资料，该教程的中文资料很少，这里就将其中的核心内容翻成中文与大家分享，如果需看英文原版，回复「系统设计」即可获取。

许多软件工程师在系统设计面试（以下简称 SDI）时遇到困难，主要有三个方面原因：

SDI 具有非结构化性质，往往要求开放式设计，很多问题没有标准答案。
他们缺乏开发大型系统的经验。
他们没有为 SDI 做准备。

像编码面试一样，没有认真准备 SDI 的应聘者，大部分表现不佳，尤其是在 Google，Facebook，Amazon，Microsoft 等顶尖公司的面试，如果表现不及平均水平的候选人，获得获得 offer 的机会非常渺茫。另一方面，良好的面试表现总是会带来更好的回报，或者是更高的职位，或者是更高的薪水，因为这显示了候选人处理复杂系统的能力。

接下来，我们将按以下步骤循序渐进地解决多个设计问题：

第一步：需求澄清

在需求范围内提出一些问题有助于澄清需求。设计问题大多是开放性的，并且没有一个标准答案，这就是为什么要澄清一些具体需求。花费足够时间来定义系统最终目标有助于在面试中获得成功。另外，由于系统设计的面试只有 35-40 分钟的时间，我们应该弄清楚哪些部分需要重点关注。

以设计一个类 Twitter 的服务为例，在开始设计之前应先回答以下问题：

我们服务的用户能否发布推文并关注其他人？
我们是否还应该设计来创建和显示用户的时间轴？
推文中是否包含照片和视频？
我们是仅专注于后端还是前端？
用户将能够搜索推文吗？
我们需要显示热门话题吗？
是否有关于新（或重要）推文的推送通知？

这些问题将决定最终设计的系统长什么样。

第二步：系统接口定义

定义系统期望的接口（API）不仅可以帮助建立预期的接口协议
，也可以确保我们没有弄错需求。比如类似 Twitter 的服务的接口可能是这样的：

postTweet(user_id, tweet_data, tweet_location, user_location, timestamp, …) 
generateTimeline(user_id, current_time, user_location, …) 
markTweetFavorite(user_id, tweet_id, timestamp, …)

第三步：资源预估

预估我们要设计的系统的规模是非常必要的，有助于我们后续的系统扩展、分区、负载平衡和缓存的设计。

系统预期的规模，例如，新推文的数量，推文的阅读量，每秒产生的时间线？
我们需要多少存储空间？如果用户可以拍摄照片和视频，又需要多少存储空间。
我们期望多大的带宽？这对于决定我们如何管理流量和平衡服务器之间的负载。

第四步：设计数据模型

早一点定义数据模型可以弄明白数据如何在不同组件之间进行流转。数据模型将指导数据分区和管理。设计者应该识别系统的各个实体，它们之间的交互方式以及
数据管理的各个方面，例如存储、传输、加密等。以下是我们的类 Twitter 服务的一些实体：

User：UserID, Name, Email, DoB, CreationData, LastLogin 等。
Tweet：TweetID，Content,，TweetLocation，NumberOfLikes，TimeStamp等。
UserFollowo：UserdID1，UserID2
FavoriteTweets: UserID, TweetID, TimeStamp

我们应该使用哪个数据库系统？像 Cassandra 这样的 NoSQL 是否最适合我们的需求，还是应该使用类似于 MySQL 的解决方案？我们应该使用哪种块存储来存储照片和视频？

第五步：高级设计

画一个带有 5-6 个方框的图，代表我们系统的核心组件。我们应该识别出足够的组件来解决端到端的问题，对于 Twitter 而言，我们将需要多个应用服务器来服务所有的读/写服务，并配置负载平衡器进行流量分配。假如读流量大于写流量，我们可以使用单独的服务器进行处理这些情况，比如分配 10 台服务器服务读请求，2 台服务器服务写请求。在后端，我们需要一个高性能的数据库，该数据库可以存储所有推文并支持大量读取。我们还需要一个分布式文件存储系统来存储照片和视频。

第六步：详细设计

深入挖掘两个或三个组成部分；面试官的反馈意见引导我们进一步讨论。我们应该能够提出不同的方法，它们的优点和缺点，并说明为什么我们会选择另一种方法。请记住，没有标准答案，唯一重要的是有限资源前提下怎么做出权衡。

由于我们将存储大量数据，因此如何将数据分区到分发到多个数据库？是否应该尝试将用户的所有数据存储在同一数据库？它会导致什么问题？
如何处理发大量推文或关注很多人的热门用户？
由于用户的时间轴将包含最新推文，为了获取最新推文是否需要优化数据的存取方式？
我们应该在多少层引入缓存以加快处理速度？
哪些组件需要更好的负载平衡？

第七步：找出并解决瓶颈

找出尽可能多的瓶颈问题，并提出缓解这些瓶颈的不同方法。比如：

我们的系统中是存在单点故障？应该采取什么措施缓解这种情况？
我们是否有足够的数据备份，在多少台服务器宕机的情况下仍可以为用户提供服务？
类似的，我们是否有足够数量的不同服务在运行，即使一些服务有故障也不会会导致系统崩溃？
我们如何监控我们的服务性能？关键时刻比如组件发生故障或性能下降时会收到报警吗？

最后的话

简而言之，面试前有足够的准备是系统设计面试成功的关键，上述步骤可以指导我们设计一个复杂的大规模系统，涵盖了的不同方面的面试问题，后续的面试问题，可以参考以上步骤来思考和回答。

PS：你的每一次点赞和在看，都是对我最大的鼓励。

参考资料

[1]

Grokking the System Design Interview: https://www.educative.io/courses/grokking-the-system-design-interview