如何一步一步设计一个大规模复杂的系统
良好的系统设计能力,是一个优秀程序员的必要素质,反应出了处理复杂问题的能力,也是面试过程中能否获得相应的职位和薪酬的关键。
最近在 https://www.educative.io/ 上看到一份介绍系统设计的教程:Grokking the System Design Interview[1],里面有很多系统设计实例,如 Dropbox, Twitter, Facebook Messenger, Uber 等,教程是收费的,质量很高,学习系统设计的绝佳资料,该教程的中文资料很少,这里就将其中的核心内容翻成中文与大家分享,如果需看英文原版,回复「系统设计」即可获取。
许多软件工程师在系统设计面试(以下简称 SDI)时遇到困难,主要有三个方面原因:
SDI 具有非结构化性质,往往要求开放式设计,很多问题没有标准答案。 他们缺乏开发大型系统的经验。 他们没有为 SDI 做准备。
像编码面试一样,没有认真准备 SDI 的应聘者,大部分表现不佳,尤其是在 Google,Facebook,Amazon,Microsoft 等顶尖公司的面试,如果表现不及平均水平的候选人,获得获得 offer 的机会非常渺茫。另一方面,良好的面试表现总是会带来更好的回报,或者是更高的职位,或者是更高的薪水,因为这显示了候选人处理复杂系统的能力。
接下来,我们将按以下步骤循序渐进地解决多个设计问题:
第一步:需求澄清
在需求范围内提出一些问题有助于澄清需求。设计问题大多是开放性的,并且没有一个标准答案,这就是为什么要澄清一些具体需求。花费足够时间来定义系统最终目标有助于在面试中获得成功。另外,由于系统设计的面试只有 35-40 分钟的时间,我们应该弄清楚哪些部分需要重点关注。
以设计一个类 Twitter 的服务为例,在开始设计之前应先回答以下问题:
我们服务的用户能否发布推文并关注其他人? 我们是否还应该设计来创建和显示用户的时间轴? 推文中是否包含照片和视频? 我们是仅专注于后端还是前端? 用户将能够搜索推文吗? 我们需要显示热门话题吗? 是否有关于新(或重要)推文的推送通知?
这些问题将决定最终设计的系统长什么样。
第二步:系统接口定义
定义系统期望的接口(API)不仅可以帮助建立预期的接口协议 ,也可以确保我们没有弄错需求。比如类似 Twitter 的服务的接口可能是这样的:
postTweet(user_id, tweet_data, tweet_location, user_location, timestamp, …)
generateTimeline(user_id, current_time, user_location, …)
markTweetFavorite(user_id, tweet_id, timestamp, …)
第三步:资源预估
预估我们要设计的系统的规模是非常必要的,有助于我们后续的系统扩展、分区、负载平衡和缓存的设计。
系统预期的规模,例如,新推文的数量,推文的阅读量,每秒产生的时间线? 我们需要多少存储空间?如果用户可以拍摄照片和视频,又需要多少存储空间。 我们期望多大的带宽?这对于决定我们如何管理流量和平衡服务器之间的负载。
第四步:设计数据模型
早一点定义数据模型可以弄明白数据如何在不同组件之间进行流转。数据模型将指导数据分区和管理。设计者应该识别系统的各个实体,它们之间的交互方式以及 数据管理的各个方面,例如存储、传输、加密等。以下是我们的类 Twitter 服务的一些实体:
User:UserID, Name, Email, DoB, CreationData, LastLogin 等。 Tweet:TweetID,Content,,TweetLocation,NumberOfLikes,TimeStamp等。 UserFollowo:UserdID1,UserID2 FavoriteTweets: UserID, TweetID, TimeStamp
我们应该使用哪个数据库系统?像 Cassandra 这样的 NoSQL 是否最适合我们的需求,还是应该使用类似于 MySQL 的解决方案?我们应该使用哪种块存储来存储照片和视频?
第五步:高级设计
画一个带有 5-6 个方框的图,代表我们系统的核心组件。我们应该识别出足够的组件来解决端到端的问题,对于 Twitter 而言,我们将需要多个应用服务器来服务所有的读/写服务,并配置负载平衡器进行流量分配。假如读流量大于写流量,我们可以使用单独的服务器进行处理这些情况,比如分配 10 台服务器服务读请求,2 台服务器服务写请求。在后端,我们需要一个高性能的数据库,该数据库可以存储所有推文并支持大量读取。我们还需要一个分布式文件存储系统来存储照片和视频。
第六步:详细设计
深入挖掘两个或三个组成部分;面试官的反馈意见引导我们进一步讨论。我们应该能够提出不同的方法,它们的优点和缺点,并说明为什么我们会选择另一种方法。请记住,没有标准答案,唯一重要的是有限资源前提下怎么做出权衡。
由于我们将存储大量数据,因此如何将数据分区到分发到多个数据库?是否应该尝试将用户的所有数据存储在同一数据库?它会导致什么问题? 如何处理发大量推文或关注很多人的热门用户? 由于用户的时间轴将包含最新推文,为了获取最新推文是否需要优化数据的存取方式? 我们应该在多少层引入缓存以加快处理速度? 哪些组件需要更好的负载平衡?
第七步:找出并解决瓶颈
找出尽可能多的瓶颈问题,并提出缓解这些瓶颈的不同方法。比如:
我们的系统中是存在单点故障?应该采取什么措施缓解这种情况? 我们是否有足够的数据备份,在多少台服务器宕机的情况下仍可以为用户提供服务? 类似的,我们是否有足够数量的不同服务在运行,即使一些服务有故障也不会会导致系统崩溃? 我们如何监控我们的服务性能?关键时刻比如组件发生故障或性能下降时会收到报警吗?
最后的话
简而言之,面试前有足够的准备是系统设计面试成功的关键,上述步骤可以指导我们设计一个复杂的大规模系统,涵盖了的不同方面的面试问题,后续的面试问题,可以参考以上步骤来思考和回答。
PS:你的每一次点赞和在看,都是对我最大的鼓励。
参考资料
Grokking the System Design Interview: https://www.educative.io/courses/grokking-the-system-design-interview
推荐阅读:Django 面试题