TCC是什么?如何基于TCC进行分布式事务设计?
点击上方蓝色字体,选择“标星公众号”
优质文章,第一时间送达
1、事务的定义
事务是指由一组操作组成的一个工作单元,这个工作单元具有原子性(atomicity)、一致性( consistency)、隔离性(isolation)和持久性(durability)------- ACID
原子性:执行单元中的操作要么全部执行成功, 要么全部失败。如果有一部分成功一部分失败那么成功的操作要全部回滚到执行前的状态。一致性:执行一次事务会使用数据从一个正确的状态转换到另一个正确的状态, 执行前后数据都是完整的。隔离性:在该事务执行的过程中, 任何数据的改变只存在于该事务之中, 对外界没有影响, 事务与事务之间是完全的隔离的。只有事务提交后其它事务才可以查询到最新的数据。持久性:事务完成后对数据的改变会永久性的存储起来, 即使发生断电宕机数据依然在。
本地事务
本地事务就是用关系数据库来控制事务, 关系数据库通常都具有ACID特性, 传统的单体应用通常会将数据全部存储在一个数据库中, 会借助关系数据库来完成事务控制。
分布式事务
在分布式系统中一次操作由多个系统协同完成, 这种一次事务操作涉及多个系统通过网络协同完成的过程称为分布式事务。这里强调的是多个系统通过网络协同完成一个事务的过程, 并不强调多个系统访问了不同的数据库, 即使多个系统访问的是同一个数据库也是分布式事务,如下图:
另外一种分布式事务的表现是, 一个应用程序使用了多个数据源连接了不同的数据库, 当一次事务需要操作多个数据源, 此时也属于分布式事务, 当系统作了数据库拆分后会出现此种情况。
分布式事务场景
1 ) 电商系统中的下单扣库存
电商系统中, 订单系统和库存系统是两个系统, 一次下单的操作由两个系统协同完成
2) 金融系统中的银行卡充值
在金融系统中通过银行卡向平台充值需要通过银行系统和金融系统协同完成。
3) 教育系统中下单选课业务
在线教育系统中, 用户购买课程, 下单支付成功后学生选课成功, 此事务由订单系统和选课系统协同完成。
4) SNS系统的消息发送
在社交系统中发送站内消息同时发送手机短信, 一次消息发送由站内消息系统和手机通信系统协同完成。
2、CAP理论(Base理论可以自行学习)
CAP理论是分布式事务处理的理论基础。
CAP理论是:分布式系统在设计时只能在一致性(Consistency)、 可用性(Availability)、 分区容忍性(PartitionTolerance)中满足两种, 无法兼顾三种。
一致性(Consistency):服务A、 B、 C三个结点都存储了用户数据, 三个结点的数据需要保持同一时刻数据一致性。
可用性(Availability):服务A、 B、 C三个结点, 其中一个结点宕机不影响整个集群对外提供服务, 如果只有服务A结点, 当服务A宕机整个系统将无法提供服务, 增加服务B、 C是为了保证系统的可用性。
分区容忍性(Partition Tolerance):分区容忍性就是允许系统通过网络协同工作, 分区容忍性要解决由于网络分区导致数据的不完整及无法访问等问题。
在保证分区容忍性的前提下一致性和可用性无法兼顾, 如果要提高系统的可用性就要增加多个结点, 如果要保证数据的一致性就要实现每个结点的数据一致, 结点越多可用性越好, 但是数据一致性越差。
所以, 在进行分布式系统设计时, 同时满足“一致性”、 “可用性”和“分区容忍性”三者是几乎不可能的。
CAP组合方式
1 、CA:放弃分区容忍性, 加强一致性和可用性, 关系数据库按照CA进行设计。
2、 AP:放弃一致性, 加强可用性和分区容忍性, 追求最终一致性, 很多NoSQL数据库按照AP进行设计。说明:这里放弃一致性是指放弃强一致性, 强一致性就是写入成功立刻要查询出最新数据。追求最终一致性是指允
许暂时的数据不一致, 只要最终在用户接受的时间内数据 一致即可。
3、 CP:放弃可用性, 加强一致性和分区容忍性, 一些强一致性要求的系统按CP进行设计, 比如跨行转账, 一次转账请求要等待双方银行系统都完成整个事务才算完成。
由于网络问题的存在CP系统可能会出现待等待超时, 如果没有处理超时问题则整理系统会出现阻塞。
在分布式系统设计中AP的应用较多, 即保证分区容忍性和可用性, 牺牲数据的强一致性( 写操作后立刻读取到最新数据) , 保证数据最终一致性。比如:订单退款, 今日 退款成功, 明日 账户到账, 只要在预定的用户可以接受的时间内退款事务走完即可。
BASE理论:
eBay架构师 Dan Pritchett 提出,是CAP理论的延伸,核心思想是即使无法保证强一致性,但是应用可以采用某种方式达到最终一致性。
BASE理论是基本可用(Basically Available)、柔性状态(Soft Stat)、最终一致性(Eventually Consistency)。
基本可用:分布式系统在出现故障的时候,允许损失部分可用性,保证核心可用,场景为服务降级。
柔性状态:允许系统存在中间状态,而该中间状态不会影响系统整体可用性。分布式存储中,一份数据一般会有三个副本至少,允许不同节点间副本同步的延时就是柔性状态的体现。
最终一致性:系统中的所有数据副本经过一段时间之后 ,最终达到一致的状态。
3、分布式事务解决方案
1)两阶段提交协议(2PC)
为解决分布式系统的数据一致性问题出现了两阶段提交协议( 2 Phase Commitment Protocol) , 两阶段提交由协调者和参与者组成, 共经过两个阶段和三个操作, 部分关系数据库如Oracle、 MySQL支持两阶段提交协议。
1)第一阶段:准备阶段( prepare)协调者通知参与者准备提交订单, 参与者开始投票。协调者完成准备工作向协调者回应Yes。
2)第二阶段:提交(commit)/回滚(rollback)阶段协调者根据参与者的投票结果发起最终的提交指令。如果有参与者没有准备好则发起回滚指令。
1 、应用程序连接两个数据源。
2、 应用程序通过事务协调器向两个库发起prepare, 两个数据库收到消息分别执行本地事务( 记录日志),但不提交, 如果执行成功则回复yes, 否则回复no。
3、 事务协调器收到回复, 只要有一方回复no则分别向参与者发起回滚事务, 参与者开始回滚事务。
4、 事务协调器收到回复, 全部回复yes, 此时向参与者发起提交事务。如果参与者有一方提交事务失败则由事务协调器发起回滚事务。
2PC的优点:实现强一致性, 部分关系数据库支持( Oracle、 MySQL等) 。
缺点:整个事务的执行需要由协调者在多个节点之间去协调, 增加了事务的执行时间, 性能低下。
解决方案有:springboot+Atomikos or Bitronix
跨服务事务
主要有:
1)TCC
2)本地消息表
3)可靠消息
4)最大努力通知
2)事务补偿(TCC)
TCC将一个大的事务拆分成两阶段的多个子事务。其中第一阶段的子事务和第二阶段的子事务独立。【第一阶段和第二阶段异步执行,不影响事务的整体特性】。TCC分布式事务不违反CAP和BASE等分布式系统一致性理论,TCC通过第二阶段的补偿机制来实现最终一致性。所有的分布式事务都需要有补偿机制,都属于最终一致性,方案的选型【重点】在以补偿机制的效率。TCC在极端情况下需要人工介入。TCC异常可能会导致系统不一致。在金融系统中需要独立的账务检查系统。
每个服务都要实现 try/conform/cancel 方法
TCC事务补偿是基于2PC实现的业务层事务控制方案, 它是Try、Confirm和Cancel三个单词的首字母, 含义如下:
1、Try 检查及预留业务资源完成提交事务前的检查,并预留好资源。每一个try是一个子事务,所有try方法成功才是成功,try对应第一阶段。
2、Confirm 确定执行业务操作对try阶段预留的资源正式执行。try成功后执行conform,每一个conform为一个独立子事务,conform为第二阶段事务。try和conform是相互独立的。
3、Cancel 取消执行业务操作对try阶段预留的资源释放。只要有一个try执行失败,第二阶段执行cancel方法。
第一阶段执行成功之后,第二阶段必须执行成功。
1 、Try
try阶段做 业务检查,【检查库存是否足够,检查银行卡余额是否足够】,做资源预留【对库存、余额进行冻结】。try阶段决定分布式事务是否成功。
下单业务由订单服务和库存服务协同完成, 在try阶段订单服务和库存服务完成检查和预留资源。订单服务检查当前是否满足提交订单的条件( 比如:当前存在未完成订单的不允许提交新订单)。库存服务检查当前是否有充足的库存, 并锁定资源。
2、 Confirm
conform 执行业务,【进行幂等性检查】。处理 try冻结的资源。try成功, conform 必须成功。【超过重试次数,人工介入】
confirm 要进行异常处理,并记录日志。
订单服务和库存服务成功完成Try后开始正式执行资源操作。订单服务向订单写一条订单信息。库存服务减去库存。
3、 Cancel
回滚业务,【进行幂等性检查】,释放 try 冻结的资源, try 失败, cancel 必须成功。【超过重试次数,人工介入】
空回滚检查:当 try网络超时,回滚业务前要进行检查。具体方法:1)通过事务控制表识别空回滚。2)通过业务流水识别空回滚。
如果订单服务和库存服务有一方出现失败则全部取消操作。订单服务需要删除新增的订单信息。库存服务将减去的库存再还原。
优点:最终保证数据的一致性, 在业务层实现事务控制, 灵活性好。
缺点:开发成本高, 每个事务操作每个参与者都需要实现try/confirm/cancel三个接口。
TCC的try/confirm/cancel接口都要实现幂等性, 在为在try、 confirm、 cancel失败后要不断重试。
流程:
1、业务服务向分布式事务管理器请求启动事务,并执行第一阶段的 Try 调用其他服务。
2、其他服务返回 Try 结果。
3、全部成功或有失败,向分布式事务管理器发起请求,提交或回滚事务。
4、分布式事务管理器执行第二阶段Conform或Cancel方法调用其他服务。
5、如果第二阶段cancel、conform执行失败,分布式事务管理器会不断重试。
TCC框架实现分布式事务管理器。如 Himly框架等。。。
3)幂等性
幂等性是指同一个操作无论请求多少次, 其结果都相同。
幂等操作实现方式有:
1 、 操作之前在业务方法进行判断如果执行过了就不再执行。
2、 缓存所有请求和处理的结果, 已经处理的请求则直接返回结果。
3、 在数据库表中加一个状态字段( 未处理, 已处理) , 数据操作时判断未处理时再处理。
4、编程模型
5、分布式事务和本地事务冲突原则
@Transactional
@Hmily
public void update(){......}
本地事务会和分布式事务一起执行,如上。
原则:本地事务不能影响分布式事务。
6、防悬挂
Cancel比try先执行。(try一直网络超时,然后分布式事务执行了cancel。Cancel执行完之后,try执行请求才到)。
如上,事务已经结束,try 一定不能执行。
7、微服务编程模型
8、互联网优化方案
1、第一阶段执行完成之后,第二阶段用一个类似消息队列的方式进行异步执行;
2、第一阶段执行完成之后,第二阶段confirm提交同步执行,cancel回滚异步执行。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:
https://blog.csdn.net/kepengs/article/details/110850342
锋哥最新SpringCloud分布式电商秒杀课程发布
👇👇👇
👆长按上方微信二维码 2 秒
感谢点赞支持下哈