DeepFlow 在小米落地现状以及挑战
共 18313字,需浏览 37分钟
· 2023-07-28
编者按:本文整理自小米集团高级工程师谭槊在《蓝鲸 X DeepFlow 可观测性 Meetup》 中的分享实录,详细阐述了将DeepFlow 融入小米现有的可观测体系中的一线落地经验,用 DeepFlow 零插桩、全覆盖的能力解决了现有痛点,还解决了传统主机下 cBPF 如何关联流与进程、 LVS NAT 造成的服务拓扑断链等难题,并展望了与 DeepFlow 合作共建的未来,构建小米全新的可观测体系新阶段。 点击下方卡片,观看回放视频。
小米可观测性的现状与规划
第一章介绍我们团队,我们组为小米集团提供日志、指标、链路等可观测性的数据,这是可观测性数据的三个维度,通过平台将这些数据结合,帮助业务发现、定位和解决问题。先介绍一下我们的历史成果,以往我们主要面向的用户群体是 SRE,我们的第一阶段叫 SREOps,这个是我们提供的覆盖全集团的主机基础指标监控能力。这里面主要就是技术(编者按:基础设施)的指标,包括 CPU,内存,这块我们已经把它做完了,全集团已经铺开了,所有的机器都装了我们的采集器。这是第一阶段。
为什么要引入 DeepFlow?
DeepFlow 在小米的部署模式
DeepFlow 在小米的落地
同时我们也推出一个静态拓扑图的产品功能,这个是我们到 3 月份为止实际上的功能试点,我们剩下的重心就要把它全量铺开,然后开始在全集团的主机上进行覆盖,我们会在容器平台上进行覆盖,所谓覆盖就是去部署探针,中间可能会涉及到机房的建设,集群的建设,资源的问题。这是我现在在做的事情,下周回去就开始做了。到8月中旬为止。我们把功能全部给铺开,最后我们产出一个完整的产品,给用户创造一个价值,给他一个真正的、DeepFlow 完整能力,我们暴露给用户这个完整产品的话,可能在 10 月份和 12 月份进行一次密集的迭代,把我们刚才要做的功能全都给迭代上去。
https://deepflow.io/zh/community.html
https://github.com/deepflowio/deepflow
https://deepflow.io/docs/zh/
关于 DeepFlow
DeepFlow 是云杉网络开源的一款高度自动化的可观测性平台,是为云原生应用开发者建设可观测性能力而量身打造的全栈、全链路、高性能数据引擎。DeepFlow 使用 eBPF、WASM、OpenTelemetry 等新技术,创新的实现了 AutoTracing、AutoMetrics、AutoTagging、SmartEncoding 等核心机制,帮助开发者提升埋点插码的自动化水平,降低可观测性平台的运维复杂度。利用 DeepFlow 的可编程能力和开放接口,开发者可以快速将其融入到自己的可观测性技术栈中。
DeepFlow 企业版自2016年起已在中国移动、中国联通、中国电信、国家电网、招商银行、民生银行、光大银行、中国人保财险、平安科技、兴业数金、国泰君安、海通证券、上汽集团、深航货运、东方明珠、中保信等超过50家企业级数据中心落地部署,帮助客户构建多维度、一体化的可观测性平台。