权威指南:什么是 AIOps?
过去的工具已无力应对当今变幻不定的 IT 局势。基础架构模型在持续快速改革,因此管理也应采用动态的流程和技术。
商业环境正从静态且可预测的物理系统(定义这个领域数十年)转变为可动态更改和重新配置的软件定义资源环境。此外,随着网络基础设施的不断发展,基于旧模型的软件系统要投入越来越多的精力来保持有效性,但仍会越来越落后。
在这场 IT 运维 (ITOps) 变革的影响下,数字化业务转型力量迫使传统 IT 管理技术走上改变之路。因此,现有 ITOps 流程和程序以及 IT 生态系统的管理结构发生了重大变化。
1、AIOPS在携程的探索与实践.pdf
2、HPC+AI融合计算.pdf
3、基于机器学习的智能运维.pdf
4、人工智能在运维中的实践.pdf
5、容器下的AIOps架构实践.pdf
6、数据驱动的智能运维.pdf
7、为AIOps的普及而重生的基础监控.pdf
8、由AIOps提供支持的自动化运营和更新.pdf
9、中国 IT 基础架构运维市场研究报告.pdf
Gartner在 2017 年为 IT 运维或 AIOps 创造了术语人工智能,深入反映这些变革的精神核心。
AIOps 使用数据科学和机器学习技术助力 ITOps 团队实时了解影响所管理系统的性能或可用性的问题。
在过去的几年中,企业争先恐后地去了解这种新技术,并试图走在它前面,AIOps 市场类别呈爆炸式增长,同时 Gartner 领域的咨询数量呈指数级增长。
本权威指南讨论有关 AIOps 的一切须知信息,推动它诞生的市场和技术变革以及如何应对这些挑战。
AIOps 之路
首先必须了解数字转型及其如何推动产生 AIOps。
数字转型涵盖新技术的实施、云应用和快速变化。它要求人们将重心转移到开发人员和应用程序上,并加快创新步伐。它还要获取如下设施:
物联网 (IOT) 设备
新的数字用户-机器代理
应用程序编程接口 (API)
所有这些新用户和新技术将传统的服务和性能管理工具和战略挤压到极限。
成功的数字转型离不开 AIOps,它赋能 IT 以大多数现代企业所需的速度运行。因此,AIOps 阐述了应对 ITOps 领域数字转型所需的范式转换。
何为 AIOps?
AIOps 是“IT 人工智能运维”的首字母缩写。它是 ITOps(IT 运维)的未来。它结合了人类和算法智能,全面监测公司和企业在日常运营中所依赖的 IT 系统的性能和状态。
它是一种高端多层技术平台,使用机器学习和分析技术分析采集自各种 ITOps 设备和工具的大数据,以此增强和自动执行 IT 流程,从而自动发现问题并实时响应问题。
AIOps 要求您将孤立的 IT 数据移动到大数据平台中的综合观测数据(例如,工作日志和监控系统)和互动数据(如工作单、活动或事故记录中的数据)。
然后,AIOps 根据组合的数据实施机器学习和分析。在此基础上,通过持续的深入洞察推动不断改进自动化实施。因此,您可以将 AIOps 视为核心 IT 功能的 CI/CD(持续集成和持续部署)。
AIOps 桥接了三个 IT 学科(自动化、服务管理和性能管理)以实现持续洞察和改进的目标。人们认识到,在新的加速和超大规模 IT 环境中,有一种利用机器学习和大数据的全新方法,可克服人力和传统工具限制的问题。
AIOps 工作原理
AIOps 使用组织内的现有数据源,包括日志事件、传统 IT 监控、网络性能异常等。从这些来源系统收集的数据运用数学模式进行处理,从而自动识别重大事件,无需费力的手工预筛选。
另一层算法可分析事件,并识别存在类似潜在问题症状的一群相关活动。算法过滤可大大降低 ITOps 团队必须处理的警报干扰,同时还可避免不同工作组的工作单冗余路由而产生的重复情况。
取而代之的是,您可以动态组建虚拟团队,并分派不同的专家跨部门或技术边界的问题。现有的事件管理和票务系统可运用 AIOps 的功能,直接集成到现有流程中。
AIOps 进一步提高了自动化程度。它能够触发工作流程,不管是否有人工干预。当前的 ChatOps 功能在诊断和补救措施的正常协作过程中,积极利用现有的自动化功能。
随着机器学习系统变得越来越精确和可靠,现在无需人工干预即可触发易于理解的常规操作,从而及时解决问题以免干扰用户的使用。
AIOps 的要素
以下是构成 AIOps 平台的技术。
数据源。数据源广泛而多样化,来自于现有孤立的工具和各种 IT 类,包括事件、日志、指标、工作单、监控和作业数据等。 大数据。包括允许实时处理的现代化大数据平台。例如,Elastic Stack、Hadoop 2.0 或部分 Apache 技术。 规则和模式。AIOps 平台的规则应用和模式识别加强了杠杆作用,可发现上下文,同时发现数据的常态和规律。它们可能特定/不特定于某个域。 机器学习。机器学习技术可根据新引入的数据和算法分析的输出结果自动创建新的算法或修改现有算法。 域算法。利用 IT 域领域的专业知识智能解释规则和模式,并根据企业数据和期望的结果进行应用。域算法有利于组织机构实现 IT 特定的目标,例如关联非结构化数据、消除干扰、针对异常发出警报、找出可能的原因以及建立基准。 自动化。利用机器学习和人工智能产生的结果,自动创建和应用对确定的问题和情况的响应。 人工智能 (AI)。人工智能可适应环境中的未知和新事物。
AIOps的要求和功能
所有 AIOps 平台都应为您的企业带来以下三项功能。
自动执行日常操作,例如用户请求或不重要的 IT 系统警报。例如,AIOps 可以帮助服务台系统处理和满足用户自动配置资源的请求。它们还可以评估警报并确定是否需要采取措施,因为支持性的数据和相关指标均在正常参数范围内。 识别严重问题的速度和准确性远优于人工。IT 人员可能会解决非关键系统上的已知恶意软件事件,但会忽略关键服务器上启动的异常下载或进程,因为他们没有关注或预料到这种威胁。AIOps 系统则以完全不同的方式解决这些情况。它们会优先处理关键系统上因行为不正常而疑似攻击或感染的事件,其次是运行防病毒软件处理已知的恶意软件事件。 简化数据中心团队之间的互动。AIOps 为所有职能 IT 部门提供相关数据和见解。如果缺少这些支持人工智能的操作,团队必须通过手动发送数据或召开现场会议来解析和共享信息。AIOps 应该从企业的大量资源指标中了解可向每个组显示的数据。
驱动 AIOps 的推动因素是什么?它需求背后的理由是什么?
人工智能 (AI) 的前景是承担起人类工作,但速度更快、结果更好、规模更大。AIOps 可解决数字转型的规模、复杂性和速度难题,让您实现 ITOps 的这个目标。这些挑战包括:
ITOps 在手动管理基础架构上面临的困难 ITOps 要保留越来越庞大的数据量 以越来越快的速度解决基础设施问题的需求 开发人员享受更大的权力和影响力,但责任仍由 IT 部门承担 从网络中心转移更多的计算能力
AIOps 与当前工具集成
AIOps 与现有流程和工具相互集成,汇集了实用信息、功能和见解。企业当下使用不同区域和不同用途的监控工具。每个工具对特定部门、团队或公司都有价值,但其他相关方无法利用它的价值。
因此,AIOps 并没有运用费力的工具合理化举措,试图用一刀切解决方案强行解决个人独特需求,而是跨域、团队和工具打造无缝可见性,支持特定工具的大力发展。
同样,AIOps 还确保只创建真实可操作的事件,避免事件重复,减轻 IT 服务团队管理 (ITSM) 的工作量。IT 基础结架构库 (ITIL) 的顺序性质还决定了 AIOps 可解决和消除大量 ITSM 用户烦恼。
AIOps 还实现了自动化。它可集成编排和工作流程,直接以全自动或半自动形式呈现给操作员。IT 部门多年来开发了大型自动化解决方案库,因此他们必须确保只有达到正确的条件才能触发。AIOps 不仅可保证这一点,而且可将风险控制在最低水平,最大限度发挥现有自动化投资的价值。
谁在使用 AIOps?
复杂的大型企业非常依赖大数据和 IT 云计算 开发运维团队 数字化转型
AIOps 的优势
正确实施的 AIOps 平台可减少 IT 员工在日常警报上所花费的时间和精力。在机器学习和算法的运用下,IT 员工可训练 AIOps 平台不断精进。它们可逐渐吸收知识以改进软件的行为和有效性。
AIOps 工具可持续监控状态,不眠不休。员工可则可集中精力处理严重的复杂问题,同时落实计划举措提高业务稳定性和绩效。
AIOps 系统在对各种数据源进行整理和归类过程中,可观察企业多个运行、资源和服务之间的因果关系。这些机器学习和分析功能促使系统执行根本原因分析,从而加快疑难杂症故障排除,快速实施补救措施。
AIOps 改善了 IT 组之间以及 IT 部门与其他业务部门之间的工作流任务和协作。团队可以使用定制的报告和控制板快速了解要求和任务。他们还可以对接其他工作组,但无需学习其他工作组要掌握的知识。
AIOps 消除了噪音和干扰,有助于 IT 人员集中应对重要问题,不会被无关紧要的警报打扰。
AIOps 有助于关联多个数据源之间的信息,不仅打破了信息之间的藩篱,而且能洞察从物理、虚拟到云整个 IT 环境的全部状况,包括网络、计算和存储。
它推动服务所有者和专家之间的无摩擦协作。这可极大加快诊断、分析和解决速度,从而最大限度减少对最终用户的干扰。
AIOps 的缺陷
尽管基本的 AIOps 技术相对成熟,但要创建和组合技术以投入实际生产,还有很长一段路要走。以下是它的一些缺点:
它的有效性取决于您训练的算法以及它接收的数据。因此,终不能超出编程的限制。 实施、管理和维护 AIOps 平台可能需要花费大量的精力和时间。 AIOps 系统依赖各种数据源以及数据保留、保护和存储。 AIOps 要求企业完全信任工具,这是部分企业不喜欢它的一个原因。这是因为,为了使 AIOps 工具能够自主采取行动,他们必须准确地跟踪目标环境中的变化,收集并保护相关数据,形成正确的结论,确定操作的优先级,最终采取适当的自动化措施。
在企业中实施 AIOps
没有放之四海而皆准的成功模式。不过,下文的通用指南可帮助您入门。
立即掌握机器学习和人工智能的基础知识。
确定企业中 IT 团队最耗时的任务。尤其注意自动化流程可取代的重复性任务。
从小处着手,逐步向外扩展。查找 AIOps 可快速解决的最紧急问题。
尽量丰富为系统馈送的数据类型。
制定指标,帮助衡量 AIOps 投资的有效性。
AIOps 在现代化 IT 环境中的适用点
首次查看 AIOps 时,您可能不会立即想到它如何适合您现有的工具类别。原因是它不能替代当前的监视、编排、支持服务或日志管理工具。相反,它牵涉所有领域和工具,在所有领域和工具中集成和使用信息。它输出的信息还有助于了解每个工具的同步情况。
这些工具单独来说,一个个本身都是有价值的。不过,工具之间的隔断导致用户无法适时访问正确的信息。AIOps 灵活地将各种不全面视图整合成综合性视图,从而有助于 ITOps 团队了解整体情况。
尽管 AIOps 与 ITOps 有云泥之别,但它并不是大数据和机器学习的首次应用。当股票经纪人从手工交易转向机器交易时,他们也采用了类似的机械学习方法。社交媒体还长期在诸如 Google Maps、Yelp 和 Waze 之类的应用程序或 eBay 和 Amazon 之类的在线市场中使用机器学习和分析。
这些技术在要求实时响应不断变化的条件和用户定制需求的环境中,体现出了高度可靠性和广泛有效性。
与机器学习技术相比,人工智能在 AIOps 中的应用前景更大有可为。当前,简单的自动化或将自动化与机器学习结合就能解决您当下紧迫的用例。人工智能及其未来应用场景仍在演变,未来可期。无论如何,企业务必在当前存在的 ITOps 上打下坚实的 AIOps 基础,然后在此基础上开始实施人类行为建模。
ITOps 人员由于工作的保守性质,无法快速适应 AIOps 环境。他们的职责是确保业务照常运行,维持企业基础架构的稳定性。不过,随着 AIOps 广泛应用的新兴趋势抬头,越来越多的 ITOps 工作组不得不在短时间内适应新的 AIOps 技术和战略。
结论
这份权威的 AIOps 指南将帮助您确定它对于贵公司的适用性,以及何时整合该技术以及以何种方式使用。除此之外,建议您关注 AIOps 的最新发展态势。种种迹象表明,这项创新技术已蓄势待发。
下载链接:
1、AIOPS在携程的探索与实践.pdf
2、HPC+AI融合计算.pdf
3、基于机器学习的智能运维.pdf
4、人工智能在运维中的实践.pdf
5、容器下的AIOps架构实践.pdf
6、数据驱动的智能运维.pdf
7、为AIOps的普及而重生的基础监控.pdf
8、由AIOps提供支持的自动化运营和更新.pdf
9、中国 IT 基础架构运维市场研究报告.pdf
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。
获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。