基础架构监视是收集有关环境的关键数据的过程,包括有关可用性、性能和资源效率的信息。目标减少停机时间,改善用户体验、速度、可靠性和灵活性,并确保投资在本地堆栈和云中实现承诺的。
挑战全面洞察日益复杂和动态的景观。在多云环境、基于容器的体系结构和运行从更新开源技术到遗留软件的本地基础设施之间,实现环境的态势感知变得越来越困难。
许多组织通过添加大量基础设施监控工具来应对,在许多情况下,这只会增加噪音。
为了跟上创新的步伐,并以不断提高的可靠性、速度和规模提供出色的用户体验,运营()团队需要成熟其基础架构监控方法。
为什么需要更聪明而不是更努力地工作
云服务、移动应用程序和基于微服务的应用程序环境为开发人员和用户提供了无与伦比的灵活性。云本地计算基金会()描述了近云本地技术的快速增长模式,其中许多都被大多数组织使用。然而
这种多样性和灵活性也给团队带来了许多复杂性问题。其结果是一个生产悖论:随着每种新的云服务、容器环境和开源解决方案的出现,技术和依赖性的数量将增加,这使得团队更难以大规模地积极监控系统并解决性能问题。显得
为了应对这种不断扩大的多样性和复杂性,团队需要更聪明地工作,而不是更努力地工作。从到,使用人工智能和持续自动化是更有前途的方式。运营人工智能()是一门应用人工智能的学科,
通常是机器学习和模式识别——或者,在动态跟踪的情况下,是确定性的、基于因果关系的人工智能——来执行和自动化通常由团队手动执行的任务。
通过一些规划,团队可以分三个阶段实施此演进:1。评估和监控成熟度和目标;2.自动化基础设施监测;3.在单个平台上集成监控。
1.评估和监控成熟度和目标
有效的监视和诊断从可用性监视开始。
阶段1:可用性监控
这一阶段的定义是“一切都准备好了吗”。并注重收集和关联事件的能力,以评估关键服务的可用性。
尽管这些基本信息很重要,但它不能提供异常的根本原因或解决(更不用说防止)中断所需的具体补救措施。
第2阶段:服务监控
服务监控阶段更深入地询问“它是否有效”这里,收集指标和监控性能有助于评估服务的有效性,而不仅仅是确定其状态。
第三阶段:诊断
第三个阶段解决了一个更大的问题:“问题是什么”依赖关系映射、分布式跟踪和根本原因分析()操作都在确定问题、原因以及需要解决什么方面发挥作用。
第4阶段:
商业洞察力
有了基本的运营要求,第4阶段将重点放在客户旅程和上,以回答关键问题:受监控的应用程序和服务的性能如何影响更终用户这对业务有什么影响
第五阶段:自动驾驶解决方案
更后阶段通过智能自动化定义持续优化和改进。这一成熟阶段通过自动化和人工智能辅助的可观测性(动态系统的自动检测和基线、可靠的根本原因分析和自动维修工作流程)集成了前几个阶段的目标,以增强运行结果并防止可能导致中断的问题。
2.
自动化基础设施监控
了解其监控成熟度后,组织可以制定策略,使用其数据自动化更多操作。这种战略取决于实现三种能力的能力:
跨多种技术的端到端可观测性
自动监测的首要要求是整个网络的综合可观测性。
软件交付生命周期()每个阶段的自动化
自动化整个数据生命周期需要能够检测数万台主机,包括高度动态和瞬态(即服务功能)组件。它还需要用于异常检测和准确根本原因分析的性能基线,
这不仅取决于度量、日志和跟踪,还取决于每个事务的上下文,包括用户数据。
自动问题解决
自动主动式问题解决需要智能、系统优化和用户体验数据,以便于理解每个事务的上下文和业务影响。为了提供准确的根本原因分析,人工智能应该是监测解决方案的核心组成部分。要自动触发维修工作流,系统运行状态和异常数据必须准确可靠。
3.在单个平台上进行综合监控
使用来自许多不同来源的遥测数据,
团队可能很难完全理解他们的应用程序和依赖关系。单个集成的可观测性平台支持运营、开发、安全和业务团队之间的协作,因此他们可以轻松地协调和做出决策,并基于相同的数据自动化更多的流程。
这种平台方法不需要团队消除其单点解决方案。该平台不允许团队采用单一平台,而是可以从任何环境中的任何点解决方案获取数据,从本地基础设施中的遗留软件到云环境中基于微服务的应用程序。
由于不同的团队跨不同的学科实施了单点解决方案基础架构监控工具,因此他们有一个平台来集成他们的数据和上下文,以便他们能够获得新的见解,并在创新上花费更多的时间。
本文来源 :用友畅捷通全国服务联盟,原文地址:/yonyou/whyyrj110/3492.html