扩展您的高可用性指标

Date: 9月 20, 2020

在技术领域，我们喜欢数据。我们喜欢有关数据的数据以及我们工具可以带来的所有指标和度量。我们围绕分析技术创建了行业，这些产品可以捕获数千个已连接设备的每个细节。我们喜欢指标和措施。在更高可用性空间中的许多情况下，我们喜欢高可用性指标，这些指标告诉我们系统从故障中恢复的速度。我们计算并跟踪检测和修复之间的时间，我们着迷于了解和衡量在灾难，系统故障或磁盘崩溃中会丢失多少事务数据。

具有讽刺意味的是，在高可用性和灾难恢复（HA / DR）系统中，有些指标没有引起足够的重视。

以下是管理环境时应注意的其他八个高可用性指标：

1。安全警报

可用性不仅涉及应用程序监视和恢复。公开可用的系统总是受到攻击。如果您不监视安全警报和警告，则您的应用程序可能会完美运行，而您的知识产权却可以完美无缺地被转移。

2。空闲连接

空闲的连接听起来无害，但它们几乎和南部草坪上的绿叶葛根一样无害。空闲连接会占用资源，并有可能填满数据库池，拥塞网络和窒息性能。此外，空闲连接可能表明应用程序层或数据库配置存在问题。

3。长期运行的查询，命令或作业

这不仅适用于数据库查询或作业，还适用于命令和备份。长时间运行的查询，命令和作业可能表明系统运行状况不佳，磁盘速度降低，CPU或其他资源争用，或者系统，应用程序兼容性或操作系统存在更深层次的问题。

4。磁盘IO

磁盘IO通常是指与磁盘活动有关的系统的输入/输出操作。测量磁盘I / O可以帮助发现瓶颈，给定工作负载的硬件配置不正确，磁盘大小不正确或磁盘布局调整不当。监视磁盘I / O可以帮助您告诉您长时间运行的查询是否是由于不良的sql语法，不良的应用程序编码或延迟和访问问题引起的。

5，记忆

我们都考虑要使用多少内存，但是内存监视不只是衡量和查看可用内存还是已使用内存。监视内存可帮助您调查瓶颈，泄漏，识别大小不正确的系统，了解负载，平均负载和峰值。此外，了解内存密集型模式可以帮助您调整可用性套件，以避免错误的故障。

6。磁盘空间

作为客户体验副总裁，我曾经有过一次很不幸的经历，要在清晨醒来紧急呼叫。停电后，客户面临停机生产系统。当他们尝试重新启动系统时，受保护的应用程序无法启动。快速检查错误日志后，很明显根驱动器已100％充满。该应用程序无法写入任何文件系统。磁盘空间监视有多种形式和方法，将其作为度量标准可以防止不必要的问题和增加更多成本的最后一刻争夺。。

7 错误和警报

日志中的错误，警报和恢复消息是要考虑的另一个很好的指标。您的可用性解决方案可能会使您的客户保持在线状态并感到满意，但也可能掩盖了需要尽快引起您注意的问题。为FATAL，PANIC和关键ERROR消息添加日志监视可以帮助您确定可用性解决方案经常从中恢复的问题，例如数据库崩溃，应用程序紧急情况或核心转储，或者需要冷重启的致命错误。

8。恢复编号

与监视错误和警报类似，恢复编号可以告诉您很多有关系统可用性的信息。如果您平均每周要进行一次以上的应用程序恢复，则可能会遇到比正常的可用性保护更多的事情。尽管恢复成功地重启了您的应用程序或系统，但这些错误甚至真实的恢复中有太多是不健康的。

我们可以监控的HA / DR指标列表以及用于监控它们的工具正在飞速发展。确保您和您的团队考虑扩展当前的数据捕获和分析，以包括那些可能构成最佳更高可用性系统的数据。

—客户体验副总裁Cassius Rhue

经SIOS许可转载

扩展您的高可用性指标

Date: 9月 20, 2020