面试时是不是了解分布式就看你懂不懂“心跳

在分布式系统中，各种问题难免会发生。

硬件出现故障，软件崩溃，或者网络连接中断。

无论你是在线看你最喜欢的节目，进行在线购物，还是查看你的银行余额，你都是依赖于一个复杂的、各服务相互连接的网络。

那么，我们如何知道一个特定的服务是否存活并且按预期工作呢？

心跳机制就是用来解决这个问题的。

在这篇文章中，我们将了解心跳是什么，为什么它们重要，它们是如何工作的，以及它们在实际中的应用示例。

什么是心跳？

在分布式系统中，心跳是从一个组件到另一个组件的定期消息，用于监控彼此的健康和状态。

其主要目的是向外发出"嘿，我还在这里并且正在工作！"的信号。

这个信号通常是一小包数据，定期传输，通常从几秒钟到几分钟不等，具体取决于系统的需求。

我们为什么需要心跳？

如果没有心跳机制，我们很难快速地检测到分布式系统中的故障，这会导致：

故障检测和恢复延迟。

增加了系统停机和错误的可能性。

降低了整体系统的可靠性。

心跳可以帮助我们进行：

监控：心跳消息有助于监控分布式系统各部分的健康和状态。检测故障：心跳使系统能够识别组件何时变得无响应。如果一个节点连续多次未按预期收到心跳，就说明可能出了问题。触发恢复操作：心跳让系统能够采取纠正的行动。这可能意味着向健康节点转移任务，重新启动失败的组件，或者通知系统管理员需要介入。负载均衡：通过监控不同节点的心跳，负载均衡器可以根据每个节点的响应性和健康状况更有效地在网络中分配任务。心跳是怎么工作的？

心跳机制涉及到两个主要组件：

心跳发送者（节点）：这是发送定期心跳信号的节点。心跳接收者（监视器）：这个组件接收并监视心跳信号。

下面是该过程的简化概述：

节点定期向监视器发送心跳信号（例如，每30秒一次）。监视器接收心跳信号，并更新节点的状态为"活动"或"可用"。如果监视器在预期的时间范围内未收到心跳信号，它将把节点标记为"无法使用"或"失败"。然后系统可以采取适当的操作，如重新路由流量，启动故障转移程序，或通知管理员。

虽然在概念上很简单，但心跳实现还有一些细微的问题：

频率：心跳应该多久发送一次？需要进行平衡。如果发送得太频繁，它们会占用太多的网络资源。如果发送的频率过低，可能需要更长的时间来检测问题。超时：一个节点应该等待多长时间才认为另一个节点已经"死亡"呢？这取决于预期的网络延迟和应用需求。如果时间过短，可能会误判活节点为死节点，如果时间过长，可能需要更长的时间来恢复问题。负载：心跳通常只包含一些信息，如时间戳或序列号。但是，它们也可以携带额外的数据，比如一个节点当前正在处理多少负载，健康度指标，或版本信息。

心跳的类型主要有两种：

推式心跳：节点主动向监视器发送心跳信号。拉式心跳：监视器定期查询节点的状态。挑战与注意事项

虽然心跳是保持系统完整性的基础部分，但它并非没有挑战：

网络拥塞：如果没有正确管理，持续的心跳信号流可能会导致网络拥塞。误报：配置不当的心跳间隔可能会导致故障检测出现误报，其中一种慢但仍在运行的组件被错误地识别为失败的组件。资源使用：持续的监控需要计算资源，必须进行优化以防止对系统造成过大的压力。分裂场景：在一些罕见的情况下，网络故障可能会将系统划分为独立的部分，而双方或许都会声明对方已经"死亡"。这就需要更复杂的故障处理机制。心跳在实际应用示例数据库复制：主数据库和副本数据库经常交换心跳，以确保数据同步，并在主数据库无响应时触发故障转移。Kubernetes：在Kubernetes容器编排平台中，每个节点定期向控制平面发送心跳来表明其可用性。控制平面使用这些心跳来跟踪节点的健康状况，并相应地做出调度决定。Elasticsearch：在Elasticsearch集群中，节点交换心跳来形成一个gossip网络。这个网络使节点能够发现彼此，共享集群状态信息，并检测节点故障。

心跳是保持分布式系统活动和良好协调的无形脉冲。

所以下次当你遇到一个分布式系统时，花一点时间来欣赏那些无声的守护者——心跳——它们不辞辛劳地保持系统的脉搏稳定而有力。如果您对我的文章感兴趣不妨关注下，或者通过我编写的技术专栏了解更多深度的技术知识点。如果您面试高级职位想得到更多核心高级面试技巧可以通过我的专栏快速搞定一线大厂知识脉络和面试常用题。

DC生肖网

面试时是不是了解分布式就看你懂不懂“心跳

超级欧派课程