容错是一个依赖于系统内元素失效的系统。它也可以称为失效安全设计。例如,在其中一个电源发生失效后,容错系统可能会继续正常运行。或者它可能在减少或退化的状态下运行。其他系统可能具有“跛行回家”状态,允许系统保存关键数据或允许您开车到安全的地方更换漏气的轮胎。在某些情况下,彻底的系统失效是不可接受的。
通信、银行、空中交通管制、运输和许多其他领域都有系统,一旦发生失效,可能会导致灾难性的后果。创建一个可能会遇到组件、子系统或软件失效的系统,并且该系统能够以通常非常需要的某种能力继续运行。
容错系统的基本特征
容错系统可能具有以下一个或多个特征:
无单点失效
这意味着如果电容器、软件代码块、电机或任何单个项目发生失效,则系统不会发生失效。例如,许多医院都有备用电源系统,以防电网出现失效,从而使医院内的关键系统保持运行。
关键系统可能有多个冗余方案来保持高水平的容错和弹性。
没有单点修复会导致系统宕机
例如,扩展单点失效的想法,实现失效组件的修复不需要关闭系统。
这也意味着系统在维修期间保持在线和运行。这可能会给系统的设计和维护带来挑战。热插拔电源是修复操作的一个示例,它可以在更换失效电源的同时保持系统运行。
失效隔离或识别
该系统能够识别系统内何时发生失效,并且不允许失效元件对功能产生不利影响(即丢失数据或在银行系统中产生逻辑错误)。识别并隔离失效元件。
系统的某些部分可能具有检测失效的唯一目的,内置自测试(BIST)就是一个例子。
失效遏制
当发生失效时,可能会损坏系统内的其他元件,从而造成第二个或第三个失效和系统失效。
例如,如果模拟电路发生失效,则可能会增加系统中的电流,从而损坏无法承受高电流条件的逻辑电路。失效遏制的想法是避免或尽量减少由单点失效引起的附带损害。
鲁棒性或变异性控制
当系统遇到单点失效时,系统就会发生变化。
更改可能会导致暂时或永久的更改,从而影响系统的工作元素如何响应和运行。变化会发生,当发生失效时,变化通常会增加。
例如,当两个电源中的一个发生失效时,其余电源将承担全部电力需求。这种转变应该在不影响系统性能的情况下发生。设计和制造稳健系统的能力可能涉及六西格玛设计、实验优化设计和其他工具,以创建能够在发生失效时运行的系统。
恢复状态操作(回退或跛行)
当发生失效时,系统可以通过多种方式改变其性能,从而使系统能够以某种方式继续运行。
例如,如果计算机的部分冷却系统出现失效,中央处理器(CPU)可能会降低其速度或命令执行率,从而有效地减少CPU产生的热量。fail失效会导致冷却能力损失,CPU会进行调整以适应并避免过热和失效。其他还原方案可能包括回滚到先前的工作状态,或切换到先前或安全模式软件集。
在某些情况下,系统可能能够在没有或只有最小功能损失的情况下操作员,或者恢复操作将系统操作显着限制在关键的几个功能上。
概括
尽管系统内任何单个元件发生失效,系统仍能继续运行的能力意味着该系统不在串联配置中。
有一组冗余或一组替代方法可以继续运行。系统可以使用多个冗余元素,或者对系统配置的变化具有弹性。
创建容错系统的适当解决方案通常需要仔细规划,了解元素如何发生失效以及失效周围元素的影响。
暂无评论哦,快来评论一下吧!