冗余理论是什么意思啊(冗余理论是什么意思解释)

虽然容错控制的研究面临着前空的挑战，但近年来，相关研究领域的深入和发展，如鲁棒控制理论、模糊控制和神经网络控制等，也为容错控制的研究带来了良好的机遇和提供了充分的条件。

随着计算机控制技术、人工智能等技术的快速发展，容错控制技术在实际工程中应用的可能性越来越大。

第一，容错

通常有两种方法来提高系统的可靠性:

1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。

采用前一种方法来提高系统的可靠性是有限的，必须采用容错技术来进一步提高。

容错控制技术在国外发展较早，由冯·诺依曼提出。随着80年代微型计算机的迅速发展和广泛应用，容错技术也得到迅速发展，容错技术被应用到各种环境中。中国的容错技术现在发展很快，航空航天、电厂等一些重要的工作场合都采用了容错技术。

容错是指当设备的一个或多个关键部件发生故障时，能够自动检测和诊断，并采取相应的措施保证设备维持其规定的功能，或者牺牲其性能以保证设备在可接受的范围内继续工作。

错误通常分为两类:

第一类是先天性的固有误差，比如元器件的生产和电路、程序的设计造成的误差。这种错误需要清除、替换或纠正，这是不能容忍的。

第二种故障是获得性故障，是设备运行中的缺陷导致的故障。这种故障是短暂的、间歇性的、永久性的。

容错技术是提高系统可靠性的重要途径。常用的容错方法有硬件容错、软件容错、信息容错和时间容错。

1.什么是“智能容错”

智能容错IFT(Intelligent Fault-Tolerance):在设备的一个或多个关键部件在运行过程中发生故障或即将发生故障之前，利用人工智能理论和方法，采取有效措施自动补偿、抑制、消除和修复故障，以保证设备继续安全、高效、可靠地运行，或以性能损失为代价，保证设备在规定时间内完成预定功能。

智能容错技术的组成方法可以通过以下三个步骤来实现:

（1）建立系统的设计目标；（2）设计智能容错处理机构；（3）根据设计目标对所作的设计进行评价，如果满足目标则设计成功，否则将返回第二步进行重新设计，直到满足设计目标要求。

硬件容错HIFT(hardware intelligent fault tolerant)主要采用硬件冗余技术。其基本思想是在设备的关键部件上配备多个相似或相同的部件，一旦检测到设备故障并进行诊断，可以立即切换到备份部件上，从而达到容错的目的。图1显示了两种冗余结构的示意图:

编辑

图2冗余结构示意图

2.硬件智能容错模式的分类

智能硬件容错按其工作模式可分为静态冗余、动态冗余和混合冗余。

静态冗余容错是通过投票和比较来屏蔽系统中的故障，如图2所示:

编辑

图2三模冗余(静态冗余)TMR系统结构图

静态冗余容错的主要特点是:

（1）由于故障被屏蔽，所以不需要识别故障；（2）容易与无冗余系统进行转换；（3）所有模件都消耗能量。

动态冗余的主要方式是多个模块相继运行，以维持设备的正常运行。当检测到工作模块出现故障时，备用模块会立即接管故障模块并开始运行。

动态冗余容错控制的主要特点是:

（1）仅有一个模件消耗能量；（2）模件数目可随任务而改变，不会影响系统工作；（3）转换装置和检测装置中任一故障都会导致系统失效。

编辑

图3动态冗余容错控制结构图

混合冗余结合了动态冗余和静态冗余的优点，通常用H(n，k)表示，如图4所示。图中，V为表决器，N代表模块总数，K代表通过表决实现静态冗余的模块数量，其余N-K个模块作为表决系统中模块的备份。在k个模块中进行表决(通常k >: =3)当一个模块出现故障时，备份将代替该模块进行表决，并保持静态冗余系统的完整性。当所有备份被替换时，该系统成为通用投票系统。

例如，在由硬件构成的逻辑系统中，表决器是由开关电路实现的，而在软件中，表决需要由软件断言(SA)来实现。软件断言是软件在宿主系统中运行时判断其进程或功能是否正确的条件。

编辑

图4 H(n，k)系统结构

3.智能容错故障处理模式

智能容错技术是一项具有广泛外延的综合技术。为了消除故障的影响，可采用以下处理方法:

（1）故障检测

故障检测可以快速准确地定位故障。故障检测是容错的基础。故障检测方法有两种:离线检测，即检测时系统不能做有用的工作，在线检测，即检测与系统工作同步，具有实时检测的能力。

（2）故障定位

在给定的故障条件下，找出故障原因，确定故障部件的具体位置。定位的详细程度视具体问题而定，一般定位到系统重构所需的最小单元。

（3）故障屏蔽

故障屏蔽可以掩盖故障影响，防止故障影响输出。故障屏蔽只能容忍故障，不能给出故障预警。当冗余资源耗尽时，设备会产生错误输出。

常见的故障屏蔽方法有两种:多模式表决冗余和屏蔽逻辑。多模式表决冗余是指只要至少有一台设备正常工作，系统就能完成其功能。屏蔽逻辑主要用于门级电路的故障屏蔽，可以有效限制逻辑电路门输出的临界和亚临界故障。

（4）故障限制

限制是指定故障的传播范围，将故障影响的传播限制在某个区域。故障限制可以通过软件和硬件来实现。

（5）故障隔离

故障隔离就是隔离故障，防止故障进一步蔓延，影响设备。

（6）故障修复

当设备出现故障并被检测定位后，可以进行更换、维修和自修复。

（7）系统重组

当设备出现故障时，可以通过重新分配任务或重组内部设备来移除或替换故障部件。

（8）系统重构

重构是将修复后的模块重新添加到系统中。

（9）系统恢复

系统的恢复是通过屏蔽和重组，使故障恢复到故障前的工作状态，不丢失或少丢失信息，保证下一步的正常运行。系统恢复通常由软件实现。

4.智能容错的实现方法。

智能容错的实现方法包括:故障信号检测；(2)故障特征识别；(3)故障状态预测；(4)故障维修决策；(5)容错控制。

容错的目的是根据不同的故障源和故障特征，采取相应的容错措施，对故障进行补偿、消除或自动修复，以保证设备能够继续安全可靠地运行，或者以性能损失为代价，保证设备能够在规定的时间内完成其基本功能。结构框图如图5所示。

编辑

图5容错控制过程框图

第二，冗余技术

所谓冗余就是冗余的资源，冗余的技术可以用来处理故障。冗余技术分为:

(1)硬件冗余方法:

硬件HR(Hardware Redundancy)就是通过附加硬件的冗余和互补来实现容错。额外的硬件通常是储备的形式。当设备的一个或几个关键部件发生故障时，可以用备份硬件来代替故障部件，以减弱或消除故障的影响。

(2)软件冗余方法:

SR(软件冗余，Software Redundancy)可以通过增加软件功能来实现，包括修改容错控制策略、重构系统软件、有效降低设备运行速度、多模块并行诊断决策等。

冗余技术是指实现上述荣誉所需的额外资源和技术，包括程序、指令、数据以及存储和调动它们的空房间和通道。如同硬件冗余中的冗余备份一样，它们在无容错的系统中是不必要的，但在容错系统中是必不可少的。在旨在屏蔽硬件故障的容错技术中，冗余附加技术包括:

1）关键程序和数据的荣誉存储和调用；2）进行检测、表决、切换、重构、纠错、复算的实现。在屏蔽软件故障的容错系统中，冗余附加件的构成不同。

冗余附件包括:

1）独立设计的相同功能冗余备份程序的存储及调用；2）实现纠错误检测及恢复的程序；3）为实现容错软件所需固化了的程序。

随着超大规模集成电路和超大规模集成电路的发展，冗余和容错技术的发展现状大大提高了硬件的可靠性但大大降低了价格，使得采用各种容错技术在经济上更容易被接受。

容错技术的应用范围扩展到银行交易处理和各种实时控制系统，甚至许多通用计算机系统都采用了容错技术。20世纪七八十年代，容错技术得到广泛应用，如1975年贝尔实验室的3A ESS处理系统和美国的TANDEM16容错事务处理系统，1976年美国的AMDAHL470V/6容错通用计算机和FTSC；1978年容错空互机。1979年，BIM推出容错4300通用计算机系列；1980年，容错多处理器FTMP和软件实现的容错计算机sift研制成功等等。

随着电子交易的日益普及，出现了商用容错计算机市场和分布式容错计算机系统。容错VLSI技术和人工智能在容错技术——计算机故障诊断专家系统中的应用，为冗余容错技术的发展增添了新的活力。

冗余和容错技术理论的研究也相当活跃。1952年，冯·诺依曼就利用重复逻辑模块提高系统可靠性做了一系列报告。1956年发表论文《概率逻辑与用不可靠的部件设计可靠的结构》。

自1971年以来，IEEE计算机学会容错技术委员会每年都要召开一次容错计算国际学术会议。1987年，中国计算机联合会成立了容错计算专业委员会等。基于容错控制(TFC)的基本思想，FTC研究主要包括被动容错控制(Passives)和主动容错控制(Activate)。

主动容错控制的基础是控制系统的故障检测和故障诊断。FDD链路在检测到系统故障时，重新调整控制器参数甚至改变控制器结构，在保证系统稳定性的前提下，尽可能恢复系统故障前的性能。被动容错控制就是设计一个具有容错能力的强鲁棒控制器。无源容错控制的研究可以充分利用鲁棒控制技术的研究成果，并且不受FDD发展水平的限制，因此无源容错控制的研究成果很多。

1.主动容错控制

主动容错控制一般需要两个基本步骤:控制系统的故障检测、诊断和隔离以及控制系统的重构。

控制故障检测、诊断与隔离是基于现代控制理论、可靠性理论、数理统计、信号处理技术、模式识别技术、人工智能和计算机控制技术的一门应用前沿学科。FDD技术是容错控制的重要支撑技术之一。

由于控制系统故障诊断问题的复杂性和相关领域技术水平的限制，虽然对它的研究已经达到了一定的水平，但是仍然没有特别有效的方法来解决这个问题。

目前，对控制系统故障诊断的研究主要基于模型和知识。

系统重构的方法主要包括:控制律重调度、控制器重构设计和模型跟踪重构控制。控制律重调度的基本思想是离线计算各种故障情况下所需的控制律增益参数，并存储在计算机中。根据FDD单元给出的结果，系统选择合适的增益参数，实现对各种故障的容错控制。控制器重构设计是根据故障系统的新环境，重新设定系统的工作点，给出一个能提高系统性能的新控制器。现有的控制器重构方法主要包括基于直接状态反馈或输出反馈的方法，以及基于动态补偿器的设计方法。模型跟踪重组控制的基本原理是采用模型参考自适应控制的思想，使被控过程的输出能够自适应地跟踪参考模型的输出，所以这种容错控制不需要FDD单元。

在主动容错控制方法中，基于人工智能的容错控制方法能够更好地将FDD链路与系统重构结合起来。容错控制采用的人工智能方法主要是ANN(人工神经网络(Artifictial Neural Network，ANN)，利用ANN对非线性特性的任意逼近能力，以及从样本中学习、总结、推理的能力。通过训练，ANN可以准确估计故障的大小，进而通过故障补偿实现主动容错控制。

被动容错控制在目前容错控制的研究中，被动容错控制由于不受控制系统DFD的限制，比主动容错控制更容易实现。现有的实现被动容错控制的主要方法有:

控制器设计，同步稳定和可靠稳定。

内啮合控制的概念是由Niederlinski在1971年提出的。完整性控制是最早的容错控制技术。由于传感器和执行器是控制系统中最容易发生故障的部件，因此完整性控制具有很高的应用价值。在控制理论中，多变量系统出现故障时能保持系统稳定的控制器称为完整性控制器，完整性控制器的设计是多变量系统特有的问题。

多模型设计方法也称为同时镇定问题。自从Ackermann，soos和Vidyasagar提出它以来，它已经成为容错控制的一个重要研究方向。同时，稳定容错控制的设计方法是试图找到一个公共的状态反馈控制器，它能在故障条件下同时稳定尽可能多的系统模型，同时兼顾系统的动静态品质特性的要求。青贮饲料在1980年首次提出了使用多个补偿器实现可靠稳定的概念。可靠稳定实际上是关于控制器的容错性。

与被动容错控制相比，主动容错控制更具优势。从理论上讲，被动容错控制是故障条件下的强鲁棒控制，而主动容错控制是故障条件下的强自适应控制。被动容错控制的控制率即使在系统正常时也要满足故障条件的要求，这在系统正常时显然是过分的要求。设计太保守，肯定是以牺牲性能指标为代价的。另外，当期望故障数较大时，被动容错控制问题可能根本无法解决，因此被动容错控制有很大的局限性。

基于控制系统故障诊断的主动容错控制本质上是一种强自适应控制。它实时检测和诊断系统的故障，然后根据不同的故障采取相应的措施，保证系统的稳定性，维持一定的性能指标。主动容错控制的主要方法是控制重构和故障补偿。前者需要根据故障重新设计控制器，而后者利用故障的信息来确定一个控制补偿量。目的是尽量使故障后的系统尽可能接近甚至等于原系统。

对于所谓的演化速度慢的软故障，多模自适应方法更为适用，但多模自适应方法存在很多算法问题，限制了这种方法的使用。

2.容错控制研究中需要解决的主要问题。

虽然控制系统的FDD和TFC技术的研究在理论上已经取得了丰富的成果，但是离实际工程应用的要求还很远，理论上还有很多问题需要研究和探索。

本文主要研究实时系统的多机冗余、容错系统的故障检测与诊断、控制系统重构、容错实时运行时技术以及容错控制在工程中的应用等问题。在目前的研究中，上述领域的主要问题如下:

(1)控制系统故障检测和诊断中存在的问题:

控制系统故障模型是理论FDD研究的前提，但现有的故障建模方法简单，这与实际系统故障的复杂性和多样性是一对亟待解决的矛盾。目前，FDD和FTC中没有统一的故障表示方法。就CPU测试而言，大多数结构化测试方法都需要详细的系统逻辑电路图，并在此基础上建立故障模型。

通过验证电路中不存在符合故障模型的故障，结构法表明电路中不存在影响电路功能的实际物理故障。由于微处理器是大规模集成电路，输入输出引线有限，内部结构极其复杂，很难在逻辑门级别建立准确的故障模型。另一方面，由于引线数量的限制，故障的可控性和可观性大大降低；另外，控制逻辑部分和数据处理逻辑部分都在同一个芯片上，无法事先假设哪个部分总是好的。

(2)系统重构中的主要问题:

目前，对系统重构的研究很少。现有的方法采用广义逆，基于状态反馈或输出反馈，特征值和结构配置等。，只是从数学模型的角度来还原系统，而不是从系统性能的角度来还原，所以重建系统的鲁棒性无法保证，有时甚至稳定性也难以保证。而且，大多数重构对系统模型有严格的要求。就目前控制系统的FDD研究水平而言，获取故障后系统模型的全部信息是相当困难的，所以寻求故障后控制的完全重构是比较理想的。由于断层的大小未知，所以在设计中很难进行稳定性分析。只能分析预期的故障。

(3)实时系统与容错技术结合存在的主要问题:如何将软件容错技术有机地融入到实时系统中，与开发软件容错技术本身同样重要。

目前，虽然实时系统的软件容错技术已经取得了很大的进展，但是还没有完全应用到实时系统中。

(4)用户在冗余容错系统设计中存在的主要问题:应用设计者在考虑如何实现应用软件的功能需求的同时，还要考虑软件容错，这必然甚至成倍增加应用系统开发的工作量，增加系统的复杂性，增加应用出错的可能性。应用层将容错机制的实现与应用程序集成在一起。当需要在同一操作系统上开发新的应用时，所有工作都必须从零开始，这不符合工程实践中提高软件复用性、开发低成本高可靠性系统的大趋势。

(5)容错控制理论应用于工程实践需要解决的问题:容错控制在理论上研究比较困难，在实际工程中较少。因为不同工程领域遇到的问题差别很大，不可能用一个统一的框架来解决所有的问题。理论研究中使用的模型和假设与工程实践中的存在较大差异，这也是容错控制理论在工程实践应用中遇到的主要困难。各个领域的工程技术人员应根据自己的工程实践选择相应的控制方案。因此，对于工程设计人员来说，统一系统架构，构建支持多种主流冗余和容错模式的运行时是非常重要的。

-文章转自微信微信官方账号《生活品质讲座》

-飞影无限实时SPC软件解决方案提供商。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。

作者：美站资讯，如若转载，请注明出处：https://www.meizw.com/n/327494.html