Hata toleransı - Fault tolerance

Hata toleransı sağlayan özelliktir sistemi bazı bileşenlerinin arızalanması (veya içinde bir veya daha fazla arıza olması) durumunda düzgün çalışmaya devam etmek. İşletim kalitesi hiç düşerse, küçük bir arızanın bile tamamen arızaya neden olabileceği saf bir şekilde tasarlanmış bir sisteme kıyasla, azalma arızanın ciddiyetiyle orantılıdır. Hata toleransı özellikle yüksek kullanılabilirlik veya yaşamsal kritik sistemler. Bir sistemin bazı bölümleri bozulduğunda işlevselliği sürdürme yeteneği, zarif bozulma.^[1]

Bir hataya dayanıklı tasarım sistemin bir parçası olduğunda, sistemin tamamen başarısız olmak yerine, muhtemelen daha düşük bir seviyede amaçlanan çalışmasına devam etmesini sağlar. başarısız.^[2] Terim en yaygın olarak tanımlamak için kullanılır bilgisayar sistemleri belki de bir azalma ile az ya da çok tam olarak çalışmaya devam etmek için tasarlanmış çıktı veya artış Tepki Süresi bazı kısmi başarısızlık durumunda. Yani bir bütün olarak sistemdeki sorunlar nedeniyle durdurulmamaktadır. donanım ya da yazılım. Başka bir alandaki bir örnek, lastiklerden biri delindiğinde sürülebilecek şekilde tasarlanmış bir motorlu taşıt veya aşağıdaki gibi nedenlerden dolayı hasar varlığında bütünlüğünü koruyabilen bir yapıdır. yorgunluk, aşınma üretim kusurları veya etki.

Bir kapsamında bireysel sistem, hata toleransı, istisnai koşullar öngörülerek ve bunlarla başa çıkmak için sistemi kurarak ve genel olarak amaçlayarak elde edilebilir. kendi kendine stabilizasyon böylece sistem hatasız bir duruma yaklaşır. Bununla birlikte, bir sistem arızasının sonuçları felaketse veya onu yeterince güvenilir hale getirmenin maliyeti çok yüksekse, daha iyi bir çözüm bir tür çoğaltma kullanmak olabilir. Her durumda, bir sistem arızasının sonucu o kadar felaketse, sistem güvenli moda geri dönmek için geri dönüşü kullanabilmelidir. Bu, geri alma işlemine benzer, ancak döngüde insanlar varsa bir insan eylemi olabilir.

Tarih

Bilinen ilk hataya dayanıklı bilgisayar, SAPO, 1951 yılında inşa edilmiştir. Çekoslovakya tarafından Antonín Svoboda.^[3]^:155 Temel tasarımı manyetik tamburlar bir oylama yöntemi ile röleler aracılığıyla bağlanır hafıza hatası tespit etme (üçlü modüler artıklık ). Bu hat boyunca, çoğunlukla askeri kullanım için birkaç başka makine geliştirildi. Sonunda, üç farklı kategoriye ayrıldılar: bakım gerektirmeden uzun süre dayanabilecek makineler, örneğin üzerinde kullanılanlar NASA uzay Araştırmaları ve uydular; izlemek ve kontrol etmek için kullanılanlar gibi çok güvenilir ancak sürekli izleme gerektiren bilgisayarlar nükleer enerji santralleri veya Süper çarpıştırıcı deneyler; ve son olarak, kullandığı süper bilgisayarların çoğu gibi yoğun kullanımda olabilecek yüksek miktarda çalışma süresine sahip bilgisayarlar sigorta şirketleri onların için olasılık izleme.

LLNM (Uzun Ömürlü, Bakım Yok) hesaplamasındaki gelişmelerin çoğu, 1960'larda NASA tarafından yapıldı.^[4] hazırlık aşamasında Apollo Projesi ve diğer araştırma yönleri. NASA'nın ilk makinesi bir uzay gözlemevi ve ikinci denemeleri olan JSTAR bilgisayarı, Voyager. Bu bilgisayar, bellek kurtarma yöntemlerini kullanmak için bellek dizilerinin bir yedeğine sahipti ve bu nedenle, JPL Kendi Kendini Sınama ve Onarım bilgisayarı olarak adlandırıldı. Kendi hatalarını tespit edebilir ve bunları düzeltebilir veya gerektiğinde gereksiz modüller getirebilir. Bilgisayar bugün hala çalışıyor^{[ne zaman? ]}.

Hiper-güvenilir bilgisayarların öncülüğünü çoğunlukla uçak üreticiler,^[3]^:210 nükleer güç şirketler ve demiryolu endüstrisi ABD'de. Bunlar, büyük miktarda çalışma süresine sahip bilgisayarlara ihtiyaç duydu. zarafetle başarısız olmak Bilgisayar çıktısının arızaları tespit etmek için sürekli olarak insanlar tarafından izleneceği gerçeğine güvenerek devam eden çalışmaya izin vermek için yeterli bir hata. Yine IBM, bu türden ilk bilgisayarı NASA için geliştirdi. Satürn V roketler, ama daha sonra BNSF, Unisys, ve Genel elektrik kendi yaptıklarını.^[3]^:223

1970'lerde sahada çok iş yapıldı.^[5]^[6]^[7] Örneğin, F14 CADC vardı yerleşik kendi kendini sınama ve fazlalık.^[8]

Genel olarak, hataya dayanıklı tasarımlardaki erken çabalar, esas olarak bir arızanın bir şeyin başarısız olduğunu göstereceği ve bir çalışanın onu değiştirebileceği dahili teşhise odaklandı. Örneğin SAPO, arızalı bellek tamburlarının arızadan önce bir gürültü çıkaracağı bir yönteme sahipti.^[9] Daha sonraki çabalar, tam anlamıyla etkili olabilmesi için sistemin kendi kendini onarması ve teşhis etmesi gerektiğini gösterdi - bir arızayı izole ediyor ve ardından bir onarım ihtiyacını bildirirken yedekli bir yedekleme uyguluyor. Bu, arızaların otomatik arıza korumalarına ve operatöre bir uyarıya neden olduğu N modeli yedeklilik olarak bilinir ve günümüzde kullanılan birinci seviye hataya dayanıklı tasarımın en yaygın biçimidir.

Oylama, yukarıda tartışıldığı gibi, sürekli çalışan ve birbirlerinin sonuçlarını kontrol eden birden fazla yedek yedeğin olduğu başka bir başlangıç yöntemiydi; örneğin, dört bileşenin 5 yanıtını rapor etmesi ve bir bileşenin 6 yanıtını bildirmesi durumunda diğer dördü Beşinci bileşenin hatalı olduğuna ve hizmet dışı bırakılmasına "oy verecek". Buna N çoğunluk oylamasından M denir.

Tarihsel olarak, sistemlerin karmaşıklığı ve hata negatiften hatalı pozitif duruma geçiş durumunu sağlamanın zorluğunun operasyonları kesintiye uğratmaması nedeniyle hareket her zaman N modelinden daha fazla ve N'den M'ye doğru ilerlemek olmuştur. .

Tandem ve Stratus hataya dayanıklı bilgisayar sistemleri tasarımında uzmanlaşmış ilk şirketlerdendi çevrimiçi işlem işleme..

Terminoloji

Şeffaflığa sahip bir görüntüde tasarım gereği zarif bir bozulma örneği. En üstteki iki görüntünün her biri, birleşik görüntünün saydamlığı tanıyan bir görüntüleyicide görüntülenmesinin sonucudur. En alttaki iki resim, saydamlığı desteklemeyen bir izleyicinin sonucudur. Saydamlık maskesi (orta alt) atıldığından, yalnızca kaplama (orta üst) kalır; soldaki resim incelikle küçültülmek üzere tasarlanmıştır, dolayısıyla şeffaflık bilgisi olmadan da anlamlıdır.

Hataya son derece dayanıklı bir sistem, bir veya daha fazla bileşen başarısız olsa bile aynı performans düzeyinde devam edebilir. Örneğin, yedek bir elektrik jeneratörüne sahip bir bina, şebeke gücü kesilse bile duvar prizlerine aynı voltajı sağlayacaktır.

İçin tasarlanmış bir sistem güvenli başarısız veya güvenli olmayan veya zarafetle başarısız olmak, ister düşük düzeyde çalışsın ister tamamen başarısız olsun, bunu insanları, mülkleri veya verileri yaralanma, hasar, izinsiz giriş veya ifşadan koruyacak şekilde yapar. Bilgisayarlarda, bir program, bir zarif çıkış (kontrolsüz bir çökmenin aksine) bir hata yaşandıktan sonra veri bozulmasını önlemek için. Benzer bir ayrım, "iyi başarısız olma" ve "fena halde başarısız olmak ".

Başarısız ölümcül sistemin bir kısmı hasar görmüş veya yok edilmiş olsa bile hedefleri öldürmek veya yaralamak için tasarlanmış silah sistemlerinde kullanılabilen tam tersi stratejidir.

Deneyimlemek için tasarlanmış bir sistem zarif bozulmaveya yumuşak başarısız (bilgi işlemde kullanılır, "arıza korumasına benzer"^[10]) bazı bileşen arızalarından sonra düşük bir performans düzeyinde çalışır. Örneğin, bir bina, ya karanlıkta insanları tamamen tuzağa düşürmek ya da tam güçte çalışmaya devam etmek yerine, şebeke gücü kesilirse, aydınlatmayı azaltılmış seviyelerde ve asansörleri düşük hızlarda çalıştırabilir. Hesaplamada, incelikli bir bozulma örneği, çevrimiçi bir videoyu yayınlamak için yetersiz ağ bant genişliği mevcutsa, yüksek çözünürlüklü sürüm yerine daha düşük çözünürlüklü bir sürümün yayınlanabileceğidir. Aşamalı geliştirme web sayfalarının daha eski, küçük ekranlı veya sınırlı özellikli web tarayıcıları için temel bir işlevsel formatta mevcut olduğu, ancak ek teknolojileri kullanabilen veya daha büyük bir ekranı olan tarayıcılar için gelişmiş bir sürümde olduğu, bilgi işlemde bir örnektir.

İçinde hataya dayanıklı bilgisayar sistemleri, dikkate alınan programlar güçlü tamamen çökmek yerine bir hata, istisna veya geçersiz girişe rağmen çalışmaya devam edecek şekilde tasarlanmıştır. Yazılım kırılganlığı sağlamlığın tam tersidir. Esnek ağlar bazı bağlantıların veya düğümlerin arızalanmasına rağmen veri aktarmaya devam edin; dayanıklı binalar ve altyapı aynı şekilde deprem, sel veya çarpışma gibi durumlarda tam arızayı önlemesi beklenmektedir.

Yüksek bir sistem başarısızlık şeffaflığı tam performansla çalışmaya devam etse bile, bir bileşen arızasının meydana geldiği konusunda kullanıcıları uyarır, böylece arızanın onarılması veya yakın bir arıza olması beklenir. Aynı şekilde bir hızlı başarısız bileşen, aşağı akış bileşenlerinin arızalanmasına ve daha sonra rapor oluşturmasına izin vermek yerine, arızanın ilk noktasında rapor verecek şekilde tasarlanmıştır. Bu, altta yatan sorunun daha kolay teşhis edilmesini sağlar ve bozuk bir durumda yanlış çalışmayı önleyebilir.

Tek hata durumu

Bir tek hata durumu birinin anlamı olduğu bir durumdur koruma karşı tehlike Kusurlu. Tek bir arıza durumu, kaçınılmaz olarak başka bir tek arıza durumunda sonuçlanırsa, iki arıza tek bir arıza koşulu olarak kabul edilir.^[11] Bir kaynak aşağıdaki örneği sunar:

Bir tek hata koşulu Ekipmandaki tehlikeye karşı koruma için tek bir aracın arızalı olduğu veya tek bir harici anormal durumun mevcut olduğu durumdur, örn. canlı parçalar ile uygulanan parça arasında kısa devre.^[12]

Yedeklilik

Yedeklilik, hatasız bir ortamda gereksiz olacak işlevsel yeteneklerin sağlanmasıdır.^[13]Bu, bir bileşen başarısız olursa otomatik olarak "devreye giren" yedek bileşenlerden oluşabilir. Örneğin, büyük kargo kamyonları herhangi bir önemli sonuç olmaksızın bir lastiği kaybedebilir. Çok sayıda lastikleri vardır ve tek bir lastik kritik değildir (yönlendirmek için kullanılan, ancak genellikle her biri ve toplamda diğer dört ila 16'ya göre daha az yük taşıyan ön lastikler hariç), bu nedenle başarısız olma olasılığı daha düşüktür. Bir sistemin güvenilirliğini artırmak için artıklığı birleştirme fikrine öncülük etmiştir. John von Neumann 1950 lerde.^[14]

İki tür artıklık mümkündür:^[15] alan fazlalığı ve zaman fazlalığı. Alan yedekliliği, hatasız çalışma için gereksiz olan ek bileşenler, işlevler veya veri öğeleri sağlar. Alan yedekliliği, sisteme eklenen yedek kaynakların türüne bağlı olarak ayrıca donanım, yazılım ve bilgi yedekliliği olarak sınıflandırılır. Zaman yedeklemesinde hesaplama veya veri iletimi tekrarlanır ve sonuç, önceki sonucun saklanan bir kopyası ile karşılaştırılır. Bu tür testler için mevcut terminoloji, kısaca "Hizmet İçi Hata Tolerans Testi veya ISFTT" olarak adlandırılır.

Kriterler

Her bileşen için hataya dayanıklı tasarım sağlamak normalde bir seçenek değildir. İlişkili artıklık, bir dizi cezayı beraberinde getirir: ağırlıkta, boyutta, güç tüketiminde, maliyette ve ayrıca tasarım, doğrulama ve test etme süresinde artış. Bu nedenle, hangi bileşenlerin hataya dayanıklı olması gerektiğini belirlemek için bir dizi seçeneğin incelenmesi gerekir:^[16]

Bileşen ne kadar kritik? Bir arabada, radyo kritik değildir, bu nedenle bu bileşenin hata toleransına daha az ihtiyacı vardır.
Bileşenin başarısız olma olasılığı nedir? Bir arabadaki tahrik mili gibi bazı bileşenlerin arızalanması olası değildir, bu nedenle herhangi bir hata toleransı gerekmez.
Bileşeni hataya dayanıklı hale getirmek ne kadar pahalı? Örneğin, yedek bir araba motoru gerektirmek, muhtemelen hem ekonomik hem de ağırlık ve alan açısından dikkate alınamayacak kadar pahalı olacaktır.

Tüm testleri geçen bir bileşene örnek, bir otomobilin yolcu emniyet sistemidir. Normalde düşünmesek de birincil yolcu kısıtlama sistemi, Yerçekimi. Araç devrilirse veya şiddetli g-kuvvetlerine maruz kalırsa, bu birincil yolcuyu kısıtlama yöntemi başarısız olabilir. Bu tür bir kaza sırasında yolcuları zapt etmek güvenlik açısından kesinlikle kritiktir, bu nedenle ilk testi geçiyoruz. Yolcuların fırlamasına neden olan kazalar daha önce oldukça yaygındı. Emniyet kemerleri, bu yüzden ikinci testi geçiyoruz. Emniyet kemeri gibi gereksiz kısıtlama yönteminin maliyeti hem ekonomik hem de ağırlık ve alan açısından oldukça düşüktür, bu nedenle üçüncü testi geçiyoruz. Bu nedenle, tüm araçlara emniyet kemeri eklemek mükemmel bir fikirdir. Diğer "tamamlayıcı kısıtlama sistemleri", örneğin hava yastıkları, daha pahalıdır ve bu nedenle bu testi daha küçük bir farkla geçer.

Bu ilkenin uygulamaya konulmasının bir başka mükemmel ve uzun vadeli örneği de fren sistemidir: gerçek fren mekanizmaları kritik olsa da, özellikle ani (aşamalı olmaktan ziyade) arızaya eğilimli değildirler ve her durumda izin vermek için zorunlu olarak kopyalanırlar. tüm tekerleklere eşit ve dengeli fren kuvveti uygulaması. Aynı zamanda, ana bileşenleri daha fazla ikiye katlamak, engelleyici bir şekilde maliyetli olacaktır ve önemli ölçüde ağırlık katacaktır. Bununla birlikte, sürücünün kontrolü altında frenleri harekete geçirmek için benzer şekilde kritik sistemler, genellikle bir kablo (paslanabilir, gerilebilir, sıkışabilir, kopabilir) veya hidrolik sıvı (sızıntı yapabilir, kaynayabilir ve kabarcık oluşturabilir, suyu emebilir ve dolayısıyla etkinliğini kaybedebilir) daha az sağlamdır. ). Bu nedenle, çoğu modern otomobilde, ayak freni hidrolik fren devresi, iki küçük arıza noktası verecek şekilde çapraz olarak bölünmüştür; bu, ya sadece fren gücünü% 50 azaltma ve düz ön-arka veya sol-sağ kadar tehlikeli fren kuvveti dengesizliğine neden olmama bölünmüşse ve hidrolik devrenin tamamen arızalanması durumunda (nispeten çok nadir görülen bir durum), aksi takdirde nispeten zayıf olan arka frenleri çalıştıran, ancak yine de aracı güvenli bir şekilde durdurabilen, kabloyla çalıştırılan park freni biçiminde bir arıza emniyeti vardır. Şanzıman / motor freni ile bağlantılı olarak, bununla ilgili talepler normal trafik akışına uygun olduğu sürece. Acil bir durumda sert frenleme ihtiyacıyla toplam ayak freni arızasının kümülatif olarak olası olmayan kombinasyonu muhtemelen bir çarpışmaya neden olacaktır, ancak yine de aksi durumda olması gerekenden daha düşük hızda olacaktır.

Ayak pedalıyla çalıştırılan servis freni ile karşılaştırıldığında, el freninin kendisi daha az kritik bir unsurdur ve ayak freni için bir defalık bir yedek olarak kullanılmadığı sürece, devrede çalışmadığı tespit edilirse acil bir tehlikeye neden olmayacaktır. uygulama anı. Bu nedenle, kendi başına artıklık yoktur (ve tipik olarak daha ucuz, daha hafif, ancak daha az yıpranan bir kablo çalıştırma sistemi kullanır) ve bu bir yokuşta meydana gelirse, aracı anlık olarak sabit tutmak için ayak frenini kullanmak yeterli olabilir. , durmak için düz bir yol parçası bulmak için yola çıkmadan önce. Alternatif olarak, sığ eğimlerde, şanzıman Park, Geri veya Birinci vitese geçirilebilir ve şanzıman kilidi / motor sıkıştırması onu sabit tutmak için kullanılabilir, çünkü ilk önce onu durdurmak için karmaşıklığı dahil etmelerine gerek yoktur. .

Motosikletlerde, daha basit yöntemlerle benzer düzeyde bir arıza güvenliği sağlanır; ilk olarak ön ve arka fren sistemleri, etkinleştirme yöntemlerine bakılmaksızın (kablo, çubuk veya hidrolik olabilir) tamamen ayrıdır ve birinin tamamen arızalanmasına izin verirken diğerini etkilenmeden bırakır. İkincisi, arka fren, otomobil kuzenine kıyasla nispeten güçlüdür, spor modellerde güçlü bir disk olmasına rağmen, her zamanki amaç ön sistemin frenleme kuvvetinin büyük çoğunluğunu sağlaması olsa da; toplam araç ağırlığı daha merkezi olduğundan, arka lastik genellikle daha büyük ve daha kavrayıcıdır ve sürücü, üzerine daha fazla ağırlık koymak için arkasına yaslanabilir, bu nedenle, tekerlek kilitlenmeden önce daha fazla fren kuvvetinin uygulanmasına izin verir. Daha ucuz, daha yavaş hizmet sınıfı makinelerde, ön tekerleğin ekstra fren kuvveti ve daha kolay paketleme için bir hidrolik disk kullanması gerekse bile, arka kısım genellikle ilkel, biraz verimsiz, ancak kolaylığı sayesinde son derece sağlam, çubukla çalıştırılan tambur olacaktır. ayak pedalını tekerleğe bu şekilde bağlamak ve daha da önemlisi, makinenin geri kalanı, ilk birkaç yıllık kullanımdan sonra birçok düşük fiyatlı bisiklet gibi, felaketle sonuçlanacak arızanın neredeyse imkansızlığı, ihmal edilen bakımdan çökme.

Gereksinimler

Hata toleransının temel özellikleri şunları gerektirir:

Hayır tek hata noktası - Bir sistem bir arıza yaşarsa, onarım işlemi sırasında kesintisiz olarak çalışmaya devam etmelidir.
Arıza izolasyonu arızalı bileşene - Bir arıza meydana geldiğinde, sistemin arızayı sorun teşkil eden bileşenden izole edebilmesi gerekir. Bu, yalnızca arıza yalıtımı amacıyla var olan özel arıza tespit mekanizmalarının eklenmesini gerektirir. Bir arıza durumundan kurtarma, arızanın veya arızalı bileşenin sınıflandırılmasını gerektirir. Ulusal Standartlar ve Teknoloji Enstitüsü (NIST), hataları yerellik, neden, süre ve sonuca göre sınıflandırır.^{[nerede? ]}^{[açıklama gerekli ]}
Arızanın yayılmasını önlemek için arıza sınırlama - Bazı arıza mekanizmaları, arızayı sistemin geri kalanına yayarak sistemin arızalanmasına neden olabilir. Bu tür bir başarısızlığın bir örneği, bir sistemdeki meşru iletişimi batırabilen ve genel sistem arızasına neden olan "hileli verici" dir. Güvenlik duvarları veya sistemi korumak için hileli bir vericiyi veya arızalı bileşeni izole eden diğer mekanizmalar gereklidir.
Kullanılabilirliği ters çevirme modları^{[açıklama gerekli ]}

Ek olarak, hataya dayanıklı sistemler, hem planlı servis kesintileri hem de plansız servis kesintileri açısından karakterize edilir. Bunlar genellikle uygulama düzeyinde ölçülür ve yalnızca donanım düzeyinde ölçülmez. Liyakat figürü denir kullanılabilirlik ve yüzde olarak ifade edilir. Örneğin, bir beş dokuz sistem istatistiksel olarak% 99,999 kullanılabilirlik sağlayacaktır.

Hataya dayanıklı sistemler tipik olarak artıklık kavramına dayanır.

Hata toleransı teknikleri

Kritik sistemler için ihtiyaç duyulan tolerans türlerinin araştırılması, büyük miktarda disiplinler arası çalışma gerektirir. Sistem ne kadar karmaşıksa, tüm olası etkileşimlerin o kadar dikkatli bir şekilde değerlendirilmesi ve hazırlanması gerekir. Taşımacılıkta yüksek değerli sistemlerin önemini göz önünde bulundurarak, kamu hizmetleri ve ordu, araştırmaya değinen konuların alanı çok geniştir: yazılım modelleme ve güvenilirlik veya donanım tasarımı gibi gizli öğelere stokastik modeller grafik teorisi biçimsel veya dışlayıcı mantık, paralel işlem, uzak veri aktarımı, ve dahası.^[17]

Çoğaltma

Yedek bileşenler, hata toleransının ilk temel özelliğini üç şekilde ele alır:

Çoğaltma: Aynı sistem veya alt sistemin birden fazla özdeş örneğini sağlamak, görevleri veya istekleri bunların tümüne yönlendirmek paralel ve temelde doğru sonucu seçmek yeter sayı;
Yedeklilik: Aynı sistemin birden çok özdeş örneğini sağlamak ve bir arıza durumunda kalan örneklerden birine geçmek (yük devretme );
Çeşitlilik: Birden fazla farklı aynı spesifikasyonun uygulamaları ve belirli bir uygulamadaki hatalarla başa çıkmak için çoğaltılmış sistemler gibi kullanılması.

Tüm uygulamaları RAID, yedekli bağımsız disk dizisi RAID 0 dışında, hataya dayanıklılık örnekleridir depolama aygıtı o kullanır veri yedekleme.

Bir kilitlemek hataya dayanıklı makine, paralel olarak çalışan çoğaltılmış öğeleri kullanır. Herhangi bir zamanda, her bir elemanın tüm kopyaları aynı durumda olmalıdır. Her birine aynı girişler sağlanır çoğaltma ve aynı çıktılar bekleniyor. Kopyaların çıktıları bir oylama devresi kullanılarak karşılaştırılır. Her elemanın iki kopyasına sahip bir makine olarak adlandırılır ikili modüler yedekli (DMR). Oylama devresi daha sonra yalnızca bir uyumsuzluğu tespit edebilir ve kurtarma diğer yöntemlere dayanır. Her elemanın üç kopyasına sahip bir makine olarak adlandırılır üçlü modüler yedekli (TMR). Oylama devresi, ikiye bir oylama gözlendiğinde hangi çoğaltmanın hatalı olduğunu belirleyebilir. Bu durumda, oylama devresi doğru sonucu verebilir ve hatalı versiyonu atabilir. Bundan sonra, hatalı çoğaltmanın dahili durumunun diğer ikisinden farklı olduğu varsayılır ve oylama devresi bir DMR moduna geçebilir. Bu model daha fazla sayıda tekrarlamaya uygulanabilir.

Kilit adımı hataya dayanıklı makineler en kolay şekilde tam olarak yapılır senkron, her replikasyonun her kapısı, saatin aynı kenarında aynı durum geçişini yapar ve replikasyonlara giden saatler tam olarak fazdadır. Bununla birlikte, bu gereklilik olmadan kilit adım sistemleri kurmak mümkündür.

Çoğaltmaları eşzamanlı hale getirmek, dahili depolanmış durumlarının aynı olmasını gerektirir. Sıfırlama durumu gibi sabit bir başlangıç durumundan başlatılabilirler. Alternatif olarak, bir eşlemenin dahili durumu başka bir eşlemeye kopyalanabilir.

DMR'nin bir varyantı çift ve yedek. Yinelenen iki eleman, işlemleri arasındaki herhangi bir uyuşmazlığı tespit eden bir oylama devresi ile bir çift olarak kilit adımda çalışır ve bir hata olduğunu gösteren bir sinyal verir. Başka bir çift tam olarak aynı şekilde çalışır. Son devre, hatalı olduğunu iddia etmeyen çiftin çıkışını seçer. Eşleştir ve yedekle, üç TMR yerine dört kopya gerektirir, ancak ticari olarak kullanılmıştır.

Başarısızlıktan habersiz bilgi işlem

Başarısızlıktan habersiz bilgi işlem sağlayan bir tekniktir bilgisayar programları rağmen yürütmeye devam etmek hatalar.^[18] Teknik farklı bağlamlarda uygulanabilir. İlk olarak, programa üretilmiş bir değeri döndürerek geçersiz hafıza okumalarını halledebilir,^[19] bu da üretilen değeri kullanır ve eskisini görmezden gelir hafıza erişmeye çalıştığı değer, bu büyük bir tezat oluşturuyor tipik bellek denetleyicileri, programa hatayı bildiren veya programı iptal eden. İkinci olarak, beklenmedik istisnaları yakalamak için bazı yakalama bloklarının yazıldığı veya sentezlendiği istisnalara uygulanabilir.^[20] Ayrıca, basamaklı arızaları önlemek için yürütme arka arkaya birkaç kez değiştirilir.^[21]

Yaklaşımın performans maliyetleri vardır: teknik, adres geçerliliği için dinamik kontroller eklemek üzere kodu yeniden yazdığından, yürütme süresi% 80 ila% 500 artacaktır.^[22]

Kurtarma çobanlığı

Kurtarma yönetimi, yazılım programlarının boş işaretçi saptırma ve sıfıra bölme gibi aksi halde ölümcül hatalardan kurtarmasını sağlayan hafif bir tekniktir.^[23] Başarısızlıktan habersiz hesaplama tekniğiyle karşılaştırıldığında, kurtarma çobanı, derlenen program ikili dosyası üzerinde doğrudan çalışır ve programa yeniden derlenmesi gerekmez.

Kullanır tam zamanında ikili enstrümantasyon çerçeve Toplu iğne. Bir hata oluştuğunda uygulama sürecine bağlanır, yürütmeyi onarır, yürütme devam ederken onarım etkilerini izler, uygulama sürecindeki onarım etkilerini içerir ve tüm onarım efektleri işlem durumundan temizlendikten sonra işlemden ayrılır. Programın normal çalışmasını engellemez ve bu nedenle ihmal edilebilir ek yüke neden olur.^[23] Sistematik olarak toplanan 18 gerçek dünyadaki sıfır referans ve sıfıra bölme hatasından 17'si için, bir prototip uygulaması, uygulamanın, hata tetikleyen girdiler üzerinde kullanıcılarına kabul edilebilir çıktı ve hizmet sağlamak için çalışmaya devam etmesini sağlar.^[23]

Şalter

devre kesici tasarım modeli dağıtılmış sistemlerde yıkıcı arızaları önlemek için bir tekniktir.

Dezavantajları

Hataya dayanıklı tasarımın avantajları açıktır, ancak dezavantajlarının çoğu:

Aynı bileşende arıza tespiti ile etkileşim. Yukarıdaki binek araç örneğine devam etmek için, hataya dayanıklı sistemlerden herhangi biriyle, bir lastiğin ne zaman patladığını sürücü için açık olmayabilir. Bu genellikle ayrı bir "otomatik arıza tespit sistemi" ile ele alınır. Lastik durumunda, bir hava basıncı monitörü basınç kaybını tespit eder ve sürücüyü bilgilendirir. Alternatif, tüm lastikleri her duruşta manuel olarak incelemek gibi bir "manuel arıza tespit sistemi" dir.
Başka bir bileşende arıza tespiti ile etkileşim. Bu sorunun başka bir varyasyonu, bir bileşendeki hata toleransının farklı bir bileşende hata algılamasını engellemesidir. Örneğin, bileşen B, bileşen A'dan gelen çıktıya dayalı olarak bazı işlemler gerçekleştirirse, B'deki hata toleransı, A ile ilgili bir sorunu gizleyebilir. Bileşen B daha sonra değiştirilirse (daha az hataya dayanıklı bir tasarıma), sistem aniden arızalanabilir, problemin yeni bileşen B olduğu ortaya çıkıyor. Ancak sistem dikkatlice incelendikten sonra, asıl sorunun aslında A bileşeninde olduğu anlaşılacaktır.
Arıza düzeltme önceliğinin azaltılması. Operatör arızanın farkında olsa bile, hataya dayanıklı bir sisteme sahip olmak, arızanın onarımının önemini muhtemelen azaltacaktır. Hatalar düzeltilmezse, bu, hataya dayanıklı bileşen tamamen arızalandığında veya tüm yedek bileşenler de arızalandığında, sonunda sistem arızasına yol açacaktır.
Test zorluğu. Bazı kritik hataya dayanıklı sistemler için, örneğin nükleer reaktör yedekleme bileşenlerinin çalıştığını doğrulamanın kolay bir yolu yoktur. Bunun en kötü şöhretli örneği Çernobil Operatörlerin birincil ve ikincil soğutmayı devre dışı bırakarak acil durum yedek soğutmasını test ettiği yer. Yedekleme başarısız oldu ve çekirdek erimesine ve büyük miktarda radyasyon salınmasına neden oldu.
Maliyet. Hem hataya dayanıklı bileşenler hem de yedek bileşenler maliyeti artırma eğilimindedir. Bu tamamen ekonomik bir maliyet olabilir veya ağırlık gibi diğer önlemleri içerebilir. İnsanlı uzay gemileri örneğin, o kadar çok yedek ve hataya dayanıklı bileşene sahip olurlar ki, aynı güvenlik seviyesini gerektirmeyen insansız sistemlere göre ağırlıkları önemli ölçüde artar.
Alt bileşenler. Hataya dayanıklı bir tasarım, aksi takdirde sistemi çalışmaz hale getirecek olan daha düşük bileşenlerin kullanımına izin verebilir. Bu uygulama, maliyet artışını azaltma potansiyeline sahip olsa da, birden fazla alt bileşenin kullanılması, sistemin güvenilirliğini karşılaştırılabilir bir hata toleranslı olmayan sisteme eşit veya hatta bundan daha kötü bir düzeye düşürebilir.

Örnekler

Donanım hatası toleransı, bazen, sistem hala çalışır durumdayken (hesaplamada, sıcak takas ). Tek bir yedekleme ile uygulanan böyle bir sistem, tek noktaya toleranslı ve hataya dayanıklı sistemlerin büyük çoğunluğunu temsil eder. Bu tür sistemlerde başarısızlıklar arasındaki ortalama süre operatörlerin bozuk cihazları tamir etmek için zamana sahip olması için yeterince uzun olmalıdır (Tamir zamanı ) yedekleme de başarısız olmadan önce. Arızalar arasındaki sürenin mümkün olduğu kadar uzun olmasına yardımcı olur, ancak bu, hataya dayanıklı bir sistemde özellikle gerekli değildir.

Hata toleransı, bilgisayar uygulamalarında oldukça başarılıdır. Tandem Bilgisayarlar tüm işlerini, tek nokta toleransı kullanarak bu tür makinelerde kurdular. Durmaksızın sistemler çalışma süreleri yıl cinsinden ölçülür.

Arıza güvenliği Mimariler, örneğin işlem yoluyla bilgisayar yazılımını da kapsayabilir. çoğaltma.

Veri formatları ayrıca incelikli bir şekilde indirgenecek şekilde tasarlanabilir. HTML örneğin, ileriye uyumlu, yeni HTML varlıklarının göz ardı edilmesine izin veriyor internet tarayıcıları belgenin kullanılamaz olmasına neden olmadan bunları anlamayanlar.

İlgili terimler

Hata toleransı ile nadiren sorun yaşayan sistemler arasında bir fark vardır. Örneğin, Batı Elektrik çapraz çubuk sistemler kırk yılda iki saat arıza oranına sahipti ve bu nedenle hataya dayanıklı. Ancak bir arıza meydana geldiğinde, hala çalışmayı tamamen durdurdular ve bu nedenle hata töleransı.

Ayrıca bakınız

Referanslar

^ Uyarlanabilir Hata Toleransı ve Zarif Bozulma, Oscar González ve diğerleri, 1997, Massachusetts Üniversitesi - Amherst
^ Johnson, B.W. (1984). "Hata Toleranslı Mikroişlemci Tabanlı Sistemler ", IEEE Micro, cilt 4, no. 6, sayfa 6–21
^ ^a ^b ^c Daniel P. Siewiorek; C. Gordon Bell; Allen Newell (1982). Bilgisayar Yapıları: İlkeler ve Örnekler. McGraw-Hill. ISBN 0-07-057302-6.
^ Algirdas Avižienis; George C. Gilley; Francis P. Mathur; David A. Rennels; John A. Rohr; David K. Rubin. "The STAR (Self-Testing And Repairing) Computer: An Investigation of the Theory and Practice of Theory and Practice of Fault-tolerant Computer Design" (PDF).
^ Randell, Brian; Lee, P.A .; Treleaven, P. C. (Haziran 1978). "Hesaplama Sistemi Tasarımında Güvenilirlik Sorunları". ACM Hesaplama Anketleri. 10 (2): 123–165. doi:10.1145/356725.356729. ISSN 0360-0300. S2CID 16909447.
^ P. J. Denning (Aralık 1976). "Hataya dayanıklı işletim sistemleri". ACM Hesaplama Anketleri. 8 (4): 359–389. doi:10.1145/356678.356680. ISSN 0360-0300. S2CID 207736773.
^ Theodore A. Linden (Aralık 1976). "Güvenliği ve Güvenilir Yazılımı Destekleyecek İşletim Sistemi Yapıları". ACM Hesaplama Anketleri. 8 (4): 409–445. doi:10.1145/356678.356682. hdl:2027 / mdp.39015086560037. ISSN 0360-0300. S2CID 16720589.
^ Ray Holt."F14A Merkezi Hava Veri Bilgisayarı ve 1968'deki Son Teknoloji LSI Teknolojisi".
^ Bilgisayar tasarımında hataya dayanıklı hesaplama Neilforoshan, M.R Journal of Computing Sciences in Colleges archive Cilt 18, Sayı 4 (Nisan 2003) Sayfa: 213 - 220, ISSN 1937-4771
^ Stallings, W (2009): İşletim Sistemleri. İç Parçalar ve Tasarım İlkelerialtıncı baskı
^ "Kontrol". Grouper.ieee.org. Arşivlenen orijinal 1999-10-08 tarihinde. Alındı 2016-04-06.
^ Baha Al-Shaikh, Simon G. Stacey, Anestezi, Kritik Bakım ve Peri-Operatif Tıpta Ekipmanın Temelleri (2017), s. 247.
^ Laprie, J.C. (1985). "Güvenilir Hesaplama ve Hata Toleransı: Kavramlar ve Terminoloji ", 15. Uluslararası Hata Toleranslı Hesaplama Sempozyumu Bildirileri (FTSC-15), s. 2–11
^ von Neumann, J. (1956). "Olasılık Mantığı ve Güvenilir Organizmaların Güvenilir Olmayan Bileşenlerden Sentezi ", Automata Studies, eds. C. Shannon ve J. McCarthy, Princeton University Press, s. 43–98
^ Avizienis, A. (1976). "Arıza Toleranslı Sistemler ", Bilgisayarlarda IEEE İşlemleri, cilt 25, no. 12, s. 1304–1312
^ Dubrova, E. (2013). "Hata Toleranslı Tasarım", Springer, 2013, ISBN 978-1-4614-2112-2
^ Bazı hataya dayanıklı bilgisayar mimarilerinin güvenilirlik değerlendirmesi. Springer-Verlag. Kasım 1980. ISBN 978-3-540-10274-8.
^ Herzberg, Amir; Shulman, Haya (2012). "Açık ve Adil Sunucu Destekli İki Taraflı Hesaplama". 2012 Yedinci Uluslararası Kullanılabilirlik, Güvenilirlik ve Güvenlik Konferansı. IEEE: 75–84. doi:10.1109 / ares.2012.28. ISBN 978-1-4673-2244-7. S2CID 6579295.
^ Rigger, Manuel; Pekarek, Daniel; Mössenböck, Hanspeter (2018), "Bir Arabellek Taşmasını Önleme Aracı Olarak Bağlama Duyarlı Başarısızlık-Farkında Olmayan Hesaplama", Ağ ve Sistem Güvenliği, Cham: Springer International Publishing, s. 376–390, arXiv:1806.09026, doi:10.1007/978-3-030-02744-5_28, ISBN 978-3-030-02743-8, alındı 2020-10-07
^ Zhang, Long; Monperrus, Martin (2019). "TripleAgent: Java Uygulamalarında Otomatikleştirilmiş Esneklik İyileştirme için İzleme, Karışıklık ve Hata-Farkında Olma". 2019 IEEE 30th International Symposium on Software Reliability Engineering (ISSRE). Berlin, Almanya: IEEE: 116–127. arXiv:1812.10706. doi:10.1109 / ISSRE.2019.00021. ISBN 978-1-7281-4982-0. S2CID 57189195.
^ Durieux, Thomas; Hamadi, Yusuf; Yu, Zhongxing; Baudry, Benoit; Monperrus Martin (2018). "Başarısızlıktan Gereksiz Bilgi İşlem Arama Alanının Kapsamlı Keşfi". 2018 IEEE 11. Uluslararası Yazılım Test, Doğrulama ve Doğrulama Konferansı (ICST). s. 139–149. arXiv:1710.09722. doi:10.1109 / ICST.2018.00023. ISBN 978-1-5386-5012-7. S2CID 4304123.
^ Keromytis, Angelos D. (2007), "Yazılım Kendi Kendini İyileştiren Sistemlerin Karakterizasyonu", Gorodetski, Vladimir I .; Kotenko, Igor; Skormin, Victor A. (editörler), Yazılım Kendi Kendini Onaran Sistemlerin Karakterizasyonu, Bilgisayar ağı güvenliği: Bilgisayar Ağı Güvenliği için Matematiksel Yöntemler, Modeller ve Mimariler Üzerine Dördüncü Uluslararası Konferans, Springer, ISBN 978-3-540-73985-2
^ ^a ^b ^c Uzun, Fan; Sidiroglou-Douskos, Stelios; Rinard, Martin (2014). "Kurtarma Shepherding aracılığıyla Otomatik Çalışma Zamanı Hatası Onarım ve Sınırlama". 35. ACM SIGPLAN Programlama Dili Tasarımı ve Uygulaması Konferansı Bildirileri. PLDI '14'. New York, NY, ABD: ACM. s. 227–238. doi:10.1145/2594291.2594337. ISBN 978-1-4503-2784-8. S2CID 6252501.

[1] Uyarlanabilir Hata Toleransı ve Zarif Bozulma, Oscar González ve diğerleri, 1997, Massachusetts Üniversitesi - Amherst

[2] Johnson, B.W. (1984). "Hata Toleranslı Mikroişlemci Tabanlı Sistemler ", IEEE Micro, cilt 4, no. 6, sayfa 6–21

[computer-structures-3] Daniel P. Siewiorek; C. Gordon Bell; Allen Newell (1982). Bilgisayar Yapıları: İlkeler ve Örnekler. McGraw-Hill. ISBN 0-07-057302-6.

[4] Algirdas Avižienis; George C. Gilley; Francis P. Mathur; David A. Rennels; John A. Rohr; David K. Rubin. "The STAR (Self-Testing And Repairing) Computer: An Investigation of the Theory and Practice of Theory and Practice of Fault-tolerant Computer Design" (PDF).

[5] Randell, Brian; Lee, P.A .; Treleaven, P. C. (Haziran 1978). "Hesaplama Sistemi Tasarımında Güvenilirlik Sorunları". ACM Hesaplama Anketleri. 10 (2): 123–165. doi:10.1145/356725.356729. ISSN 0360-0300. S2CID 16909447.

[6] P. J. Denning (Aralık 1976). "Hataya dayanıklı işletim sistemleri". ACM Hesaplama Anketleri. 8 (4): 359–389. doi:10.1145/356678.356680. ISSN 0360-0300. S2CID 207736773.

[7] Theodore A. Linden (Aralık 1976). "Güvenliği ve Güvenilir Yazılımı Destekleyecek İşletim Sistemi Yapıları". ACM Hesaplama Anketleri. 8 (4): 409–445. doi:10.1145/356678.356682. hdl:2027 / mdp.39015086560037. ISSN 0360-0300. S2CID 16720589.

[8] Ray Holt."F14A Merkezi Hava Veri Bilgisayarı ve 1968'deki Son Teknoloji LSI Teknolojisi".

[9] Bilgisayar tasarımında hataya dayanıklı hesaplama Neilforoshan, M.R Journal of Computing Sciences in Colleges archive Cilt 18, Sayı 4 (Nisan 2003) Sayfa: 213 - 220, ISSN 1937-4771

[10] Stallings, W (2009): İşletim Sistemleri. İç Parçalar ve Tasarım İlkelerialtıncı baskı

[11] "Kontrol". Grouper.ieee.org. Arşivlenen orijinal 1999-10-08 tarihinde. Alındı 2016-04-06.

[12] Baha Al-Shaikh, Simon G. Stacey, Anestezi, Kritik Bakım ve Peri-Operatif Tıpta Ekipmanın Temelleri (2017), s. 247.

[13] Laprie, J.C. (1985). "Güvenilir Hesaplama ve Hata Toleransı: Kavramlar ve Terminoloji ", 15. Uluslararası Hata Toleranslı Hesaplama Sempozyumu Bildirileri (FTSC-15), s. 2–11

[14] von Neumann, J. (1956). "Olasılık Mantığı ve Güvenilir Organizmaların Güvenilir Olmayan Bileşenlerden Sentezi ", Automata Studies, eds. C. Shannon ve J. McCarthy, Princeton University Press, s. 43–98

[15] Avizienis, A. (1976). "Arıza Toleranslı Sistemler ", Bilgisayarlarda IEEE İşlemleri, cilt 25, no. 12, s. 1304–1312

[16] Dubrova, E. (2013). "Hata Toleranslı Tasarım", Springer, 2013, ISBN 978-1-4614-2112-2

[17] Bazı hataya dayanıklı bilgisayar mimarilerinin güvenilirlik değerlendirmesi. Springer-Verlag. Kasım 1980. ISBN 978-3-540-10274-8.

[18] Herzberg, Amir; Shulman, Haya (2012). "Açık ve Adil Sunucu Destekli İki Taraflı Hesaplama". 2012 Yedinci Uluslararası Kullanılabilirlik, Güvenilirlik ve Güvenlik Konferansı. IEEE: 75–84. doi:10.1109 / ares.2012.28. ISBN 978-1-4673-2244-7. S2CID 6579295.

[19] Rigger, Manuel; Pekarek, Daniel; Mössenböck, Hanspeter (2018), "Bir Arabellek Taşmasını Önleme Aracı Olarak Bağlama Duyarlı Başarısızlık-Farkında Olmayan Hesaplama", Ağ ve Sistem Güvenliği, Cham: Springer International Publishing, s. 376–390, arXiv:1806.09026, doi:10.1007/978-3-030-02744-5_28, ISBN 978-3-030-02743-8, alındı 2020-10-07

[20] Zhang, Long; Monperrus, Martin (2019). "TripleAgent: Java Uygulamalarında Otomatikleştirilmiş Esneklik İyileştirme için İzleme, Karışıklık ve Hata-Farkında Olma". 2019 IEEE 30th International Symposium on Software Reliability Engineering (ISSRE). Berlin, Almanya: IEEE: 116–127. arXiv:1812.10706. doi:10.1109 / ISSRE.2019.00021. ISBN 978-1-7281-4982-0. S2CID 57189195.

[DurieuxHamadi2018-21] Durieux, Thomas; Hamadi, Yusuf; Yu, Zhongxing; Baudry, Benoit; Monperrus Martin (2018). "Başarısızlıktan Gereksiz Bilgi İşlem Arama Alanının Kapsamlı Keşfi". 2018 IEEE 11. Uluslararası Yazılım Test, Doğrulama ve Doğrulama Konferansı (ICST). s. 139–149. arXiv:1710.09722. doi:10.1109 / ICST.2018.00023. ISBN 978-1-5386-5012-7. S2CID 4304123.

[22] Keromytis, Angelos D. (2007), "Yazılım Kendi Kendini İyileştiren Sistemlerin Karakterizasyonu", Gorodetski, Vladimir I .; Kotenko, Igor; Skormin, Victor A. (editörler), Yazılım Kendi Kendini Onaran Sistemlerin Karakterizasyonu, Bilgisayar ağı güvenliği: Bilgisayar Ağı Güvenliği için Matematiksel Yöntemler, Modeller ve Mimariler Üzerine Dördüncü Uluslararası Konferans, Springer, ISBN 978-3-540-73985-2

[rcv-23] Uzun, Fan; Sidiroglou-Douskos, Stelios; Rinard, Martin (2014). "Kurtarma Shepherding aracılığıyla Otomatik Çalışma Zamanı Hatası Onarım ve Sınırlama". 35. ACM SIGPLAN Programlama Dili Tasarımı ve Uygulaması Konferansı Bildirileri. PLDI '14'. New York, NY, ABD: ACM. s. 227–238. doi:10.1145/2594291.2594337. ISBN 978-1-4503-2784-8. S2CID 6252501.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]