Портал аспирантов - Надежность дисковых массивов RAID

Небольшой update.

Упрощенная марковская модель надежности RAID-массива (Paul Kellerman (c) 2012):

http://aspirantura.spb.ru/forum/pict...pictureid=1510

Оптимизированная расчетная формула наработки до отказа (Paul Kellerman (c) 2014):

http://aspirantura.spb.ru/forum/pict...pictureid=1511

Где,
λ – интенсивность отказов дисков,
ε – добавочная интенсивность ошибок в режиме чтения
данных для восстановления информации на замененных дисках,
μ – интенсивность восстановления дисков,
n – общее количество дисков,
r – число дисков, которые могут одновременно восстанавливаться,
s – число дисков, при отказе которых происходит отказ массива с потерей всех данных.
Для дискового массива RAID-0 параметр s = 1, RAID-5: s = 2, RAID-6: s = 3, RAID-1: s = n.

В частности, для дискового массива RAID-6 состоящего из n = 8 дисков c порогом отказа
s = 3, с интенсивностью отказов дисков λ = 1/120000 час-1, с добавочной интенсивностью
ошибок ε = 1/300 час-1, интенсивностью восстановления μ = 1/24 час-1, и одновременного
восстановления до r = 2 дисков, была получена следующая оценка наработки до отказа:

T = 153040 часов

Особо остановимся на параметре ε, как его оценить? В режиме rebuid дискового массива
после замены отказавших дисков, остальные диски испытывают огромную дополнительную
нагрузку из-за дополнительного считывания с них огромных порций данных, требуемых для
восстановления данных на замененных дисках, и добавочная интенсивность ε значительно
выше, чем основная интенсивность отказов при обычной нагрузке. Оценить его можно так,
есть такой параметр как битовая вероятность невосстановимой ошибки чтения диска (UER).
Тогда вероятность ошибки чтения в процессе rebuid массива при объеме считывания V бай-
тов составит Q=1-(1-UER)^(8*V). Соответственно, тогда добавочная интенсивность ошибок
при среднем времени восстановления 1/μ: ε = -μ*ln(1-Q) = -μ*8*V*ln(1-UER) ~ 8*V*μ*UER.

Тогда, для терабайтного диска V = 10^12 байтов (по факту, а не 2^40), UER = 10^(-14) и
μ=1/24 час-1, имеем: ε=1/300 час-1. Это куда больше, чем сами отказы λ=1/120000 час-1.

Если мы проигноруем параметр ε, положив его равным 0, полагая, что существенны только
аппаратные отказы дисков, то получим дико завышенную оценку T = 17896480710 часов!!!

Если мы для простоты будем считать, что диски вообще не заменяются и ребилды не проис-
ходят (μ = 0, ε = 0), то получим оценку T = 52142 часа для невосстанавливаемого случая.

P.S. В забугорье данный показатель надежности называется MTTDL (mean time to data loss).