SCSI Raid 5, два диска вышли из строя и сделан ребилд

Как-то я уже писал о феномене высокого профессионализма системных администраторов. Граждане, умеющие устанавливать операционную систему и настраивать сетевые протоколы, немедленно начинают ощущать себя бриллиантами невиданной огранки, гордо начинают звать себя "сисадмин" и требовать оплаты своего бесценного труда пудовыми золотыми слитками. В процессе осуществления услуг по ремонту жестких дисков и восстановления файлов часто приходится с такими сталкиваться.

Лично я насмотрелся на сисадминов когда искал толкового сборщика и настройщика компьютеров, который мог бы диагностировать аппаратные неисправности. Когда по телефону я впервые услышал от соискателя, что у него есть опыт работы сисадмином, я обрадовался. Нашелся искомый человек, да не абы кто, а системный администратор. Когда при личной встрече сисадмин не смог идентифицировать тип сокета на плате S754, энтузиазма во мне поубавилось. Дальнейшая череда блистательных сисадминов окончательно расставила все точки над "ё". В результате, когда я слышал от человека "я опытный компьютерщик, я сисадмин" то автоматически заносил его в блек лист.

Вот такие вот талантливые сисадмины работают не только на мелких предприятиях, но и в таких крупных и уважаемых конторах, как "Газпром". За последние двенадцать месяцев из Газпрома ко мне обращались дважды. Один раз из Ставропольского головного офиса, а второй, совсем недавно, из подразделения в Изобильненском районе.

SCSI cервер, вид сбоку
SCSI cервер, вид сбоку

Оба случая похожи, как два харда из одной партии. В распоряжении админов крутой сервер, с горячей заменой всего, чего можно, от блоков питания (которых стоит в корпусе два) до модулей памяти. Дисковый массив на сервере состоит из пяти "скази" винчестеров Seagate Cheetah, объединенных в Raid массив пятого уровня.

Поломанные HDD SCSI из Raid-5
Поломанные HDD SCSI из Raid-5

В один момент один из дисков зажигает красную лампочку и спикер на контроллере начинает пищать, сигнализируя о неисправности. Но, поскольку для Raid-5 такая ситуация не является смертельной, падает только скорость обмена данными, а сама ОС грузится и работает в штатном режиме, сисадмины решают, что ничего страшного не случилось. Подумаешь, "красным диск загорелся", все же работает!

Сервер со скази рейд массивом
Сервер со скази рейд массивом
Восстановление информации с Raid 5

Когда через какое-то время падает второй диск, сисадмины приходят в некоторое волнение - сервер перестает работать, и вместо околачивания груш на высокооплачиваемой работе, надо что-то делать и восстанавливать работу предприятия.

Год назад была такая картина, тогда сразу обратились ко мне и данные удалось восстановить относительно просто.

В этот раз все серьезнее - сисадмины в Рыздвяновском Газпроме получают большую зарплату, и в своих силах и умениях уверены пропорционально больше. Когда из рейд-массива вылетел второй накопитель, сисадмины повезли поломанный сервер с Raid5 SCSI в сервис-центр, который продает и чинит Aquarius в Ставрополе.

В сервисе сидит еще один грамотей с записью "системный администратор" в трудовой книжке. Тот принимает соломоново решение - заменить один из поломанных HDD SCSI на новый, и запустить rebuild. Параллельно дает газпромовским сисадминам мой телефон, и те звонят для консультации мне. В этот момент заканчивается ребилд с одним новым диском, и сисадмины коллегиально решают заменить давно вышедший из строя диск еще одним новым и запустить raid rebuild повторно. Узнав об этом в процессе телефонных консультаций, я приношу свои искренние поздравления, и сообщаю о том, что в этот самый миг они убивают все свои бухгалтерские базы со всеми бекапами, начиная с 2002 года, наповал. Сисадмин говорит, - "а вдруг получится?!". Я плачу навзрыд, и прерываю разговор.

Теперь сервер стоит у меня в мастерской, и третий день я имею развлечение, пытаясь собрать из посекторных копий всех старых рабочих, новых свежее-отребилденных, и старых, которые мне пришлось отремонтировать, SCSI винчестеров рабочий рейдмассив с валидными данными.

Оставить комментарий

Читать комментарии к статье

Оставить комментарий:

Текст на изображении: Дайте понять, что вы не спамер Если вам не понятен текст на изображении обновите страницу, нажав F5

Cosmos
Хорошо критиковать народ. Может этоти "граматеи" по вашему и не шарят в райд массивах, но шарят в чем либо другом. Невозможно знать ВСЕ в такой специальности как АСУ. И если Вы считаете иначе, то Вы юзер, который думает что сис админ сидит и ничего не делает днями, а ведь хороший сис админ, это тот, у которого все работает, а не тот который постоянно что то чинит и пытается наладить!

Я так понял, Вы занимаетесь восстановлением данных? Я еще понял что вы в этом хорошо разбираетесь, но Вы, хороший сис админ, сможете выгрузить базу 1с командой в 1 строку из командной строки? или тупо заправить картридж для лазерника? Вы ответите, что сможете, если понадобится, Но в данный момент Вы этого не можете... Так и все!
Robin
Никто не спорит - разбираться во всех аспектах, касающихся IT если и не невозможно, то по крайней мере очень сложно. Нельзя быть продвинутым программистом на ассемблере, 1С, знать все тонкости и секреты пакетов Adobe и Steinberg, заправлять и чиповать картриджи и паять материнки с блоками питания одинаково хорошо.

Но человечетво додумалось до таких вещей, как специализация. Если я прихожу в ресторан, мне все равно, что повар не может починить двигатель на моей машине, но я рассчитываю получить от него вкусную еду.

А в описанном случае налицо вопиющий непрофессионализм! Люди вообще не в курсах, что такое сервер, как устроен рейд массив, что можно делать, в случаях сбоев, а что нельзя. Они не в состоянии выполнить главную работу системного администратора - обеспечить бесперебойную работу компьютерного парка предприятия, завязанного на работу сервера.

В одном из телефонных разговоров с сисадминами, уже по факту свершившегося, я услышал "Теперь-то мы знаем, что к чему. Сидим, вот, документацию читаем".
Вы верно сказали - хороший админ должен гонять в квейк, потому что у него все работает. Но забыли упомянуть - как назвать такого админа, у которого в квейк вынуждена играть вся бухгалтерия в полном составе, потому что работать им стало не с чем.
cooper
печально...но я рад за тебя чувак...сам очень часто видел подобную картину...когда у крупной фирмы стоит хорошее серверное оборудование и есть человек который должен это оборудование обслуживать..но вот как только что то там ломается почему обычно эти люди либо сами сразу увольняются либо со временем увольняют их..а не которые вообще берут человека на должность сис админа для того чтобы он им бумажки печатал..а когда ломается сервак вызывают "компьютерную помощь"...так собственно почему рад то...а потому что у всех кризис...а газпром очень богатый..я думаю за такую работу прийдеться ему не парой штук расплачиваться)
Александр
у нас на фирме произошла подобная ситуация с RAID5 из четырх дисков, вот только сервер никак не сигнализировал о выходе из строя дисков, а и ребилд непонятно как был произведен - сисадмина на фирме нет, сервер находится в помещении под замком. Первый диск "выпал" три недели тому, второй - неделю тому. Теперь никак не можем понять, можно ли было такое сделать удаленно, или все произошло из-за неправильных настроек "на автомате"
Robin
Не глядя сложно что-либо сказать. На вскидку нужно посмотреть хотя бы первые 6 млн. LBA с каждого диска, чтобы сделать предварительное заключение.
Onik
просто в шоке...
Tigger
а) Слабо верится в саму возможность запустить ребилд при недостающем количестве дисков. Если том не деградировал, а упал - чему и куда ребилдиться ? Контроллер просто не позволит. Вот если вернуть один из отвалившихся дисков в онлайн - тогда да, ребилд пойдёт, но до конца, понятное дело, не дойдёт.

б) За контроллерами семейства ICH водится такое поганое свойство - зажигать лампочку на корзине не всеогда сразу. Крайний раз было дело: захожу - слышу звук. Странный такой звук, зудящий, как будто где-то рэле не может нормально включиться, кто слышал - поймёт (потому сразу кинулся на упсы глядеть). Ан, нет - звук шёл не от них. От корзины сервака он шёл... Но лампочки, заразы, все зеленели, как трава в рекламе йогуртов. Запустил я консольку управления рэйдом - и вот тут-то на одном из винтов лампочка и покраснела. Он, сволочь, и жужжал. И алерт тут же пришёл. Значит, ICH - птица гордая, пока не пнёшь..? Каково ?

P.S. Интересно, слышали ли тобой описываемые админы про такой термин, как hotspare ?

Заметки схожей тематики:

Восстановить raid в Краснодаре

Как вернуть информацию с массива RAID10

Восстановление данных с Raid 10 из Ессентуков