Fórum | MyPower.CZ | Obnovitelné zdroje energie - energetická soběstačnost | Poslední návštěva: stř zář 28, 2022 1:21 am


reseni problemu s HDD

Novinky na MyPower.CZ, podpora, návrhy, nápady, náměty, stížnosti ...

reseni problemu s HDD

Příspěvekod lzahradil » stř zář 14, 2022 7:34 pm

Jistě jste si všimnuli občasného "zatuhnutí/zpomalení" načítání webu.
Tentokrát to není žádný flood http request které už máme snad za sebou "ťuk ťuk" . Tentokrát se jedná o hw chybu na serveru, konkrétně HDD
Pro nás ajťáky skoro běžná věc... Vytáhnu šuplík s diskem, disk se vymění za nový, zasune šuplík, chvíli to bude chroupat a bude po problému..
jenže já do serverovny mám v plánu jet ještě kvůli jinému serveru až příští týden :)

takže popíšu situaci a jestli tu je nějaký IT, třeba mi řekne, tohle nedělej a nebo naopak že to je bezpečné.

Aktuální server kde zrovna běžíme má 4 disky zapojené do SmartArray v Raid5. Pole jako celek je ve stavu OK, proto zatím žádná notifikace.. Problém jsem identifikoval celkem znatelně při testech kdy IO operace využívalo dost prostředků čímž se vše na chvíli jakoby zamrazilo.
Vypsal jsem si proto ze SmartArray detail jednotlivých disků a tam už je viditelný problém..

logicaldrive 1 (5.46 TB, RAID 5, OK)

physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS HDD, 2 TB, Predictive Failure)

Vzhledem k tomu že se jedná o Raid5, vše by mělo v pořádku běžet beze změny s třema diskama. Čtvrtý disk není ve stavu Failure, takže pole hlásí stav OK a "nemocný" disk dále pracuje ale kvůli chybě zlobí, což ovlivní celé pole.
Řešení to má. Buďto zavolám klukům do serverovny ať disk vytáhnou, čímž se pole převrtí na 3 disky díky ztrátě jednoho (simulace failure stavu) a nebo mu pošlu příkaz přímo do řadiče
ssacli controller slot=2 physicaldrive 1I:1:4 modify disablepd a tím bych ho měl odpojit.

Otázka je, pokud není volný spare disk, bude to fungovat takto příkazem ? Zkušenosti mám, pokud tam je alespoň jeden spare. Při vypnutí se aktivuje spare a začne se používat.

Pokud bych ten vadný vyřadil z provozu než dojde k výměně, zmizelo by to občasné zatuhávání.
Vím, když by selhal další, už je to špatné... Ale takovou smůlu náhod snad mít nebudem. V nejhorším scénáři máme online replikaci na další 4 jiné fyzické servery, takže ze ztráty dat strach nemám.. Jen by byla práce navíc...
Výpočty statistik a některé ostatní náročné věci jsem odsunul na ostatní servery abych tomuhle co nejvíc snížil zátěž.

A teď do mě s radama :)
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
?
lzahradil
Site Admin
 
Příspěvky: 526
Registrován: ned srp 12, 2012 12:18 am
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvekod mgx » stř zář 14, 2022 7:47 pm

Prestuduj si toto

https://community.hpe.com/t5/ProLiant-S ... yIghXZBxaQ

Predictive failure neznamena, ze pole nebezi, len statistiky uz nevychadzaju. Ak tam nemas cestu, pustil by som zatial zalohu/hy a pustal zalohovanie trosku castejsie. Na fore asi staci 1x denne a dovtedy nerobil nic.

Ak nemas volny spare, nevypinal by som to. Viem ze pri rovnakej chybe bol pripad, ze nebol problem s diskom, ale s jeho starym BIOSom. AK mas disky z jednej serie, pravdepodobnost ze odidu aj dalsie je vysoka.

Tzn. pockal by som az budem onsite a vrazim do pola spare. To treba spravit pri vypnutom stroji. Pri otazke
"Fail the array" a "Fail the drive and continue with interim recovery", treba zvolit "Continue with interim recovery". Kym sa to neprebuduje, si bez ochrany..
Uživatelský avatar
mgx
 
Příspěvky: 287
Registrován: stř dub 15, 2015 12:14 pm
Bydliště: Tatranska Lomnica

Re: reseni problemu s HDD

Příspěvekod mopadzi » stř zář 14, 2022 7:50 pm

zažil jsem stav kdy raid5 při rebuildu pole (po výměně vykoplého disku) spadl na další lehlý disk....
?
mopadzi
podporuje fórum
 
Příspěvky: 872
Registrován: úte led 24, 2012 8:55 am

Re: reseni problemu s HDD

Příspěvekod PavlikT » stř zář 14, 2022 8:01 pm

"To treba spravit pri vypnutom stroji."

No, tipoval bych (sou toa SASy), ze to budou urcite HotSwapp disky.. Takze vypinat se nic nemusi pri vymene nebo pridavani disku. SmartArray ma nakej management bud pres web a nebo mozna v ramci Ilo a da se to vetsinou vzdalene naklikat (sou lepsi a horsi radice SmartArray), pokud je tam misto na dalsi spare disk.
Ale souhlasim, ze u RAID5ky bych to nechal v degraded (odpojeny diak) nebo rebuild stavu co nejkratsi dobu ;-)
Ty lespsi SmartArray umi vetsinou RAID6, takze muzou odejit 2 disky...
?
PavlikT
 
Příspěvky: 21
Registrován: pon lis 09, 2020 9:35 pm

Re: reseni problemu s HDD

Příspěvekod lzahradil » stř zář 14, 2022 8:20 pm

Jasně že jsou to HotSwap. Proto píšu o šuplíku. Běžně je měníme za chodu. Ale vždy je v dalším šuplíku i spare disk na který se to po vytažení špatného převrtí a nově instalovaný se stane spare.
Zde ale volný šuplík není. Tzn, když bych disk vytáhl, poběží to dál, ale už nebude prostor na případný další chybový stav.

Tak me zajímalo, zda je možné bez spare ten vadný disk proste příkazem vypnout. Zda právě nečeká s tím že už tam bude mít připravený spare.

Tenhle smartarray umí také raid6, ale ta chce pro smysuplné využití alespoň 5 disků a na to v tomhle stroji není prostor.
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
?
lzahradil
Site Admin
 
Příspěvky: 526
Registrován: ned srp 12, 2012 12:18 am
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvekod PetrDubi » stř zář 14, 2022 8:38 pm

Já bych ho vypnul raději až ho budeš měnit. Kdyby náhodou odešel ještě nějaký (náhoda je blbec) do té doby než tam pojedeš a dáš tam ten novej, tak ti to spadne. Takhle to ve zpomaleném režimu pojede dál.
mobilní elektrárna 3x Uni-solar PVL-68, 3x MPP modul, vše řízené přes arduino
doma 3280 Wp JV, 2460 Wp JZ, Easun SMW 8k (kopie MAXe 8 kW), aku 6,1kWh 16s LiFePO4
?
PetrDubi
podporuje fórum
 
Příspěvky: 394
Registrován: úte říj 12, 2021 9:43 am

Re: reseni problemu s HDD

Příspěvekod lzahradil » stř zář 14, 2022 9:09 pm

Převládá rada počkat. Tak počkám.
Co jsem přesunul hodně práce na jiné stroje, které se teď potí tak to docela i běží. Předtím zamrzalo i psaní v terminálu po ssh..
Snad to vydrží a nebo to možná přejde do stavu Failure samo až to zamrzne na delší dobu kdy řadič vyhodnotí že se jedná o chybovej stav a bude po problému :)
Pak mě to nakopne a udělám si vejlet dříve než bylo v plánu.
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
?
lzahradil
Site Admin
 
Příspěvky: 526
Registrován: ned srp 12, 2012 12:18 am
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvekod camel1cz » stř zář 14, 2022 9:44 pm

Jasně, kdo si počká, ten se dočká :)

Jinak jestli to ten server umí, tak bych rozhodně vyměnil disk a rebuildnul pole zaživa bez rebootu.
Disky odchází právě při restartu a reboot degradovaného pole ve stroji, který má velký uptime je riziko. Už se mi stalo, že při rebootu chcípnul disk.
3,78 kWp [12 x AUO 315 W mono]
5 kVA Axpert King [PIP-5048MK]
18 kWh [5x Pylontech US3000]
?
camel1cz
 
Příspěvky: 709
Registrován: pon bře 21, 2011 11:12 pm

Re: reseni problemu s HDD

Příspěvekod lzahradil » stř zář 14, 2022 9:55 pm

jj, půjde za živa.
Tenhle dělník má uptime "jen"
22:53:40 up 817 days, 19:17:45, load average: 0.75, 0.83, 0.86
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
?
lzahradil
Site Admin
 
Příspěvky: 526
Registrován: ned srp 12, 2012 12:18 am
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvekod dusanmsk » stř zář 14, 2022 10:13 pm

Neviem co podporuje ten radic, ale ja v pripade, ze sa zeniem do pruseru a nemam istotu ze sa to vypnutim neposere, robim spare disk z nejakeho usb3 ssd/hdd. Toto asi nepojde s hw raid radicmi v klasickych serveroch, coz je zaroven dovod, preco ich velmi nerad pouzivam a radsej si robim swraid. Asi som moc nepomohol.
?
dusanmsk
 
Příspěvky: 125
Registrován: pát říj 15, 2021 9:41 am

Re: reseni problemu s HDD

Příspěvekod Kostěj » čtv zář 15, 2022 4:32 pm

lzahradil píše: ... Predictive Failure...

Nechci být poslem špatných zpráv, ale u nás nám tahle chyba pěkně zatápěla. I když by podle všeho mělo pole fungovat, stávalo se nám, že pole s touto chybou úplně spadlo, a to i přesto, že byl k dispozici hotspare (ten ale zůstal nepoužit). Po rebootu serveru obvykle zase naběhlo. Řešilo se to updaty firmware a poslední doporučení výrobce bylo okamžitě takový disk označit jako failed. Od té doby jsou naše pole podstatně stabilnější. Ale asi záleží na výrobci pole.
?
Kostěj
 
Příspěvky: 256
Registrován: úte úno 25, 2014 9:33 pm

Re: reseni problemu s HDD

Příspěvekod lwq » čtv zář 15, 2022 10:30 pm

Spravuju 3k+ serveru. Vsude mame RAID1 nebo RAID10 (typicky 4 nebo 6 disku), tak doporucim na tohle prejit, ale to si asi nechtel slyset.
Ja bych zkontroloval zalohy a pockal s vymenou hot-swappem na miste. Vypinani neni dobrej napad - muze odejit dalsi disk - je to zbytecny stres navic.

Mohu poskytnou jako dar Fujitsu RX200 S8 s 2xXeon 2630L v2, 64GB, ma 8ks SAS/SATA slotu pro 2,5" disky, umi i SSD. Byl by zajem? HP se nejlepe zbavit, pokud si clovek neplati drahej support (btw. update FW mate za prachy... wtf?)...
Uživatelský avatar
lwq
 
Příspěvky: 406
Registrován: úte dub 10, 2012 9:42 pm
Bydliště: MistyMountain

Re: reseni problemu s HDD

Příspěvekod lzahradil » úte zář 27, 2022 4:28 pm

Dnes v pozdějších večerních hodinách dojde na výměnu.
Dávám vědět dopředu pro případ že nastane nějaký kritický scénář a prohlížeč by vám nadával že stránku nemůže najít nebo že vypršel časový limit...
Pro tu nejhorší možnou situaci mám připravené bitové kopie takže by to znamenalo jen přenesení zpět a následně dosynchronizovaní dat ze sekundárních serverů kam se data replikují.

Nu což, krátké info jsem splnil a snad nikdo nic nezaznamená
:yes:
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
?
lzahradil
Site Admin
 
Příspěvky: 526
Registrován: ned srp 12, 2012 12:18 am
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvekod JiříK » úte zář 27, 2022 4:46 pm

Držím palce! :fuuu:
Pokud mě uvidíte tančit a nehraje hudba, vypněte, prosím, hlavní jistič...
?
JiříK
 
Příspěvky: 988
Registrován: pon bře 21, 2011 6:29 pm
Bydliště: 345m n.m. v Chřibech

Re: reseni problemu s HDD

Příspěvekod PetrDubi » úte zář 27, 2022 6:47 pm

Ať se dílo podaří ;)
mobilní elektrárna 3x Uni-solar PVL-68, 3x MPP modul, vše řízené přes arduino
doma 3280 Wp JV, 2460 Wp JZ, Easun SMW 8k (kopie MAXe 8 kW), aku 6,1kWh 16s LiFePO4
?
PetrDubi
podporuje fórum
 
Příspěvky: 394
Registrován: úte říj 12, 2021 9:43 am

Re: reseni problemu s HDD

Příspěvekod lzahradil » úte zář 27, 2022 9:32 pm

hlasim se primo z DC.
vadny disk je vymenen za novy. Nyni probiha viditelne rebuild.
co se mi ale nelibi... raid radic hlasi na jakykoliv prikaz (Error: Not responding), ale spravne se detekuje... tak snad je to jen prechodnej stav nez se to pole sestavi tim ze ma spoustu prace :)
vse viditelne jede bez vypadku, takze odevzdam navleky a jedu smer domov kde to pak zkouknu detailneji.
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
?
lzahradil
Site Admin
 
Příspěvky: 526
Registrován: ned srp 12, 2012 12:18 am
Bydliště: CZ


Zpět na MyPower.CZ

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 0 návštevníků

Reputation System ©'