reseni problemu s HDD

Novinky na MyPower.CZ, podpora, návrhy, nápady, náměty, stížnosti ...
lzahradil
Site Admin
Příspěvky: 921
Registrován: ned srp 12, 2012 1:18 am
Lokalita: blízko Plzně
Systémové napětí: 48V
Výkon panelů [Wp]: 5840
Kapacita baterie [kWh]: 28
Bydliště: CZ

reseni problemu s HDD

Příspěvek od lzahradil »

Jistě jste si všimnuli občasného "zatuhnutí/zpomalení" načítání webu.
Tentokrát to není žádný flood http request které už máme snad za sebou "ťuk ťuk" . Tentokrát se jedná o hw chybu na serveru, konkrétně HDD
Pro nás ajťáky skoro běžná věc... Vytáhnu šuplík s diskem, disk se vymění za nový, zasune šuplík, chvíli to bude chroupat a bude po problému..
jenže já do serverovny mám v plánu jet ještě kvůli jinému serveru až příští týden :)

takže popíšu situaci a jestli tu je nějaký IT, třeba mi řekne, tohle nedělej a nebo naopak že to je bezpečné.

Aktuální server kde zrovna běžíme má 4 disky zapojené do SmartArray v Raid5. Pole jako celek je ve stavu OK, proto zatím žádná notifikace.. Problém jsem identifikoval celkem znatelně při testech kdy IO operace využívalo dost prostředků čímž se vše na chvíli jakoby zamrazilo.
Vypsal jsem si proto ze SmartArray detail jednotlivých disků a tam už je viditelný problém..

logicaldrive 1 (5.46 TB, RAID 5, OK)

physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS HDD, 2 TB, Predictive Failure)

Vzhledem k tomu že se jedná o Raid5, vše by mělo v pořádku běžet beze změny s třema diskama. Čtvrtý disk není ve stavu Failure, takže pole hlásí stav OK a "nemocný" disk dále pracuje ale kvůli chybě zlobí, což ovlivní celé pole.
Řešení to má. Buďto zavolám klukům do serverovny ať disk vytáhnou, čímž se pole převrtí na 3 disky díky ztrátě jednoho (simulace failure stavu) a nebo mu pošlu příkaz přímo do řadiče
ssacli controller slot=2 physicaldrive 1I:1:4 modify disablepd a tím bych ho měl odpojit.

Otázka je, pokud není volný spare disk, bude to fungovat takto příkazem ? Zkušenosti mám, pokud tam je alespoň jeden spare. Při vypnutí se aktivuje spare a začne se používat.

Pokud bych ten vadný vyřadil z provozu než dojde k výměně, zmizelo by to občasné zatuhávání.
Vím, když by selhal další, už je to špatné... Ale takovou smůlu náhod snad mít nebudem. V nejhorším scénáři máme online replikaci na další 4 jiné fyzické servery, takže ze ztráty dat strach nemám.. Jen by byla práce navíc...
Výpočty statistik a některé ostatní náročné věci jsem odsunul na ostatní servery abych tomuhle co nejvíc snížil zátěž.

A teď do mě s radama :)
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
Uživatelský avatar
mgx
Příspěvky: 485
Registrován: stř dub 15, 2015 1:14 pm
Bydliště: Tatranska Lomnica

Re: reseni problemu s HDD

Příspěvek od mgx »

Prestuduj si toto

https://community.hpe.com/t5/ProLiant-S ... yIghXZBxaQ

Predictive failure neznamena, ze pole nebezi, len statistiky uz nevychadzaju. Ak tam nemas cestu, pustil by som zatial zalohu/hy a pustal zalohovanie trosku castejsie. Na fore asi staci 1x denne a dovtedy nerobil nic.

Ak nemas volny spare, nevypinal by som to. Viem ze pri rovnakej chybe bol pripad, ze nebol problem s diskom, ale s jeho starym BIOSom. AK mas disky z jednej serie, pravdepodobnost ze odidu aj dalsie je vysoka.

Tzn. pockal by som az budem onsite a vrazim do pola spare. To treba spravit pri vypnutom stroji. Pri otazke
"Fail the array" a "Fail the drive and continue with interim recovery", treba zvolit "Continue with interim recovery". Kym sa to neprebuduje, si bez ochrany..
mopadzi
Příspěvky: 991
Registrován: úte led 24, 2012 8:55 am
Lokalita: Okolí Uherského Brodu
Chci prodávat energii: NE
Chci/Mám dotaci: NE

Re: reseni problemu s HDD

Příspěvek od mopadzi »

zažil jsem stav kdy raid5 při rebuildu pole (po výměně vykoplého disku) spadl na další lehlý disk....
PavlikT
Příspěvky: 55
Registrován: pon lis 09, 2020 9:35 pm

Re: reseni problemu s HDD

Příspěvek od PavlikT »

"To treba spravit pri vypnutom stroji."

No, tipoval bych (sou toa SASy), ze to budou urcite HotSwapp disky.. Takze vypinat se nic nemusi pri vymene nebo pridavani disku. SmartArray ma nakej management bud pres web a nebo mozna v ramci Ilo a da se to vetsinou vzdalene naklikat (sou lepsi a horsi radice SmartArray), pokud je tam misto na dalsi spare disk.
Ale souhlasim, ze u RAID5ky bych to nechal v degraded (odpojeny diak) nebo rebuild stavu co nejkratsi dobu ;-)
Ty lespsi SmartArray umi vetsinou RAID6, takze muzou odejit 2 disky...
lzahradil
Site Admin
Příspěvky: 921
Registrován: ned srp 12, 2012 1:18 am
Lokalita: blízko Plzně
Systémové napětí: 48V
Výkon panelů [Wp]: 5840
Kapacita baterie [kWh]: 28
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvek od lzahradil »

Jasně že jsou to HotSwap. Proto píšu o šuplíku. Běžně je měníme za chodu. Ale vždy je v dalším šuplíku i spare disk na který se to po vytažení špatného převrtí a nově instalovaný se stane spare.
Zde ale volný šuplík není. Tzn, když bych disk vytáhl, poběží to dál, ale už nebude prostor na případný další chybový stav.

Tak me zajímalo, zda je možné bez spare ten vadný disk proste příkazem vypnout. Zda právě nečeká s tím že už tam bude mít připravený spare.

Tenhle smartarray umí také raid6, ale ta chce pro smysuplné využití alespoň 5 disků a na to v tomhle stroji není prostor.
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
PetrDubi
Příspěvky: 1347
Registrován: úte říj 12, 2021 10:43 am
Lokalita: Blízko Ústí nad Labem
Systémové napětí: 48V
Výkon panelů [Wp]: 7100
Kapacita baterie [kWh]: 13
Chci prodávat energii: NE
Chci/Mám dotaci: NE

Re: reseni problemu s HDD

Příspěvek od PetrDubi »

Já bych ho vypnul raději až ho budeš měnit. Kdyby náhodou odešel ještě nějaký (náhoda je blbec) do té doby než tam pojedeš a dáš tam ten novej, tak ti to spadne. Takhle to ve zpomaleném režimu pojede dál.
mobilní elektrárna 3x Uni-solar PVL-68, 3x MPP modul, vše řízené přes arduino
doma 3280 Wp JV, 3810 Wp JZ, Easun SMW 8k (rebrandovaný MAX 8 kW), aku 13kWh 16s LiFePO4
lzahradil
Site Admin
Příspěvky: 921
Registrován: ned srp 12, 2012 1:18 am
Lokalita: blízko Plzně
Systémové napětí: 48V
Výkon panelů [Wp]: 5840
Kapacita baterie [kWh]: 28
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvek od lzahradil »

Převládá rada počkat. Tak počkám.
Co jsem přesunul hodně práce na jiné stroje, které se teď potí tak to docela i běží. Předtím zamrzalo i psaní v terminálu po ssh..
Snad to vydrží a nebo to možná přejde do stavu Failure samo až to zamrzne na delší dobu kdy řadič vyhodnotí že se jedná o chybovej stav a bude po problému :)
Pak mě to nakopne a udělám si vejlet dříve než bylo v plánu.
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
camel1cz
Příspěvky: 765
Registrován: pon bře 21, 2011 11:12 pm
Systémové napětí: 48V
Výkon panelů [Wp]: 3780
Kapacita baterie [kWh]: 18

Re: reseni problemu s HDD

Příspěvek od camel1cz »

Jasně, kdo si počká, ten se dočká :)

Jinak jestli to ten server umí, tak bych rozhodně vyměnil disk a rebuildnul pole zaživa bez rebootu.
Disky odchází právě při restartu a reboot degradovaného pole ve stroji, který má velký uptime je riziko. Už se mi stalo, že při rebootu chcípnul disk.
5 kVA Axpert King @ 3,78 kWp [12x AUO 315Wp mono]
18 kWh [5x Pylontech US3000]
Rozpracováno:
Fangpusun MPPT 150/70 Tr @ 1,89 kWp [6x AUO 315Wp mono]
5 kVA Axpert King II @ 5,52 kWp [12 x AS 460Wp mono]
lzahradil
Site Admin
Příspěvky: 921
Registrován: ned srp 12, 2012 1:18 am
Lokalita: blízko Plzně
Systémové napětí: 48V
Výkon panelů [Wp]: 5840
Kapacita baterie [kWh]: 28
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvek od lzahradil »

jj, půjde za živa.
Tenhle dělník má uptime "jen"
22:53:40 up 817 days, 19:17:45, load average: 0.75, 0.83, 0.86
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
dusanmsk
Příspěvky: 313
Registrován: pát říj 15, 2021 10:41 am
Lokalita: Stredocesky kraj
Systémové napětí: 48V
Výkon panelů [Wp]: 11250
Kapacita baterie [kWh]: 9.6
Chci prodávat energii: NE
Chci/Mám dotaci: NE

Re: reseni problemu s HDD

Příspěvek od dusanmsk »

Neviem co podporuje ten radic, ale ja v pripade, ze sa zeniem do pruseru a nemam istotu ze sa to vypnutim neposere, robim spare disk z nejakeho usb3 ssd/hdd. Toto asi nepojde s hw raid radicmi v klasickych serveroch, coz je zaroven dovod, preco ich velmi nerad pouzivam a radsej si robim swraid. Asi som moc nepomohol.
30*375 Wp JJZ, 2xXTM4000, 2xVT-80, 2xUS5000
Kostěj
Příspěvky: 583
Registrován: úte úno 25, 2014 9:33 pm
Lokalita: Dobrovicko
Systémové napětí: 48V
Výkon panelů [Wp]: 9200
Kapacita baterie [kWh]: 16
Chci prodávat energii: NE
Chci/Mám dotaci: NE

Re: reseni problemu s HDD

Příspěvek od Kostěj »

lzahradil píše: ... Predictive Failure...
Nechci být poslem špatných zpráv, ale u nás nám tahle chyba pěkně zatápěla. I když by podle všeho mělo pole fungovat, stávalo se nám, že pole s touto chybou úplně spadlo, a to i přesto, že byl k dispozici hotspare (ten ale zůstal nepoužit). Po rebootu serveru obvykle zase naběhlo. Řešilo se to updaty firmware a poslední doporučení výrobce bylo okamžitě takový disk označit jako failed. Od té doby jsou naše pole podstatně stabilnější. Ale asi záleží na výrobci pole.
Uživatelský avatar
lwq
Příspěvky: 465
Registrován: úte dub 10, 2012 10:42 pm
Lokalita: Mělník
Systémové napětí: 48V
Výkon panelů [Wp]: 8550
Kapacita baterie [kWh]: 32
Bydliště: MistyMountain

Re: reseni problemu s HDD

Příspěvek od lwq »

Spravuju 3k+ serveru. Vsude mame RAID1 nebo RAID10 (typicky 4 nebo 6 disku), tak doporucim na tohle prejit, ale to si asi nechtel slyset.
Ja bych zkontroloval zalohy a pockal s vymenou hot-swappem na miste. Vypinani neni dobrej napad - muze odejit dalsi disk - je to zbytecny stres navic.

Mohu poskytnou jako dar Fujitsu RX200 S8 s 2xXeon 2630L v2, 64GB, ma 8ks SAS/SATA slotu pro 2,5" disky, umi i SSD. Byl by zajem? HP se nejlepe zbavit, pokud si clovek neplati drahej support (btw. update FW mate za prachy... wtf?)...
lzahradil
Site Admin
Příspěvky: 921
Registrován: ned srp 12, 2012 1:18 am
Lokalita: blízko Plzně
Systémové napětí: 48V
Výkon panelů [Wp]: 5840
Kapacita baterie [kWh]: 28
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvek od lzahradil »

Dnes v pozdějších večerních hodinách dojde na výměnu.
Dávám vědět dopředu pro případ že nastane nějaký kritický scénář a prohlížeč by vám nadával že stránku nemůže najít nebo že vypršel časový limit...
Pro tu nejhorší možnou situaci mám připravené bitové kopie takže by to znamenalo jen přenesení zpět a následně dosynchronizovaní dat ze sekundárních serverů kam se data replikují.

Nu což, krátké info jsem splnil a snad nikdo nic nezaznamená
:yes:
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]
JiříK
Příspěvky: 1021
Registrován: pon bře 21, 2011 6:29 pm
Bydliště: 345m n.m. v Chřibech

Re: reseni problemu s HDD

Příspěvek od JiříK »

Držím palce! :fuuu:
Pokud mě uvidíte tančit a nehraje hudba, vypněte, prosím, hlavní jistič...
PetrDubi
Příspěvky: 1347
Registrován: úte říj 12, 2021 10:43 am
Lokalita: Blízko Ústí nad Labem
Systémové napětí: 48V
Výkon panelů [Wp]: 7100
Kapacita baterie [kWh]: 13
Chci prodávat energii: NE
Chci/Mám dotaci: NE

Re: reseni problemu s HDD

Příspěvek od PetrDubi »

Ať se dílo podaří ;)
mobilní elektrárna 3x Uni-solar PVL-68, 3x MPP modul, vše řízené přes arduino
doma 3280 Wp JV, 3810 Wp JZ, Easun SMW 8k (rebrandovaný MAX 8 kW), aku 13kWh 16s LiFePO4
lzahradil
Site Admin
Příspěvky: 921
Registrován: ned srp 12, 2012 1:18 am
Lokalita: blízko Plzně
Systémové napětí: 48V
Výkon panelů [Wp]: 5840
Kapacita baterie [kWh]: 28
Bydliště: CZ

Re: reseni problemu s HDD

Příspěvek od lzahradil »

hlasim se primo z DC.
vadny disk je vymenen za novy. Nyni probiha viditelne rebuild.
co se mi ale nelibi... raid radic hlasi na jakykoliv prikaz (Error: Not responding), ale spravne se detekuje... tak snad je to jen prechodnej stav nez se to pole sestavi tim ze ma spoustu prace :)
vse viditelne jede bez vypadku, takze odevzdam navleky a jedu smer domov kde to pak zkouknu detailneji.

edit 28.9.2022 14:12:
raid už odpovidá. Skutečně probíhá rebuild (příprava disku pro začlenění do pole). Stav je 32%, takže to bude ještě nějakou dobu trvat :shock:
Jen doufám že mezi tím neodejde nějaký další. Kupoval jsem je všechny stejně, takže mají stejné stáří i podmínky.

logicaldrive 1 (5.46 TB, RAID 5, Recovering, 32.08% complete)

physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS HDD, 2 TB, OK)
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS HDD, 2 TB, Rebuilding)

edit 29.9.2021 20:13
logicaldrive 1 (5.46 TB, RAID 5, Recovering, 68.54% complete)

trvá to dlouuuho
FVE 5,84kWp [Axpert 5048MK - LiFePO4 580Ah@48V (zatím) | 3x Axpert MSXE 2400W - NiCd 800Ah@24V]

  • Podobná témata
    Odpovědi
    Zobrazení
    Poslední příspěvek