De ce a picat data center-ul ING. Explicațiile hardware și software

Știti cu toții incidentul de la ING. Iar eu ca specialist vă spun că nu cred o iotă din explicațiile pentru public. Pentru că dacă asta ar fi fost cauza, atunci directorul IT, cei care erau de serviciu, cei care au autorizat testul, cei care faceau mentenanță la data center ar trebui sa fi zburat din bancă, încă de sâmbătă de la prânz. Practic ING și-a distrus singură data center-ul, oare ce are de ascuns? Dar să detaliem, pentru că am trecut de atâtea ori prin fix aceeași problemă.

Hardware

Serverele de la ING au trecut prin zero. Adica pur și simplu li s-a luat curentul. Cam asta credeam când am văzut o pauză de 10 ore. Pentru că ăsta e intervalul de timp până reusești să ridici un RAID pe niște servere, sau să îl repari.
Practic, un server o dată pus în funcțiune, mai ales dacă rulează RAID, dacă e pe linux sau dacă transferă multe date, nu are voie să se oprească, orice ar fi. Dar detaliem asta la software.

Până atunci serverele au picat pentru că le-au picat hardurile. Asta se întămplă din câteva cauze. Cea mai comuna e lipsa de curent electric, atunci când pe un hard-disk se scrie informație. Iar la ING se scrie informație. Atunci hardul pică, iar dacă mă contrazice cineva, le dau niste terra de informație de la mine de acasă să mi-o recupereze.
Altfel poate fi și cauza lor, dar mi se pare stupidă. E ca și cum ăștia de la ING aveau o cameră, pe care au considerat-o data center și în ea au pus servere unele peste altele și lucrau așa cu ea. Cu informația clienților și a băncii, cu o soluție făcută pe genunchi de o echipă IT mult prea specialistă în orice ca să poată fi pusă la îndoială. Dar aici se încalcă principiul colaborativ, unde IT-ul nu trebuie să fie singurul specialist ci trebuie și să colaboreze cu ceilalți.

Oare toate data centerele ING din lume sunt la fel?

Ei și după ce repornești serverele astea. Pentru că au picat toate, nu numai un singur server. Sau ING își ținea toată informația într-un singur server? După ce repornești serverele astea, fix 10 ore durează să se repare RAID-ul.

Sau și dacă îți crapă trei harduri dintr-un RAID 5, reușești să îl repornești, dar durează. Yey! Joy!

Ah, as mai face un pariu. UPS-urile n-au ținut.

Software

Ziceam mai sus. ING este o bancă care lucreaza cu baze de date. Nu mă gândesc acum ce fel de baze de date și pe ce infrastructură, dar toate funcționează pe un principiu asemănător. Transfer mare de fișiere, query-uri mari în baza de date, căutare mare în baza de date pentru returnarea unui răspuns pentru clienți, bancomate, POS-uri, alte bănci. Deci aceste query-uri suprasolicită discurile. Fac fișiere temporare din care extrag informație, se blochează tabele în baza de date și asa mai departe. În momentul în care, pe mysql de exemplu, serverul scrie pe disk, iar cineva îl scoate din priză, diskul respectiv crapă. Și crapă cu șanse foarte mari de pierdere totală a informației.

ING spune că a apelat la backup!!! Dar de când era făcut acest backup? De ce backup-ul nu a fost disponibil instant? Pentru că specialiștii lor IT nu aveau un server de backup pregătit? Pentru că back-up-ul era naiba știe unde și că au terbuit să îl tragă inapoi din internet?

Oricum. Treaba cu backup-ul nu ține, pentru că ori o ai ori nu o ai. Iar dacă o ai terbuie să ai ceva disponibil în 10 minute, iar asta se face prin virtualizare.

Adică software-ul de la ING nu era instalat pe servere virtuale, ci pe servere fizice, că așa au considerat specialiștii. Dacă era pe virtuale, în structura de clustere, un virtual se putea porni în aproxiativ 10 minute și să acceseze o bază de date, sau backup-ul acesteia fără probleme.

Eu am în grijă două data centere. Nu sunt calificat să mă ocup de niciunul dintre ele, dar ma joc și îmi iese. Iar eu fac backup dintr-un data center în celalalt. Care data centere sunt în clăridi diferite. Dacă unul din ele pică, îl pot porni pe al doilea. Și invers.

Să revenim la software. Cum funcționează baza de date a unei bănci, dacă nu are un principiu de virtualizare de gen server n, n+1? Mai ales la un numar mare de qurey-uri. Adică de ce nu s-au gândit ca la mysql master – slave să facă o soluție asemănătoare, iar în momentul fatidic, în care masterul pică, unul din slave-uri să îi preia sarcina, iar apoi vedem noi, dar aplicația rămâne funcțională.

Cum au putut afecta sistemele de web și de SMS, dacă acestea n-ar fi fost ținute pe servere fizice. Altfel, în virtualizare, serverele aveau backup, de cațiva zeci de giga, dar era o imagine care putea fi stocată oriunde și care putea porni în secunda imediat următoare. Oh, a crăpat fizic serverul care ținea virtualele, ghinion. Punem altul, îl băgăm în priză, îi dăm imaginea, in 40 de minute e UP.

Ce sistem de stocare au ales, dacă la o trecere prin zero (așa se cheamă electric, faptul că se ia curentul) le crapă diskul. Internetul e plin de erori de genul ăsta din diferite alte locuri.

Și dacă tot și-au distrus cu bună știință data center-ul, ar trebui să îi felicit că au prieteni buni care au reușit în termen scurt să le livreze o tonă de hard-disk-uri. Că nu cred că aveau în birou harduri de backup astfel încât să acopere tot data center-ul.

Altfel asta e problema unei firme, nu a ING, ci a oricărei firme care se bazează pe niște servere pe care și le ține în cămara aia și consideră zona aia datac enter. Pentru că un data center dacă îl ții la tine acasă nu e greu de făcut, costă ceva dar nu e greu de făcut. E greu de întreținut, e greu de prevăzut situații excepționale, e greu de intervenit dacă ceva crapă, iar specialiștii de cele mai multe ori sunt prea ”calificați” ca să poată prevedea așa ceva. Ei se gândesc că așa ceva nu se întâmplă, dar fac o chestie din asta standard românească, pe principiul lasă mă că merge și așa și vom vedea noi. Nu pică, că uite-le sunt în funcțiune.

Featured image: un datacenter asemănător cu al meu

De ce a picat data center-ul ING. Explicațiile hardware și software

Hardware

Software

Like this:

Articole pe aceași temă

Cristi Dorombach

România, singurul stat din UE fără limită de viteză pe autostrăzi

Am devenit membru Salt Bank, Revolutul românesc făcut de Banca Transilvania

Am văzut Dune 2, fără telefon mobil. Experiența a fost intensă

Dacia Spring facelift. Noul design și prețurile mașinii electrice

Redmi Note 13 Pro 5G. Un telefon bun, la un preț surprinzător

Începem să uităm să mergem

Leave a ReplyCancel reply

TechCorner

Ads

Top Posts & Pages

De ce a picat data center-ul ING. Explicațiile hardware și software

Hardware

Software

Share this:

Like this:

Articole pe aceași temă

Cristi Dorombach

Leave a ReplyCancel reply