Știti cu toții incidentul de la ING. Iar eu ca specialist vă spun că nu cred o iotă din explicațiile pentru public. Pentru că dacă asta ar fi fost cauza, atunci directorul IT, cei care erau de serviciu, cei care au autorizat testul, cei care faceau mentenanță la data center ar trebui sa fi zburat din bancă, încă de sâmbătă de la prânz. Practic ING și-a distrus singură data center-ul, oare ce are de ascuns? Dar să detaliem, pentru că am trecut de atâtea ori prin fix aceeași problemă.

Hardware

Serverele de la ING au trecut prin zero. Adica pur și simplu li s-a luat curentul. Cam asta credeam când am văzut o pauză de 10 ore. Pentru că ăsta e intervalul de timp până reusești să ridici un RAID pe niște servere, sau să îl repari.
Practic, un server o dată pus în funcțiune, mai ales dacă rulează RAID, dacă e pe linux sau dacă transferă multe date, nu are voie să se oprească, orice ar fi. Dar detaliem asta la software.

Până atunci serverele au picat pentru că le-au picat hardurile. Asta se întămplă din câteva cauze. Cea mai comuna e lipsa de curent electric, atunci când pe un hard-disk se scrie informație. Iar la ING se scrie informație. Atunci hardul pică, iar dacă mă contrazice cineva, le dau niste terra de informație de la mine de acasă să mi-o recupereze.
Altfel poate fi și cauza lor, dar mi se pare stupidă. E ca și cum ăștia de la ING aveau o cameră, pe care au considerat-o data center și în ea au pus servere unele peste altele și lucrau așa cu ea. Cu informația clienților și a băncii, cu o soluție făcută pe genunchi de o echipă IT mult prea specialistă în orice ca să poată fi pusă la îndoială. Dar aici se încalcă principiul colaborativ, unde IT-ul nu trebuie să fie singurul specialist ci trebuie și să colaboreze cu ceilalți.

Oare toate data centerele ING din lume sunt la fel?

Ei și după ce repornești serverele astea. Pentru că au picat toate, nu numai un singur server. Sau ING își ținea toată informația într-un singur server? După ce repornești serverele astea, fix 10 ore durează să se repare RAID-ul.

Sau și dacă îți crapă trei harduri dintr-un RAID 5, reușești să îl repornești, dar durează. Yey! Joy!

Ah, as mai face un pariu. UPS-urile n-au ținut.

Software

Ziceam mai sus. ING este o bancă care lucreaza cu baze de date. Nu mă gândesc acum ce fel de baze de date și pe ce infrastructură, dar toate funcționează pe un principiu asemănător. Transfer mare de fișiere, query-uri mari în baza de date, căutare mare în baza de date pentru returnarea unui răspuns pentru clienți, bancomate, POS-uri, alte bănci. Deci aceste query-uri suprasolicită discurile. Fac fișiere temporare din care extrag informație, se blochează tabele în baza de date și asa mai departe. În momentul în care, pe mysql de exemplu, serverul scrie pe disk, iar cineva îl scoate din priză, diskul respectiv crapă. Și crapă cu șanse foarte mari de pierdere totală a informației.

ING spune că a apelat la backup!!!  Dar de când era făcut acest backup?  De ce backup-ul nu a fost disponibil instant? Pentru că specialiștii lor IT nu aveau un server de backup pregătit? Pentru că back-up-ul era naiba știe unde și că au terbuit să îl tragă inapoi din internet?

Oricum. Treaba cu backup-ul nu ține, pentru că ori o ai ori nu o ai. Iar dacă o ai terbuie să ai ceva disponibil în 10 minute, iar asta se face prin virtualizare.

Adică software-ul de la ING nu era instalat pe servere virtuale, ci pe servere fizice, că așa au considerat specialiștii. Dacă era pe virtuale, în structura de clustere, un virtual se putea porni în aproxiativ 10 minute și să acceseze o bază de date, sau backup-ul acesteia fără probleme.

Eu am în grijă două data centere. Nu sunt calificat să mă ocup de niciunul dintre ele, dar ma joc și îmi iese. Iar eu fac backup dintr-un data center în celalalt. Care data centere sunt în clăridi diferite. Dacă unul din ele pică, îl pot porni pe al doilea. Și invers.

Să revenim la software. Cum funcționează baza de date a unei bănci, dacă nu are un principiu de virtualizare de gen server n, n+1? Mai ales la un numar mare de qurey-uri. Adică de ce nu s-au gândit ca la mysql master – slave să facă o soluție asemănătoare, iar în momentul fatidic, în care masterul pică, unul din slave-uri să îi preia sarcina, iar apoi vedem noi, dar aplicația rămâne funcțională.

Cum au putut afecta sistemele de web și de SMS, dacă acestea n-ar fi fost ținute pe servere fizice. Altfel, în virtualizare, serverele aveau backup, de cațiva zeci de giga, dar era o imagine care putea fi stocată oriunde și care putea porni în secunda imediat următoare. Oh, a crăpat fizic serverul care ținea virtualele, ghinion. Punem altul, îl băgăm în priză, îi dăm imaginea, in 40 de minute e UP.

Ce sistem de stocare au ales, dacă la o trecere prin zero (așa se cheamă electric, faptul că se ia curentul) le crapă diskul. Internetul e plin de erori de genul ăsta din diferite alte locuri.

Și dacă tot și-au distrus cu bună știință data center-ul, ar trebui să îi felicit că au prieteni buni care au reușit în termen scurt să le livreze o tonă de hard-disk-uri. Că nu cred că aveau în birou harduri de backup astfel încât să acopere tot data center-ul.

Altfel asta e problema unei firme, nu a ING, ci a oricărei firme care se bazează pe niște servere pe care și le ține în cămara aia și consideră zona aia datac enter. Pentru că un data center dacă îl ții la tine acasă nu e greu de făcut, costă ceva dar nu e greu de făcut. E greu de întreținut, e greu de prevăzut situații excepționale, e greu de intervenit dacă ceva crapă, iar specialiștii de cele mai multe ori sunt prea ”calificați” ca să poată prevedea așa ceva. Ei se gândesc că așa ceva nu se întâmplă, dar fac o chestie din asta standard românească, pe principiul lasă mă că merge și așa și vom vedea noi. Nu pică, că uite-le sunt în funcțiune.

 

Featured image: un datacenter asemănător cu al meu

About The Author

Cristi Dorombach, problogger la piticu.ro, dcristi.ro scrie despre internet, online, social, politic, filme, muzica, viata de zi cu zi pe blog.

21 Responses

  1. Victor H

    Dragul meu piticu,
    Te rog sa scrii despre altceva, pentru ca la IT, Centre de Date, Storage, si Hardware pentru Enterprise nu prea te pricepi.
    Ar fi bine ca parerologii sa stea mai departe de domenii pe care nu le cunosc, insa e impotriva naturii lor.
    D’aia sunt parerologi.

    PS: nimeni nu foloseste RAID5 in DC si daca foloseste, e un mare dobitoc.
    PS1: nimeni nu foloseste RAID5 (a se citi discuri locale in server) si daca foloseste asta, e intr-o solutie de tip software-defined-storage
    PS3: In cazul de fata vorbim de o arhitectura de storage de tip SAN FC adica toate discurile bagate intr-o cutie mare (sau cate o vrea clientul) si chestia aia, da discuri logice la toate serverele. Ei bine, daca chestia aia se strica, ai cacat steagul si mai bine te rogi sa isi revina dand cu un băț in ea. Capisci?

    Reply
  2. Stefanita Vilcu

    Lucrez in ’94 in Internet si IT, am facut audit si consultanta la cateva banci si institutii bancare prin 2005-2006, inca de atunci existau solutii High Availability implementate in piata, ce s-a intimplat dupa aia, nu mai stiu, se pare ca arhitectura a mers inainte, dar in jos, spre Low Availability.

    Sunt surprins ca in 2016 ING are un singur datacenter si toate ouale (sistemele IT) sunt intr-un singur cos legate strans – adica daca un sistem crapa, crapa toate.
    Ori la bal, ori la spital, nu tu farmacie, nu tu dispensar… romantic.

    Uimirea ma napadeste cand in era care se doreste patronata de Test Driven Development si Continuous Integration, un rollout pune toata arhitectura pe butuci. Se pare ca nu a existat staging si Canary pentru release-uri, sau era extrem de complicat de replicat tot mediul, datorita arhitecturii solutiei, asa ca au testat pe live si nu a mers, ghinion.

    Sunt o multime de intrebari care pot sa apara cu privire la ce a mers prost la ING, insa nu putem uita ca pana acum un an, Amazon EU crapa in totalitate cate 24 de ore (din motive hardware de obicei – ei se sesizeaza de la 1200 de rack-uri offline in sus adica 1% din capacitatea unui datacenter). Anul trecut nu a mai crapat deloc, deci au invatat din greseli.

    De asemenea, alti furnizori au probleme cand ti-e lumea mai draga, anul trecut de Black Friday, CloudFlare a cazut cateva ore pentru toata Europa. De St. Valentine’s a fost ok.

    Faptul ca ING a decis sa implementeze noul sistem intr-o Sambata dupa amiaza, cand traficul e destul de scazut si in plus, ai timp inca o zi pentru rollback daca ceva merge prost, a fost bine.
    Nu stim la ce constrangeri de proiect au fost supusi cei care lucrau acolo si nici complexitatea solutiei, care de obicei, nu e aleasa de ingineri, ci de management.
    Motivele din comunicat, daca sunt pe bune, atunci inseamna ca au nevoie de o arhitectura noua, sau de muuuulte rugaciuni inainte de alte release-uri. Un proverb zen spune sa te rogi la zei dar sa nu astepti ajutorul lor, deci s-ar putea sa nu tina tina treaba cu rugaciunea, ramane arhitectura…

    Orice om de IT face greseli, avand in vedere ca eu am inceput mai demult, probabil ca am facut mai multe ca altii, de aceea i-am iertat si va recomand sa faceti la fel. Sunt sigur ca or sa invete din greselile lor.

    Iertarea inseamna ca o sa ne comportam ca si cum nimic nu s-ar fi intimplat, dar comunicatul…are o savoare aparte care nu mi-a putut stavili umorul. Ca doar nu ati crezut vreo clipa ca au vorbit serios… mama lui de RAID…. altii il folosesc pentru muste, use Ceph (eu nu il folosesc dar sunt curios)!

    Reply
  3. Ion

    Pai bun. Sa-ti spun eu despre departamentele IT din banci. “Tineri” la 50 de ani plus, “certificati” in ale Fox Pro 2.6 ce halesc pita cu slana pe ziar. Cand mai suna cineva pentru probleme.. “Dati un restart si merge”. Pana se implementeaza o solutie gen cloud intr-o banca din Romania, mai este de mancat.

    Reply
  4. Adi

    O astfel de situatie da neincredere in banca respectiva, si ai toate sansele sa te muti de la ei…subscriu

    Reply
  5. Cristi Dorombach

    Acum vad toate comentariile voastre.

    Bine ca sunteti voi destepti. Ce buna e tara asta ca avem numai IT-isti smecheri si super calificati, platiti pe mega salarii ca sa nu faca nimic.

    Si de ce nu va duceti voi la ING atunci? :))

    Reply

Leave a Reply

Your email address will not be published.