Știti cu toții incidentul de la ING. Iar eu ca specialist vă spun că nu cred o iotă din explicațiile pentru public. Pentru că dacă asta ar fi fost cauza, atunci directorul IT, cei care erau de serviciu, cei care au autorizat testul, cei care faceau mentenanță la data center ar trebui sa fi zburat din bancă, încă de sâmbătă de la prânz. Practic ING și-a distrus singură data center-ul, oare ce are de ascuns? Dar să detaliem, pentru că am trecut de atâtea ori prin fix aceeași problemă.

Hardware

Serverele de la ING au trecut prin zero. Adica pur și simplu li s-a luat curentul. Cam asta credeam când am văzut o pauză de 10 ore. Pentru că ăsta e intervalul de timp până reusești să ridici un RAID pe niște servere, sau să îl repari.
Practic, un server o dată pus în funcțiune, mai ales dacă rulează RAID, dacă e pe linux sau dacă transferă multe date, nu are voie să se oprească, orice ar fi. Dar detaliem asta la software.

Până atunci serverele au picat pentru că le-au picat hardurile. Asta se întămplă din câteva cauze. Cea mai comuna e lipsa de curent electric, atunci când pe un hard-disk se scrie informație. Iar la ING se scrie informație. Atunci hardul pică, iar dacă mă contrazice cineva, le dau niste terra de informație de la mine de acasă să mi-o recupereze.
Altfel poate fi și cauza lor, dar mi se pare stupidă. E ca și cum ăștia de la ING aveau o cameră, pe care au considerat-o data center și în ea au pus servere unele peste altele și lucrau așa cu ea. Cu informația clienților și a băncii, cu o soluție făcută pe genunchi de o echipă IT mult prea specialistă în orice ca să poată fi pusă la îndoială. Dar aici se încalcă principiul colaborativ, unde IT-ul nu trebuie să fie singurul specialist ci trebuie și să colaboreze cu ceilalți.

Oare toate data centerele ING din lume sunt la fel?

Ei și după ce repornești serverele astea. Pentru că au picat toate, nu numai un singur server. Sau ING își ținea toată informația într-un singur server? După ce repornești serverele astea, fix 10 ore durează să se repare RAID-ul.

Sau și dacă îți crapă trei harduri dintr-un RAID 5, reușești să îl repornești, dar durează. Yey! Joy!

Ah, as mai face un pariu. UPS-urile n-au ținut.

Software

Ziceam mai sus. ING este o bancă care lucreaza cu baze de date. Nu mă gândesc acum ce fel de baze de date și pe ce infrastructură, dar toate funcționează pe un principiu asemănător. Transfer mare de fișiere, query-uri mari în baza de date, căutare mare în baza de date pentru returnarea unui răspuns pentru clienți, bancomate, POS-uri, alte bănci. Deci aceste query-uri suprasolicită discurile. Fac fișiere temporare din care extrag informație, se blochează tabele în baza de date și asa mai departe. În momentul în care, pe mysql de exemplu, serverul scrie pe disk, iar cineva îl scoate din priză, diskul respectiv crapă. Și crapă cu șanse foarte mari de pierdere totală a informației.

ING spune că a apelat la backup!!!  Dar de când era făcut acest backup?  De ce backup-ul nu a fost disponibil instant? Pentru că specialiștii lor IT nu aveau un server de backup pregătit? Pentru că back-up-ul era naiba știe unde și că au terbuit să îl tragă inapoi din internet?

Oricum. Treaba cu backup-ul nu ține, pentru că ori o ai ori nu o ai. Iar dacă o ai terbuie să ai ceva disponibil în 10 minute, iar asta se face prin virtualizare.

Adică software-ul de la ING nu era instalat pe servere virtuale, ci pe servere fizice, că așa au considerat specialiștii. Dacă era pe virtuale, în structura de clustere, un virtual se putea porni în aproxiativ 10 minute și să acceseze o bază de date, sau backup-ul acesteia fără probleme.

Eu am în grijă două data centere. Nu sunt calificat să mă ocup de niciunul dintre ele, dar ma joc și îmi iese. Iar eu fac backup dintr-un data center în celalalt. Care data centere sunt în clăridi diferite. Dacă unul din ele pică, îl pot porni pe al doilea. Și invers.

Să revenim la software. Cum funcționează baza de date a unei bănci, dacă nu are un principiu de virtualizare de gen server n, n+1? Mai ales la un numar mare de qurey-uri. Adică de ce nu s-au gândit ca la mysql master – slave să facă o soluție asemănătoare, iar în momentul fatidic, în care masterul pică, unul din slave-uri să îi preia sarcina, iar apoi vedem noi, dar aplicația rămâne funcțională.

Cum au putut afecta sistemele de web și de SMS, dacă acestea n-ar fi fost ținute pe servere fizice. Altfel, în virtualizare, serverele aveau backup, de cațiva zeci de giga, dar era o imagine care putea fi stocată oriunde și care putea porni în secunda imediat următoare. Oh, a crăpat fizic serverul care ținea virtualele, ghinion. Punem altul, îl băgăm în priză, îi dăm imaginea, in 40 de minute e UP.

Ce sistem de stocare au ales, dacă la o trecere prin zero (așa se cheamă electric, faptul că se ia curentul) le crapă diskul. Internetul e plin de erori de genul ăsta din diferite alte locuri.

Și dacă tot și-au distrus cu bună știință data center-ul, ar trebui să îi felicit că au prieteni buni care au reușit în termen scurt să le livreze o tonă de hard-disk-uri. Că nu cred că aveau în birou harduri de backup astfel încât să acopere tot data center-ul.

Altfel asta e problema unei firme, nu a ING, ci a oricărei firme care se bazează pe niște servere pe care și le ține în cămara aia și consideră zona aia datac enter. Pentru că un data center dacă îl ții la tine acasă nu e greu de făcut, costă ceva dar nu e greu de făcut. E greu de întreținut, e greu de prevăzut situații excepționale, e greu de intervenit dacă ceva crapă, iar specialiștii de cele mai multe ori sunt prea ”calificați” ca să poată prevedea așa ceva. Ei se gândesc că așa ceva nu se întâmplă, dar fac o chestie din asta standard românească, pe principiul lasă mă că merge și așa și vom vedea noi. Nu pică, că uite-le sunt în funcțiune.

 

Featured image: un datacenter asemănător cu al meu

About The Author

Cristi Dorombach, problogger la piticu.ro, dcristi.ro scrie despre internet, online, social, politic, filme, muzica, viata de zi cu zi pe blog.

21 Responses

  1. Tim

    Pai da, dar e ceva necurat la mijloc si nu, nu e it-ul vinovat, e plecat de la neste afaceri cica necurate, zic unii… pana una alta… cine mai ramane client fidel? Hm?

    Reply
    • Ciprian

      Raman client fidel. E prima problema pe care o am cu ei si nimeni nu garanteaza ca daca schimb banca nu se va intampla si la altii

      Reply
  2. Ics

    Ultima oara cand am fost la ei la interviu voiau sa aduca o mare configuratie de servere noi din alta tara. Eu as pune pariu ca nu au reusit sa o integreze cu ce aveau si atunci au picat. Ca om de it,stiu sigur ca asta e un bullshit dar na,trebuiau sa dea ceva presei. Cat despre “ceilalti” o astfel de problema in Raiff a durat 2 ore de transfer pe solutia de backup cu 5 minute cadere a cardurilor. Atat

    Reply
  3. Mituc

    Daca ramineai departe de incercarile de a explica ce s-a intimplat dpdv. tehnic poate mai si credeam ca te ocupi de ceva datacentere sau ca macar ai vazut in viata ta cum arata si altceva in afara de “php&mysql”.

    Reply
    • Razvan B

      wordpressul foloseste doar php&mysql. De unde vrei sa stie mai multe ? 🙂 “e doua dc-uri de wp-uri” .

      Reply
  4. Razvan B

    Ca sa nu intram in detalii iti spun doar ca furi curent. Nu ai nici cea mai mica treaba cu IT-ul.

    Reply
  5. testor

    Presupunând că articolul nu este un pamflet şi autorul articolului nu este sub influenţa unor substanţe psihoptrope atunci data centerul ING a picat probabil pentru că cei care se ocupau de el aveau acelaşi nivel profesional ca şi autorul articolului.

    Reply
  6. Cristi Mîrț

    Din câte am înțeles, serverul a picat din cauza sunetului produs de sistemul antiincendiu (știu, sună ciudat). E folosit un sistem cu gaz inert, care, în mod normal, nu afectează sistemele electronice. Însă presiunea gazului ar fi fost prea mare, și atunci când a fost eliberat, a creat un sunet foarte puternic (peste 130dB), iar vibrațiile produse de acest sunat au afectat HDD-urile.

    Nu le iau apărarea, sunt de părere că downtime-ul de 10 ore putea fi redus sau chiar evitat, însă nu mi se pare corect să acuzi o întreagă echipă fără să știi toate detaliile. Eu unul sunt foarte mulțumit de ING și serviciile pe care le oferă, comparativ cu alte bănci din România.

    PS: Dacă sunteți curioși de efectul sunetului puternic asupra unui HDD, căutați ‘Shouting in the Datacenter’ pe youtube. Nu cred că pot posta link-uri în comentarii aici.

    Reply
  7. Bogdan Bocse

    Chiar daca data center-ul de disaster recovery este disponibil in momentul incidentului, decizia de fallback probabil este una care depinde de niste pasi de validare: se poate porni data center-ul principal? care e cauza defectului? e datorat unui atac?

    Diferenta dintre software-ul de core banking si php/mysql este ca ca in banking te intereseaza consistenta scrierilor, integritatea tranzactiilor confirmate, caz in care nu e suficient sa faci un server master din slave, fara sa verifici consistenta ultimelor tranzactii executate pe master. Trecand inainte-si-inapoi intre data center-ul principal si data center-ul de backup exista riscul de a se genera inconsistente tocmai in momentul trecerii.

    Nu sunt angajat si nici macar client ING si nu vreau sa sustin ca nu se putea preveni situatia sau ca nu se putea remedia mai rapid.. Vreau doar sa spun ca fallback-ul la niste baze de date pentru core banking nu e la fel de simpla (sau lipsita de miza) ca fallback-ul pentru un wordpress sau pentru un site de ecommerce cu cateva comenzi pe ora.

    Inteleg, mai mult decat atat, ca originea problemei ar fi fost defectarea fizica a mai multor discuri din cauza zgomotului produs de sistemul de stingere a incendiului.
    https://www.engadget.com/2016/09/12/ing-banks-main-data-center-was-shut-down-by-a-loud-noise/

    Sunt convins ca intarzierea fallback-ului a fost datorata faptului ca au vrut intai sa faca o diagnoza/un root cause analysis inainte sa treaca la al doilea data center.

    Reply
  8. Liviu Damian

    Poti sa stergi tot si sa lasi doar “Nu sunt calificat să mă ocup de niciunul dintre ele, dar ma joc și îmi iese.”, ai demonstrat ca nu ai nici cea mai vaga idee cum merg in realitate lucrurile astea.

    Reply
  9. Adi

    Situatia descrisa astfel ma duce cu gandul la Ciolos mergand cu avionul. Nu conteaza de cate ori a mai calatorit omul la economy, o data l-a prins unul in poza si gata, populist nenorocit. Nu conteaza de cate ori solutia de redundanta a functionat corect (si daca ai avut contact cu un datacenter adevarat stii ca nu sunt cazuri izolate), cand intr-o situatie exceptionala s-a balarit grav pareristii reactioneaza de parca Ciolos s-a urcat prima oara in viata lui intr-un avion.
    Un datacenter indisponibil este echivalent cu situatia avioanelor prabusite, niciodata nu este o singura cauza. Un sir de evenimente intr-o anumita ordine conduc la catastrofa, scenarii putin probabile si neintuitive. Daca cineva are pretentia ca se poate controla total un sistem de mare complexitate este pur si simplu ignorant.

    Reply
  10. Radu

    Cristi,

    ING-ul se presupune ca e in alta liga. Nu backup. DR cu HA.

    Sint de ceva timp in implementare de core banking (Oracle Flex). Stiam ca trebuia sa aiba in perioada asta roll-out-ul.

    Fie a crapat Flexul, fie au avut un atac naspa.

    Cam atit.

    Reply

Leave a Reply

Your email address will not be published.