11/05/2021
La prima cosa da fare in seguito ad un incidente è individuarne le cause, per due motivi fondamentali e uno eticamente opportuno:
- Capire cosa è successo
- Evitare che si ripeta
- [Informare gli utenti dei problemi tecnici affrontati = trasparenza al 100%]
Al giorno d'oggi, riuscire a tracciare tutti i dati e le metriche di ogni componente e micro servizio non è una cosa banale e scontata come collezionare i log e tenerli archiviati da qualche parte per, poi, analizzarli con calma.
Si tratta di combinare molteplici strumenti, molteplici metriche e log in vari formati, da incrociare nel momento opportuno per risalire alle radici del problema e fornire una soluzione, pratica e analitica.
Quindi no, non bastano i log applicativi e "di sistema" per rimettere insieme i pezzi del puzzle ed avere una visione di insieme nel momento del bisogno, soprattutto perchè, nella maggior parte dei casi, è necessario attivarsi in tempi molto rapidi e fornire spiegazioni sensate sullo stato dell'incidente.
Avere un quadro preciso e il più dettagliato possibile su cosa stia accadendo nello stack applicativo, dal monitoraggio della risorsa in Cloud fino alla profilazione dei componenti software, consente di prepararsi ad affrontare qualsiasi situazione e di migliorare la resilienza del software.