La gestione della risposta agli incidenti è un processo strutturato di identificazione, analisi e risoluzione degli incidenti IT il più rapidamente possibile.
In generale, quando parliamo di incidenti in questo caso ci riferiamo a qualsiasi deviazione dalla norma in una rete IT che abbia un impatto sulle operazioni, sull’esperienza del cliente/utente e, di conseguenza, sul business in generale.
Questa definizione serve a differenziare gli incidenti dagli avvisi tecnici che possono segnalare problemi all’interno di un’infrastruttura di rete che potrebbero non aver ancora avuto un impatto sul cliente.

Gestire le interruzioni nel modo più rapido ed efficace possibile è fondamentale se gli MSP vogliono mantenere un’esperienza positiva per il cliente.
Tuttavia, una gestione efficace degli incidenti può essere un processo complesso per gli MSP.
Mentre gli MSP più grandi possono avere pieno accesso all’infrastruttura di un cliente ed essere in grado di agire rapidamente e in modo indipendente durante le situazioni critiche, le aziende più piccole in genere hanno accesso solo a una parte dei servizi e dello stack tecnologico. Ciò rende significativamente più difficile rispondere in modo efficace durante gli incidenti.

Oltre a ciò, gli MSP devono affrontare regolarmente altre sfide nel perseguimento dell’eccellenza operativa, tra cui:

  • Ambienti client multipli: gli MSP devono gestire clienti diversi, ciascuno con SLA univoci che stabiliscono tempi di risposta e risoluzione specifici.
  • Gestione remota: diagnosticare e risolvere problemi senza essere fisicamente presenti aggiunge ulteriore complessità.
  • Ambienti diversi: ogni client utilizza potenzialmente software, hardware e configurazioni diversi.

Avere una strategia di gestione della risposta agli incidenti efficace è fondamentale per qualsiasi MSP, in quanto è fondamentale per aiutarli a proteggere i sistemi dei clienti, mantenere la fiducia e salvaguardare la propria reputazione.
Un incidente gestito male può portare a una serie di problemi sia per un MSP che per i suoi clienti, tra cui: interruzione operativa, perdite finanziarie, abbandono dei clienti e perdita di affari, danni alla reputazione e persino sanzioni legali e normative.

D’altro canto, una gestione efficace della risposta agli incidenti può fornire un valore aziendale reale per gli MSP. Ciò si manifesta sotto forma di riduzione al minimo dei tempi di inattività (aiutando a soddisfare gli SLA ed evitare sanzioni), creazione di fiducia da parte dei clienti, garanzia che i clienti soddisfino i requisiti di conformità e normativi (sia per i requisiti del loro settore che per l’assicurazione informatica), protezione della reputazione e, infine, riduzione dei costi (in aree come i costi di ripristino).

Poiché le minacce informatiche continuano a evolversi, la necessità di risposte rapide, efficienti e ben coordinate agli incidenti è più grande che mai. Quindi, come puoi creare un processo di risposta agli incidenti efficace?

ilert è un membro del programma N‑able Technology Alliance che fornisce una piattaforma avanzata di gestione degli incidenti facilmente integrabile con N‑able N‑central.

Le quattro Fasi della gestione della risposta agli incidenti

“Il ciclo di vita dell’incidente ha quattro fasi”, spiega Daria. “Preparazione, Risposta, Comunicazione e Apprendimento. Suddividere le raccomandazioni chiave sulla gestione degli incidenti in queste quattro parti semplifica il lavoro dei team e li aiuta a comprendere chiaramente la loro posizione in situazioni critiche”.

Fase 1: Prepararsi per un incidente

Automatizzare il rilevamento e la risposta agli incidenti

“L’automazione va sempre di pari passo con gli strumenti”, afferma Daria. “Riteniamo che ci siano quattro aree chiave su cui gli MSP esperti si concentrano per garantire di poter identificare e reagire ai problemi di sistema il più rapidamente possibile”.

  1. Monitoraggio e osservabilità
    Gli strumenti che supervisionano le prestazioni del sistema, registrano i dati e monitorano il comportamento delle applicazioni offrono informazioni in tempo reale sui tuoi sistemi IT, consentendo il rapido rilevamento di potenziali incidenti. Soluzioni come N‑able N‑central aiutano a monitorare gli ambienti multi-tenant.
  2. Gestione delle reperibilità
    In un ambiente multi-cliente, è difficile gestire il servizio di reperibilità tramite calendari o fogli. Assicurati che il servizio di reperibilità sia correttamente distribuito tra clienti e team dedicati, che la rotazione sia automatica e che gli ingegneri siano sempre a conoscenza dell’inizio dei loro turni. La migliore prassi è anche quella di avere accesso mobile al sistema di gestione delle reperibilità per poter modificare gli orari in movimento.
  3. Avviso
    Una volta rilevato un incidente, è essenziale una notifica tempestiva e multicanale degli ingegneri. Gli strumenti di avviso assicurano che le informazioni giuste arrivino alle persone giuste al momento giusto. Le piattaforme di avviso per MSP possono visualizzare e suddividere chiaramente gli avvisi da più tenant, nonché creare policy di escalation che riflettano i requisiti SLA per diversi clienti. I sistemi di avviso devono essere sufficientemente avanzati da gestire gli avvisi da varie fonti e trasformarli in chiamate telefoniche, SMS, push e altri tipi di notifiche. Mentre gli avvisi rilevati dalla macchina sono piuttosto tipici per MSP, in molti casi i clienti segnalano gli incidenti direttamente tramite ticket o chiamate telefoniche. Per questi due tipi, MSP richiedono strumenti aggiuntivi.
  4. Meccanismo di attivazione manuale degli incidenti
    I clienti MSP richiedono un modo rapido, semplice da usare e familiare per segnalare anomalie. Uno di questi è il routing delle chiamate, una hotline che i clienti possono utilizzare per chiamare un numero di telefono dedicato e un avviso può essere creato direttamente da questa chiamata. Un’altra soluzione è un sistema di ticketing. A seconda dell’SLA, potresti scegliere tra questi o averli entrambi per scenari diversi.

Implementare un piano strutturato di risposta agli incidenti

“Un piano di risposta ben strutturato assicura che gli incidenti siano gestiti in modo sistematico”, aggiunge Daria. “Il modo migliore per raggiungere questo obiettivo non è solo avere istruzioni su carta, ma condurre sessioni di formazione reali per simulare un incidente. La formazione deve mirare ai seguenti quattro obiettivi: gli ingegneri sono a conoscenza delle procedure di escalation e hanno tutte le notifiche impostate correttamente; comprendono chiaramente l’infrastruttura del cliente e sanno come accedervi; ricevono una formazione pratica per contenere e mitigare diversi tipi di incidenti IT tipici di un cliente specifico; gli ingegneri MSP sono esposti a scenari realistici e ad alto rischio in cui devono stabilire le priorità delle attività e allocare risorse per sviluppare forti capacità decisionali”.

Fase 2: Risposta

Daria continua:
“Nella fase di risposta della gestione degli incidenti, due fattori critici determinano il successo dell’approccio di un MSP: la rapidità con cui l’MSP riconosce l’incidente e l’efficacia con cui stabilisce le priorità di risoluzione quando più incidenti coincidono tra diversi clienti.

“La rapidità di riconoscimento è fondamentale, poiché una risposta rapida rassicura i clienti che il problema è stato risolto e riduce i potenziali tempi di inattività. Nel frattempo, la definizione delle priorità diventa essenziale quando si verificano più incidenti.

“Gli MSP dovrebbero basare le loro decisioni di priorità sugli impegni SLA e sull’impatto che ogni incidente ha sulle operazioni dei clienti. Ad esempio, un’interruzione critica del server che influisce sull’intera attività di un cliente dovrebbe avere la precedenza su un problema applicativo minore per un altro.”

Fase 3: Comunicare

Come per qualsiasi interazione con il cliente, una buona comunicazione è fondamentale.

“Ci sono diversi modi per tenere informati i clienti”, afferma Daria. “Uno è quello di inviare manualmente gli aggiornamenti tramite telefonate o messaggi condotti da un account manager MSP. Questo approccio non è scalabile e può portare a errori di comunicazione e interpretazioni errate. Consigliamo di stabilire una pagina di stato a cui i clienti possono iscriversi”.

Daria consiglia agli MSP di impostare pagine di stato separate per ogni cliente, il che è in genere una buona soluzione per le aziende più piccole. Tuttavia, questo approccio diventa più costoso man mano che il numero di clienti aumenta. Per i provider più grandi, è altamente consigliato adottare pagine specifiche per il pubblico che visualizzano solo dati rilevanti in base ai parametri utente. Ciò non solo riduce i costi, ma riduce anche al minimo il numero di pagine che devono essere gestite.

Sottolinea inoltre quattro cose che è importante non dimenticare:

  • Tempestività. Una comunicazione rapida aiuta a gestire le aspettative del cliente e a ridurre l’ansia.
  • Cadenza. Condividi gli aggiornamenti sulla risoluzione degli incidenti a intervalli regolari e prevedibili, in genere ogni 30-45 minuti.
  • Aspettative realistiche. Fornire tempistiche realistiche per la risoluzione e informare i clienti se sono disponibili soluzioni temporanee. Se la situazione cambia, adeguare le aspettative e comunicare tempestivamente.
  • Chiarezza. Evita di sommergere i clienti con gergo tecnico; fornisci spiegazioni chiare e semplici per ridurre la frustrazione.

Fase 4: impara dalla tua esperienza

Infine, Daria indica due metriche, MTTA (Mean Time to Acknowledgment) e MTTR (Mean Time to Resolution), che sono fondamentali per misurare l’efficacia della risposta agli incidenti. Queste metriche possono essere calcolate manualmente utilizzando le formule fornite di seguito, oppure puoi delegare l’attività alla tua piattaforma di gestione degli incidenti, che dovrebbe essere in grado di tracciarle e calcolarle automaticamente.

  • MTTA = (tempo totale tra avviso e conferma) / numero di incidenti per un client specifico
  • MTTR = (tempo totale tra avviso e risoluzione) / numero di incidenti per un cliente specifico

“Non dimenticare di tenere traccia degli incidenti che gestisci e di combinare gli apprendimenti nei documenti post-mortem”, conclude Daria. “Questo ti aiuterà a ridurre MTTR e MTTA in futuro e a semplificare l’onboarding di nuovi ingegneri e account manager”.

ilert e N-central: migliorare la gestione degli incidenti con l’integrazione RMM

Come menzionato sopra da Daria, le soluzioni di Remote Monitoring and Management (RMM) come N-central costituiscono una componente critica di un piano di risposta agli incidenti efficace per gli MSP.
Consentono agli MSP di monitorare i sistemi dei loro clienti in tempo reale, fornendo un rilevamento precoce di potenziali problemi come guasti di sistema, vulnerabilità di rete o attività insolite che potrebbero segnalare un attacco informatico.
Il rilevamento precoce è fondamentale per contenere gli incidenti prima che degenerino, riducendo al minimo i tempi di inattività e riducendo l’impatto sulle operazioni dei clienti.

Tuttavia, integrando iLert nella loro piattaforma N-central, gli MSP possono migliorare significativamente la loro efficacia in vari modi e portare la loro risposta agli incidenti a un livello superiore.
Quando un N-central identifica un problema, iLert può immediatamente attivare avvisi multicanale tramite SMS, e-mail, telefono o app mobile, assicurando che i membri giusti del team vengano avvisati tempestivamente, riducendo i tempi di risposta.
Questo approccio multicanale garantisce che nessun avviso critico venga perso, anche fuori orario.

La funzione di rotazione automatica on-call di iLert assicura che ci sia sempre qualcuno disponibile a rispondere, migliorando la capacità dell’MSP di mantenere un supporto 24 ore su 24, 7 giorni su 7, senza intervento manuale. Questo processo semplificato aiuta a prevenire l’escalation degli incidenti a causa di risposte ritardate.

Le pagine di stato specifiche per il pubblico della piattaforma consentono agli MSP di tenere informati i clienti in tempo reale durante un incidente, migliorando la comunicazione e la trasparenza. Gestendo le aspettative e fornendo aggiornamenti in tempo reale, gli MSP creano fiducia e riducono la frustrazione dei clienti.

L’integrazione di N-central con iLert consente agli MSP di rispondere più rapidamente, automatizzare gli avvisi e la gestione delle reperibilità e migliorare la comunicazione con i clienti, ottenendo così una risoluzione degli incidenti più efficace e relazioni più solide con i clienti.

Cerca contenuti interessanti per Linkedin sul nostro programma di canale dedicato a N-able

COMPILA IL FORM PER RICEVERE INFORMAZIONI SU N-ABLE

Articolo originale:

Incident Management Best Practices for MSPs

Autore:  Pete Roythorne

Credits Articolo

Credits Articolo

Scritto e riadattato da CIPS Informatica per N-able 

© 2024 N‑able Solutions ULC and N‑able Technologies Ltd. All rights reserved.

This document is provided for informational purposes only and should not be relied upon as legal advice. N‑able makes no warranty, express or implied, or assumes any legal liability or responsibility for the accuracy, completeness, or usefulness of any information contained herein.

The N-ABLE, N-CENTRAL, and other N‑able trademarks and logos are the exclusive property of N‑able Solutions ULC and N‑able Technologies Ltd. and may be common law marks, are registered, or are pending registration with the U.S. Patent and Trademark Office and with other countries. All other trademarks mentioned herein are used for identification purposes only and are trademarks (and may be registered trademarks) of their respective companies.

Torna in cima