Il gruppo di ricerca ICT di ENEA ha testato tecniche innovative sul proprio supercalcolatore CRESCO6 per capire come utilizzare l’intelligenza artificiale per evitare guasti nei data center e migliorarne le prestazioni.
Una nuova metodologia, sviluppata da ENEA attraverso la quale vengono raccolti e messi in relazione i dati sugli effettivi carichi di lavoro del data center e sul consumo energetico a diversi livelli (nodo, server, rack e stanza). Questa mole di informazioni viene poi elaborata attraverso tecniche di apprendimento supervisionato che permettono di definire modelli previsionali in grado di predire il comportamento dei server in base alla temperatura e al carico computazionale e di mappare eventuali fenomeni di surriscaldamento (hotspot o punti caldi).
«Siamo partiti dalla raccolta dei dati sui consumi energetici, termici e computazionali del data center HPC di ENEA per individuare, attraverso strumenti avanzati di intelligenza artificiale, eventuali sovraccarichi di lavoro, sprechi, malfunzionamenti o ‘falle’ nel sistema di raffreddamento. Un surriscaldamento frequente e, di conseguenza, un sistema di raffreddamento poco efficace, potrebbero causare, ad esempio, il degrado dell’hardware, una ridotta affidabilità dei server nonché un dispendioso consumo energetico» spiega Marta Chinnici, ricercatrice di matematica con dottorato in computer science presso il Laboratorio ENEA Infrastrutture per il calcolo scientifico e ad alte prestazioni.
«Grazie a questa metodologia innovativa siamo in grado di estrarre informazioni utili dai dati reali di consumo dell’infrastruttura di calcolo e di elaborare strategie di gestione che non sarebbero ottenibili con le tecniche classiche di data analysis», sottolinea la ricercatrice.
Grazie all’AI interventi mirati ed efficaci sulle singole componenti per salvaguardare i data center
«In questo modo, riusciamo a mettere in campo interventi mirati ed efficaci per garantire il corretto funzionamento delle singole componenti dell’infrastruttura di calcolo, a partire, ad esempio, dall’ottimizzazione del flusso d’aria di raffreddamento. Oppure, siamo in grado di individuare esattamente gli hotspot termici in modo da consentire al cluster di lavorare a temperature simili su tutti i nodi di calcolo, evitando rischi legati al surriscaldamento e consentendo di modulare le unità di raffreddamento su potenze più basse.
Ma non solo: in collaborazione con il collega Davide De Chiara abbiamo definito modelli che mappano il comportamento degli utenti in termini di utilizzo e consumo delle risorse e poter predire, sulla base di dati storici, i carichi di lavoro e, quindi, il consumo futuro di processore, memoria e rete», spiega Marta Chinnici.
Sostenibilità ambientale al centro
Il tema della sostenibilità ambientale è ormai di primaria importanza anche nel campo delle tecnologie informatiche, un settore nel quale i consumi energetici crescono a un tasso annuo del 9%. Al 2020 la domanda di elettricità annua imputabile al settore IT ammontava a circa 200-250 TWh (l’1% della domanda globale di energia) contribuendo allo 0,3% delle emissioni annue di carbonio. Ma secondo le stime dell’Agenzia internazionale dell’energia questi numeri sono destinati ad aumentare e, al 2025, i data center consumeranno circa 1/5 dell’approvvigionamento mondiale.
Tuttavia, i prossimi supercomputer, gli exascale da un miliardo di miliardi di operazioni al secondo, dovranno possedere requisiti prestazionali e di consumo energetico stringenti ed elevati. «La comunità dei data center potrebbe sfruttare questo nostro approccio per migliorare le condizioni termiche in cui operano le infrastrutture informatiche, con azioni mirate su quei server che più frequentemente vanno incontro a un surriscaldamento, visto che i consumi energetici di un data center dipendono fortemente dalla temperatura del luogo dove si trova l’infrastruttura informatica, così come dalle prestazioni dei sistemi IT e di raffreddamento», conclude la ricercatrice ENEA.