"Cosa succede se si rompe il server?" è la domanda che separa un'infrastruttura amatoriale da una di produzione. La risposta, con Proxmox VE, si chiama alta disponibilità (HA): se un nodo si guasta, le macchine virtuali ripartono automaticamente su un altro. Vediamo come funziona davvero.
Kubee progetta e gestisce cluster Proxmox in alta disponibilità, fino allo scenario geo-distribuito su due sedi.
Cos'è l'alta disponibilità
L'HA garantisce che i servizi continuino a funzionare anche se un componente si guasta. In Proxmox, le VM critiche sono configurate come "HA": se il nodo che le ospita cade, il cluster le riavvia automaticamente su un altro nodo disponibile, in pochi minuti, senza intervento manuale.
Come funziona il cluster HA in Proxmox
- Più nodi in cluster condividono lo stato e si controllano a vicenda.
- Storage condiviso o replicato (Ceph o ZFS replication): le VM devono essere accessibili da più nodi.
- Quorum: il cluster decide a maggioranza quali nodi sono "vivi", per evitare situazioni ambigue (split-brain).
- Failover automatico: se un nodo perde il quorum, le sue VM HA ripartono altrove.
Quanti nodi servono?
Il minimo sensato per un vero HA è tre nodi. Con due soli nodi non c'è quorum affidabile (se cade uno, l'altro non sa se è "il sopravvissuto" o "l'isolato"). Tre nodi permettono al cluster di decidere a maggioranza e gestire il guasto in sicurezza. Approfondiamo nel pezzo su quanti nodi servono per un cluster Proxmox.
Lo storage è il cuore dell'HA
Senza uno storage accessibile da più nodi, l'HA non esiste. Le due strade principali:
- Ceph: storage distribuito su tutti i nodi, ridondante, ideale per cluster di più nodi.
- ZFS replication: replica periodica tra nodi, più semplice ma con un RPO non nullo.
La scelta dipende da budget, esigenze di RPO/RTO e dimensioni. È il punto dove la progettazione fa la differenza tra un HA solido e uno fragile.
Fino all'HA geo-distribuita
Si può andare oltre il singolo datacenter: gestiamo cluster Proxmox stretched su due sedi con storage Ceph replicato sincrono. In caso di guasto di un intero sito, le VM ripartono sull'altro in meno di 5 minuti, con perdita dati pari a zero — come nel nostro caso studio sul datacenter geo-distribuito.
HA non è "installa e dimentica"
L'alta disponibilità va progettata, testata e monitorata: un cluster HA mal configurato dà falsa sicurezza. Test di failover periodici e monitoraggio H24 sono parte integrante di un HA che funziona davvero quando serve.
Vuoi un'infrastruttura che non si ferma? Parla con un esperto per progettare il tuo cluster HA. Scopri il servizio Proxmox.