Cos’è la deduplicazione?

La duplicazione è un metodo di compressione dei dati in cui la rimozione dei dati ridondanti non è fatta a livello di file ma a livello di blocco. È usato per ottimizzare lo spazio di archiviazione nei database. La deduplicazione è talvolta usata in parallelo con altri metodi di compressione.

La deduplicazione è usata come metodo di compressione per dati potenzialmente ridondanti, specialmente per i backup, cioè la protezione dei dati. Altre aree di applicazione sono lo stoccaggio, l'archiviazione e il trasferimento di dati. Fondamentalmente, la procedura è adatta a tutte le aree di applicazione IT in cui i dati sono ripetutamente copiati e le copie sono anche memorizzate.

Compressione dei dati potenzialmente elevata

La duplicazione può raggiungere tassi di compressione molto alti in singoli casi. La compressione dei dati è fatta da applicazioni software basate su algoritmi matematici. Alcuni fornitori di software di deduplicazione dichiarano tassi di compressione di 1:500 per i loro prodotti. In pratica, tuttavia, i tassi di compressione nell'intervallo da 1:7 a 1:12 sono la norma. Il metodo può essere applicato alla maggior parte dei tipi di dati. Le eccezioni sono, per esempio, i video, che non possono essere deduplicati ma possono essere compressi usando altri algoritmi.

Come funziona la deduplicazione

In principio, ci sono due procedure diverse per comprimere i dati. Il cosiddetto Single Instance Storage (SIS) mira a trovare e cancellare dati identici. Un classico campo di applicazione del SIS è, per esempio, l'archiviazione della posta elettronica. Gli allegati di posta elettronica sono spesso inviati a diversi destinatari. Senza compressione, questi file verrebbero memorizzati più volte durante l'archiviazione. SIS rende possibile l'archiviazione di una sola copia dell'allegato.

La duplicazione, d'altra parte, inizia a livello dei blocchi di dati. La procedura corrispondente è chiamata fingerprinting o hashing. I dati sono suddivisi in segmenti individuali (chunks), che possono essere di diverse dimensioni. I chunks sono analizzati a livello di byte. Si cercano i segmenti con i più alti tassi di ripetizione. La deduplicazione permette quindi di riconoscere i dati identici. Per eliminare il più possibile le ridondanze, viene poi effettuato un riferimento (puntamento) all'elemento originale. La procedura mira a trovare i dati originali all'interno dei blocchi di dati. Un tale "puntatore" richiede molto meno spazio di memorizzazione rispetto ai dati di riferimento. Il recupero di un file puntato avviene solo quando vi si accede effettivamente. L'algoritmo del software di deduplicazione stabilisce le regole per unire i dati individuali. Sia i componenti unici del rispettivo file che i componenti di dati che condivide con altri file confluiscono in questo.

Deduplicazione - Metodi

Ci sono due diversi metodi per deduplicare i dati:

  • Quando si usa la referenziazione inversa, tutti i dati identici si riferiscono al primo dato comune. Solo questo set di dati viene archiviato.
  • Avviare gli archivi di riferimento all'ultimo blocco dati comune. Forma il riferimento per tutti i blocchi di dati comuni che si verificano in precedenza.

A livello di applicazione, viene anche fatta una distinzione tra deduplicazione in banda e fuori banda. Nel primo caso, l'analisi del flusso di dati avviene durante il funzionamento. La compressione fuori banda, invece, viene effettuata solo dopo che i dati sono stati memorizzati. Permette l'analisi parallela di diversi flussi di dati.


Lascia un commento