W dzisiejszych czasach przetwarzamy bardzo duże ilości informacji. Im więcej produkujemy danych, tym więcej potrzebujemy zasobów pamięci masowej do ich przechowywania. Generuje to dodatkowe koszty. Dlatego, coraz częściej stosowaną technologią staje się deduplikacja danych, która pozwala w dużym stopniu ograniczyć ilość powtarzających się danych, co przekłada się na spore oszczędności.

 

Czy wiesz, że:  Obecnie przyrost danych w ciągu roku jest większy niż przez ostatnie kilka tysięcy lat.

 

Dedpulikacja danych. Co to takiego?

 

Deduplikacja, w najprostszym tego słowa znaczeniu, jest to eliminowanie powtarzających się bloków danych. Takich, które istnieją już w danym środowisku. W Twojej firmie też zdarza się, że ten sam plik jest przechowywany w kilku miejscach, przez różnych użytkowników. Bywa też, że pliki o różnej nazwie zawierają te same dane. Dedpulikacja eliminuje te dodatkowe, niepotrzebne kopie.

W rezultacie, podczas backupu, zapisywane są w pamięci masowej tylko unikalne segmenty danych. Może to zapewnić bardzo dużą oszczędność wykorzystywania zasobów dyskowych.

Wyróżniamy dwa rodzaje deduplikacji:

  • na poziomie systemu plików

  • na poziomie bloków dyskowych

Oprócz tego istnieją trzy typy deduplikacji. Taka, która operuje na zmiennej długości bloku, operująca na stałej długości bloku lub wersja mieszana (progresywna).

 

Kiedy warto korzystać z rozwiązania deduplikacji ? Na co zwrócić uwagę?

 

Z pewnością spotkałeś się z sytuacją, kiedy użytkownicy, którym udostępniłeś zasób dyskowy wykorzystali go szybciej niż przewidywałeś?

Właśnie w takim przypadku deduplikacja jest rozwiązaniem idealnym. Dzięki niej zmieścisz tę samą ilość danych na dużo mniejszych zasobach. Nie musisz kupować kolejnych półek dyskowych, czy dysków.

Jednak decyzję o wyborze deduplikacji warto przemyśleć, ponieważ nie wszystkie dane można zdeduplikować. Nie warto stosować deduplikacji do danych skompresowanych, filmów, plików typu tiff, jpg. Te dane nie nadają się do deduplikacji i żaden z algorytmów, na ten moment sobie z nimi nie radzi.

Deduplikcja została zaprojektowana pod kątem danych, które mają powielone struktury. Są to, np. bazy danych, systemy plików, systemy operacyjne, aplikacje wszelkiego rodzaju nie posiadające kompresji natywnej. Jednak najczęściej wykorzystuje się deduplikację w systemach kopii zapasowych.

 

Technologia deduplikacji

 

Jest wiele rozwiązań backupu, które wykorzystują funkcjonalność deduplikacji. Każdy z producentów ma swój własny patent na obliczanie sum kontrolnych i znakowania ciągów danych.

Rozwiązania dostępne na rynku istnieją w postaci oprogramowania lub w formie sprzętowej. Idea działania jest taka sama, aczkolwiek z reguły wersje sprzętowe są znacznie wydajniejsze. Pozwala to na bardziej efektywne i szybsze tworzenie kopii zapasowych.

Jeżeli wykonujemy backup zdalnych oddziałów, to bardzo często przesyłane są jedynie zmienne bloki, które stanowią tylko niewielki ułamek danych różnicowych. Tego typu rozwiązanie stosuje się najczęściej wówczas, kiedy mamy mało stabilne łącze i kiedy operator nie jest w stanie dostarczyć więcej niż 1Mb/s dla naszego zdalnego oddziału.

 

Czy deduplikacja się opłaca?

 

Efektywność deduplikacji jest w dużej mierze uzależniona od wydajności procesora. Zarówno w wersji wirtualnej należy dobrze wyskalować maszynę, jak również w przypadku sprzętu warto przeanalizować szczegółowo swój wybór.

Drugi element to miejsce – datastore, na którym chcemy składować dane. Jest to bardzo ważna kwestia, ponieważ od tego będzie również zależało to, jak szybko przywrócimy nasz backup.

Każdy ma marzenia, a w biznesie realizuje się konkretne oczekiwania zarządzających, którzy oczekują zwrotu z inwestycji. Mając dobrze przygotowaną matrycę i rzetelnie ją wypełniając można z aptekarską precyzją określić i wykazać opłacalność wdrożenia deduplikacji w swoim środowisku.