Standaryzacja i deduplikacja, czyli jak zapewnić wysoką jakość danych adresowych?

Dane o klientach, w tym dane adresowe, to podstawa funkcjonowania praktycznie każdej firmy. Okazuje się jednak, że nawet 20% bazy danych może zawierać błędy, braki, zduplikowane czy fałszywe informacje. Koszty podejmowania decyzji w oparciu o takie dane są 10-krotnie wyższe niż w przypadku danych poprawnych.

Rozwiązaniem jest stosowanie dobrych praktyk oraz narzędzi do poprawy jakości danych. W poniższym wpisie przedstawiamy konsekwencje wykorzystywania danych złej jakości oraz dwie metody ich naprawy, czyli standaryzację oraz deduplikację danych.

 

Jak dane niskiej jakości wpływają na biznes?

Błędne dane adresowe generują straty, zmniejszają skuteczność działań sprzedażowych, uniemożliwiają prowadzenie wiarygodnych analiz i raportowanie, powodują frustrację wśród klientów i pracowników. Wyobraź sobie na przykład, że prowadzisz sklep internetowy. Twoi klienci dokonując zakupu, wypełniają formularz zamówienia. Te dane są następnie wykorzystywane do skompletowania zamówienia, wystawienia faktury i wysłania produktów pod wskazany adres. Dane muszą być poprawne – inaczej przesyłka nie dotrze do adresata.

Błędne, nieaktualne lub niepełne dane o klientach to negatywne konsekwencje dla prowadzonej działalności, takie jak:

  • utrata klienta (np. w wyniku niedoręczenia przesyłki lub dublowania działań windykacyjnych do tego samego klienta),
  • dodatkowe koszty (np. zwroty paczek),
  • utracone możliwości sprzedażowe (np. w wyniku zmniejszonej efektywności kampanii marketingowych),
  • nieefektywność pracy (np. brak możliwości szybkiego kontaktu w wyniku braku numeru telefonu w bazie).

 

Słaba jakość danych, ale co to znaczy?

Co wpływa na to, że w danych pojawiają się błędy? Oto kilka powodów:

Duplikacja – powielanie tej samej informacji w bazie danych, np. ta sama osoba może występować w systemie wielokrotnie.

Dezaktualizacja – każdego roku wiele osób zmienia swój stan cywilny, nazwisko, miejsce zamieszkania czy pracy, stanowisko itd. Po pewnym czasie, część informacji w bazach danych klientów/kontrahentów staje się po prostu nieaktualna.

Braki w danych – z tą sytuacją mamy do czynienia, gdy baza danych jest niekompletna. Przykładowo, wpisana jest ulica i miasto, ale brakuje kodu pocztowego.

Różne formaty danych – jeżeli w Twojej firmie nie ma zasad, jakimi należy się kierować, wprowadzając dane do systemu, może się okazać, że ta sama informacja będzie zapisana na kilka różnych sposobów. Przykładowo: „Warszawa”, „Wa-wa”, „W-wa”, „warszawa”.

Zafałszowanie informacji – jest to intencjonalnie podawanie błędnych danych, np. nieistniejących ulic czy numerów telefonów.

Tzw. “literówki” – przy ręcznym wprowadzaniu danych nie da się uniknąć błędów w zapisie danych.

 

Jak poprawić jakość danych – standaryzacja i deduplikacja

Najlepiej zapobiegać niepożądanym sytuacjom. Ale jeżeli problem błędnych danych już się pojawił, to jednym ze sposobów poprawy ich jakości jest tzw. czyszczenie danych obejmujące ich standaryzację oraz deduplikację.

Standaryzacja

Standaryzacja danych adresowych umożliwia zamianę wielu różnych wystąpień tej samej wartości zmiennej jedną wartością. Przykładowo wartości „Kraków”, „Krakow”, „krakow”, „Krakw” zostaną zastąpione jedną i tą samą wartością – „Kraków”. Na tym etapie należy skorzystać ze słowników referencyjnych miejscowości, ulic, czy imion.

Deduplikacja

Deduplikacja pozwala na wykrycie powtórzonych rekordów i ich konsolidację.

W ramach tego etapu możliwe jest m.in.:

  • wyszukiwanie wielokrotnych wpisów tego samego klienta w bazie nawet, gdy dane są zapisane na różne sposoby,
  • łączenie baz z wielu źródeł i ich ujednolicenie polegające na stworzeniu rekordu klienta obejmującego wszystkie informacje z różnych źródeł.

Deduplikacja nie zawsze jest zadaniem łatwym. Czasami niezbędne jest zastosowanie zaawansowanych algorytmów, które określą prawdopodobieństwo tego, że dwa rekordy są duplikatami.

 

Sprawdź dataquality.pl – narzędzie do czyszczenia danych w chmurze.