Na czym polega i jak przeprowadzić projekt czyszczenia danych?

Planujesz projekt czyszczenia danych lub zlecasz go firmie zewnętrznej? Zobacz jak mogą wyglądać poszczególne etapy tego typu projektu, w oparciu o nasze doświadczenia.

Problem z jakością danych

Obecnie firmy stają przed wyzwaniem utrzymywania coraz większej ilości danych dotyczących swoich klientów. Dane te często zawierają błędy (np. zdublowane wpisy), są niekompletne lub niespójne. Natomiast od ich jakości zależy np. efektywność kampanii marketingowych lub ściągalność należności za usługi (klient nie płaci faktury, bo jej nie otrzymał).

Lemonly.com i Software AG podają, że koszt biznesowy wynikający z niskiej jakości danych może sięgać nawet 10%-25% przychodów firm.

Z kolei statystyki podane przez Halo Business Intelligence wskazują że:

  • 92% badanych firm przyznaje, że posiadane dane teleadresowe są niedokładne
  • 66% badanych organizacji wierzy, że niepoprawne dane mają negatywny wpływ na ich działalność

 

Korzyści z realizacji projektów czyszczenia danych

  • Oszczędność czasu poświęcanego na ujednolicanie danych przed każdym ich użyciem
  • Uzyskanie poprawnej interpretacji biznesowej danych
  • Zwiększenie wiarygodności danych
  • Zmniejszenie czasu przygotowania danych do przyszłych analiz
  • Pozytywne efekty wizerunkowe poprawy jakości danych zawartych w nagłówkach listów do klientów i na kopertach
  • Zmniejszenie kosztów kampanii marketingowych dzięki redukcji ilości zduplikowanych wysyłek

Etapy projektu czyszczenia danych

Od 2001 roku przewidujemy zachowania klientów w oparciu o dane. Wiemy jak ważna jest ich jakość – trudno jest uzyskać poprawną interpretację biznesową danych, jeżeli zawierają one dużo błędów.

Zrealizowaliśmy kilkanaście projektów z obszaru oceny i poprawy jakości danych dla takich branż jak telekomunikacja, windykacja, ubezpieczenia czy FMCG, osiągając skuteczność w czyszczeniu danych na poziomie ponad 90%. Przeanalizowaliśmy w sumie ok. 26 milionów rekordów zawierających dane o klientach.

Bazując na naszym doświadczeniu, chcielibyśmy Wam pokazać jak może wyglądać taki projekt.

Czyszczenie danych – opis poszczególnych kroków

Poniższy diagram zawiera główne etapy projektu czyszczenia danych. Nie każdy projekt wygląda tak samo, różnice wynikają z indywidualnych zapotrzebowań klientów.

etapy_data_quality

  1. Profilowanie

Celem tego etapu jest rozpoznanie problemów i błędów w danych. Weryfikujemy jakość danych pod kątem poprawności technicznej (podstawowe statystyki danych, testy formatu danych) i biznesowej (zgodność ze słownikami, wartości odstające i nietypowe itp.).

Wynikiem profilowania danych jest raport zawierający informacje o przeprowadzonej eksploracji danych, listę napotkanych problemów oraz rekomendacje metod ich oczyszczenia, niezbędnych do prowadzenia dalszych prac związanych z projektem.

  1. Czyszczenie danych

Po zdefiniowaniu problemów z danymi i ustaleniu z klientem zakresu dalszych prac, przystępujemy do czyszczenia danych. Etap ten składa się 3 zadań: Parsowanie, Standaryzacja i Deduplikacja.

Parsowanie – umożliwia rozbicie jednego złożonego pola na wiele pól w oparciu o znaczenie danych i kontekst (na przykład imię i nazwisko, kod i miejscowość itp.).

parsowanie

Na tym etapie realizujemy dodatkowe zadania takie jak:

  • Na podstawie popularnych imion określamy płeć.
  • Wyodrębniamy formę prawną w przypadku firm.
  • Na podstawie zawartości pola “nazwa” rozpoznajemy czy rekord zawiera osobę, grupę osób, instytucję, firmę lub działalność gospodarczą itd.

Standaryzacja – umożliwia zamianę wielu różnych wystąpień tej samej wartości zmiennej jedną wartością. Przykładowo, „Warszawa” i „Wa-wa” zostaną zidentyfikowane jako ta sama wartość i zastąpione jedną, zdefiniowaną wartością. Na tym etapie korzystamy z wbudowanych w naszym systemie AdvancedMiner DQ słowników, dzięki którym skuteczność standaryzacji jest wysoka.

Deduplikacja – pozwala na wykrycie powtórzonych rekordów i ich konsolidację. W ramach tego etapu możliwe jest m.in.:

  • wyszukiwanie wielokrotnych wpisów tego samego klienta w bazie nawet gdy dane są zapisane na różne sposoby;
  • łączenie baz z wielu źródeł i ich ujednolicenie polegające na stworzeniu rekordu klienta obejmującego wszystkie informacje z różnych źródeł;

Przykłady duplikatów:

deduplikacja

Przeprowadzana przez nas deduplikacja obejmuje zarówno matching równościowy (dwa rekordy są identyczne) jak i probabilistyczny (dwa rekordy są podobne).

  1. Przygotowanie zbiorów finalnych (poprawiona baza danych) i raportu końcowego z przebiegu projektu.

  1. Automatyzacja

Na końcu, cały proces czyszczenia danych automatyzujemy, co pozwala na utrzymywanie określonego poziomu jakości danych w dłuższym okresie.
Od tego momentu, przykładowo, każdy nowy wpis o kliencie w systemie CRM jest automatycznie poprawiany (poprzez parsowanie, standaryzację i deduplikację).

W ramach projektu czyszczenia danych, można przeprowadzić dodatkowe analizy, wzbogacanie danych o dodatkowe informacje (np.: wypełnianie wartości brakujących, householding) oraz geokodowanie.

Już teraz czyszczenie danych można przeprowadzić w chmurze dzięki aplikacji dataquality.pl.