Hurtownia danych

Bazy danych, Teoria paź 16, 2007

Hurtownia danych (ang. data warehouse) rodzaj bazy danych, która jest zorganizowana i zoptymalizowana pod kątem pewnego wycinka rzeczywistości. Hurtownia danych jest wyższym szczeblem abstrakcji niż zwykła relacyjna baza danych (choć do jej tworzenia używane są także podobne technologie). W skład hurtowni wchodzą zbiory danych zorientowanych tematycznie (np. hurtownia danych klientów). Dane te często pochodzą z wielu źródeł, są one zintegrowane i przeznaczone wyłącznie do odczytu.

W praktyce hurtownie są bazami danych integrującymi dane z wszystkich pozostałych systemów bazodanowych w firmie. Ta integracja polega na cyklicznym zasilaniu hurtowni danymi systemów produkcyjnych (może być tych baz lub systemów dużo i mogą być rozproszone).

Architektura bazy hurtowni jest zorientowana na optymalizację szybkości wyszukiwania i jak najefektywniejszą analizę zawartości. Stąd bywa, że hurtownie danych nie są realizowane za pomocą relacyjnych baz danych, gdyż takie bazy ustępują szybkością innym rozwiązaniom.

W zależności od rodzaju hurtowni dane w jej rekordach mogą być zagregowane lub zawierać nawet informacje szczątkowe. W praktyce oznacza to, że pewne dane w hurtowni nie są przechowywane w postaci rozdrobnionej a tylko jako ich suma. Przykładowo tak stać się może, gdy mamy do czynienia z hurtownią danych sprzedaży, wtedy nie będą występowały w niej poszczególne pozycje na fakturach a jedynie kwoty faktur, gdyż to jest podstawą analizy (oczywiście to osoby korzystające z hurtowni określają, jakie dane są dla nich użyteczne). W praktyce w ramach architektury hurtowni jest poziom danych detalicznych oraz warstwa agregatów / kostek tematycznych.

Użytkownicy końcowi hurtowni, czyli najczęściej zarząd firmy, korzystają z danych hurtowni poprzez różne systemy wyszukiwania danych (np. OLAP – Online Analytical Processing ).

Hurtownia danych stanowi zatem rozbudowaną bazę danych, przechowującą olbrzymią ilość danych zbieranych w czasie. Dodatkowo zakłada się, że przeprowadzane na danych operacje mają charakter analityczny (wyszukiwanie i analiza). Nie stosuje się więc typowych transakcji. Ze względu na ilość i tematykę danych przeprowadzane analizy mogą polegać na szukaniu trendów, zależności, wzorców, itp. Stosowana tu eksploracja danych (z ang. data mining) wyszukuje ogólnych form wiedzy z olbrzymiej ilości danych. Przeprowadzane na hurtowniach danych wyszukiwania mają najczęściej charakter wielowymiarowy nie ograniczają się bowiem tylko do jednej tabeli, lecz korzystają z wielu relacji. Przechowywane dane w hurtowni są tematycznie spójne (dotyczą konkretnego problemu, lub instytucji – np. szpitala) oraz zintegrowane, co najczęściej cechuje się centralizacją przechowywania danych (wszelkie dane są przechowywane w jednym miejscu). Istnieją również zawężone tematycznie hurtownie danych (np. do jednego oddziału szpitala, lub kliniki) nazywane minihurtowniami danych (z ang. data mart). Minihurtownie mogą istnieć jako oddzielne jednostki lub stanowić element hurtowni danych. Większość firm tworzących systemy relacyjnych baz danych tworzą również oprogramowanie hurtowni danych.

Inguaris

Inguaris – sztuczna inteligencja, uczenie maszynowe, systemy ekspertowe. Zajmujemy się praktycznym wykorzystaniem AI w e-commerce, finansach, wsparciu marketingu i wielu innych dziedzinach.