Data Lake vs Data Warehouse; wat is het verschil?

  1. Home
  2. /
  3. Kennisbank
  4. /
  5. Data Lake vs Data Warehouse; wat is het...

Wat is het verschil en wat kan ik ermee?

Wij worden steeds vaker geconfronteerd met de vraag of een Data Warehouse niet achterhaalt is en of een Data Lake niet een beter uitgangspunt is voor Business Intelligence. Wij leggen je graag uit hoe het zit.

Wat is een Data Warehouse?

Een Data Warehouse (DW) wordt gebruikt als databron voor een specifieke toepassing. In een organisatie zijn over het algemeen meerdere applicaties in gebruik met allemaal een eigen database. Dit is vaak een SQL, Oracle, Access, Progress of ander veelgebruikte database. In het geval dat er gegevens uit meerdere databases gebruikt moeten worden voor één centrale toepassing is het aan te raden om deze te consolideren in één database.

Het doel van een Data Warehouse

Doel van een Data Warehouse is ook om de gegevens die nodig zijn, gestructureerd aan te bieden aan de applicatie. Daarmee wordt bedoeld, dat niet alle data uit alle databronnen wordt gekopieerd naar één nieuwe databron, maar dat alleen de gegevens worden geëxtraheerd die nodig zijn voor de toepassing. Oftewel als er voor een rapportage alleen financiële gegevens nodig zijn, is het niet nodig om productinformatie te kopiëren. Hiermee ontstaat een gestructureerde hoeveelheid data voor specifiek gebruik.

Wat bereik je met een Data Warehouse?

Door gebruik van een Data Warehouse wordt een hoge mate van efficiëntie bereikt bij het aanbieden van de juiste data in de juiste context in een specifieke gebruikerscase, zonder daarbij de oorspronkelijke bronsystemen te belasten. Door deze scheiding ondervinden de systemen geen last van elkaars gebruik.

Wat is een Data Lake?

Een Data Lake (DL) is een verzamelplaats van álle data voor een specifieke organisatie. Er is geen sprake van context, systeem of orde. Alle data wordt ongestructureerd opgeslagen. Zo kan het gebeuren dat platte bestanden (files), databases en mails in één data lake worden opgeslagen. Databases (gestructureerde data) en overige data komen dus allebei voor in het Data Lake.

Voordelen van een Data Lake

De voordelen die gepaard gaan met het ongestructureerde karakter zijn vooral van toepassing bij analyse van de verschillende bronnen. Het is de plaats waar relaties gelegd kunnen worden, analyses worden gedaan en de bedrijfsprocessen worden geoptimaliseerd.

 

Een ander voordeel is dat een data lake vrijheid biedt. In een gestructureerde datawarehouse omgeving moet gewerkt worden binnen de kaders van de gecreëerde structuur. Met een data lake is die beperking er niet meer. Een data lake moet niet gezien worden als een vervangend opslagsysteem, maar als een plek waar analyse en onderzoek kan worden gedaan met ongekende vrijheid. Het is ook geen vervanging van de traditionele database, maar een aanvulling.

Conclusie

Er is geen goede of slechte keuze. Beide modellen bieden hun eigen voor- en nadelen. Er is echter wel een duidelijke scheiding in functionele zin. Voor een gestandaardiseerde, gestructureerde functionele toepassing is een datawarehouse (meestal) de logische keuze. Bij organisaties die continu willen beschikken over een grote hoeveelheid ongestructureerde data voor analyse en onderzoek is een data lake (mogelijk) een goede keus. Hierbij moet echter de impact op onderhoud en kosten niet worden onderschat. iqbs heeft geen voorkeur. Onze Business Intelligence diensten en oplossingen kunnen zowel met een data lake als datawarehouse omgaan. Wij adviseren onze klanten op maat, waarbij beide opties mogelijk zijn.