De voor- en nadelen van Big Data

Geplaatst: 30 juli 2015 - 09:23

Aangepast: 14 december 2022 - 12:36

Redactie ID.nl

Big Data is in de hoofden van marketeers een warme droom, in de ogen van verkopers een veelbelovend middel voor hun salestargets, en in de perceptie van veel consumenten een groot gevaar voor je privacy. Tegelijkertijd belooft Big Data jou ook veel voordelen. Voor welke prijs?

Het is een streven van veel goedbedoelende nerds om gegevens toegankelijk te maken. De overtuiging dat informatie vrij wil zijn, is een bekend gegeven uit de hackerswereld. De één vult dat in met de interpretatie dat het oké is om digitale data te kopiëren, de ander werkt aan het zo breed mogelijk beschikbaar stellen van allerlei informatiebronnen. Ingenieurs bij Google hebben al openlijk gesteld dat dát het doel is van die zoekmachine: de data van de wereld ontsluiten. Lees ook: 6 'tastbare' big data-projecten.

Zoektermen automatisch aanvullen

Het simpelweg kopiëren of openbaar maken van gegevens is één ding. Het op allerlei manieren koppelen, combineren en analyseren van gegevens is een heel ander ding. Dat kan namelijk nieuwe inzichten opleveren waarop mensen, organisaties, bedrijven en overheden beter onderbouwde beslissingen kunnen nemen. Google doet dat voor gewone gebruikers door bijvoorbeeld zoektermen actief en live aan te vullen wanneer mensen iets intikken in de veelgebruikte zoekmachine.

Daarnaast werkt Google verder door met de dienst Google Now. Deze intelligente persoonlijke assistent combineert diverse databronnen, zoals je agenda en openbare verkeersinformatie, om je bijvoorbeeld te waarschuwen dat je voor een afspraak om 15:00 uur nú moet vertrekken omdat er op je route file aan het ontstaan is. De door Google overgenomen navigatie-app Waze zorgt weer voor een nieuwe bron van verkeersinformatie: opgebouwd uit de bewegingssnelheid - of juist stilstand in een file - van de vele Waze-gebruikers. Terwijl je agenda een privé-item is, geldt dat niet voor grootschalig vergaarde en daarbij geanonimiseerde informatie zoals verkeersstromen.

Definitie(s)

Een veelzeggend spreekwoord in de ICT luidt als volgt: Het mooie aan standaarden is dat je er altijd meerdere van hebt. Hetzelfde valt te zeggen voor definities van technologieën, zeker als die een mooi marketinglabel hebben gekregen. Big Data ontkomt hier ook niet aan. Van oorsprong is Big Data gedefinieerd als 'data van zeer grote omvang, waarbij het gebruik en beheer ervan aanzienlijke logistieke uitdagingen met zich meebrengt'. Dit is een ietwat vage omschrijving, die haaks staat op het huidige groeiende gebruik van Big Data door veel bedrijven, organisaties en overheidsorganen.

Op deze definitie is een variant gekomen die erkent dat de term veelomvattend is en van toepassing is op 'elke verzameling datasets die zo groot en complex is dat het moeilijk te verwerken is met beschikbare tools voor databeheer of met traditionele programma's voor dataverwerking'. Ook deze definitie bevat subjectieve woorden die een bepaalde houdbaarheid hebben. Want wat is moeilijk, en waar ligt de grens tussen traditionele en niet-traditionele programma's?

Gaandeweg de acceptatie, populariteit en ingebruikname van Big Data, zijn er dan ook andere definities geformuleerd. Zoals 'het gebruik van informatie op vernieuwende manieren om nuttige inzichten of goederen of diensten met aanzienlijke waarde te produceren'. Nog altijd behoorlijk breed te interpreteren, maar de focus ligt niet meer zozeer op de omvang van de dataverzameling maar op het nut ervan. Een valkuil is namelijk de gedachte dat alsmaar meer informatie vanzelf leidt tot antwoorden en inzichten. Verzamelwoede voor data kan juist leiden tot minder nuttige informatie. Big Data gaat om het vinden van de (gouden) speld in de hooiberg, die is opgebouwd uit andere hooibergen.

Bier en luiers

Big Data is de term voor dergelijke grootschalige verzameling, koppeling, combinatie, analyse en interpretatie van informatie. Die informatie komt dan uit diverse bronnen en bestaat uit diverse formaten. Het doel van de combinatie en analyse is het verkrijgen van nieuwe inzichten. Soms kunnen dat best verrassende inzichten zijn. Het zogeheten bier-pamperssyndroom is een bekend voorbeeld daarvan, hoewel het waarheidsgehalte ervan wordt betwist. Kort gezegd komt het bier-pamperssyndroom erop neer dat een Amerikaanse supermarktketen jaren geleden uit de analyse van verkoopgegevens een vreemde correlatie haalde. Te weten die tussen de verkoop van bier en die van luiers, met name op vrijdagavond en/of zaterdag. Deze twee volledig verschillende producten hadden iets met elkaar gemeen, want ze werden redelijk simultaan met elkaar verkocht.

Grappen over ouderschap en drankbehoefte daargelaten, leek er toch echt een link te zijn tussen luiers en bier. De redenatie was dat kersverse moeders hun partners op pad stuurden om de grote, onhandige pakken met luiers te halen en dat mannen er dan naar neigden om dan maar nog een groot product mee te nemen: een kratje bier. Als eigen beloning voor het boodschappenwerk? Vervolgens zou de Amerikaanse supermarkt de winkelpositie van luiers en bier hebben aangepast zodat de twee dichter bij elkaar lagen en meer op één route naar de kassa's. Resultaat? De verkoop van bier schoot omhoog. Tenminste, dat wil de overlevering, want details en oorsprong van dit dataverhaal ontbreken. Dus een broodjeaapverhaal? Toch is het een nuttige anekdote als voorbeeld van de voordelen die data-analyse kan brengen.

Inschatting, inkoop, korting en gratis

De klantenkaarten die vele Nederlanders hebben, brengen hun koopgedrag in kaart. Dit niet om hun drankgewoonten bloot te leggen of om met gerichte advertenties aan te zetten tot meer drankinkoop. Het gaat supermarkten, winkeliers en andere aanbieders er ook om betere inkoop te kunnen doen, zodat hun klanten niet onverwacht voor lege schappen staan. En natuurlijk ook zodat de aanbieders niet met onverkochte - en schijnbaar onverkoopbare - voorraden blijven zitten. Als beloning krijgen klanten dan vaak voordeeltjes: extra korting op bepaalde producten of diensten.

In het moderne tijdperk van Big Data kan de korting ook heel ver gaan. Complete producten en diensten zijn geheel gratis. Klinkt wat vergezocht? Dat is het absoluut niet. De kosten voor de opslag van petabytes aan data, de rekenkracht van vele honderdduizenden servers en de enorme hoeveelheden netwerkverkeer zijn vaak niet voor rekening van de gebruiker. Google is gratis te gebruiken, Facebook ook. Googles mobiele besturingssysteem Android is gratis voor de makers van smartphones en tablets. Dit zijn allemaal middelen om meer en meer data te verzamelen.

Doorslaan en nu bezinning

Vaak is daarbij privacy de prijs die wordt betaald. Maar vergis je niet; je hoeft niet gelijk bang te worden: Big Data staat niet per definitie gelijk aan datagraaien ten koste van privacy! De huidige trend lijkt wel die kant op te gaan, maar dat komt grotendeels door de excessen, die veel aandacht krijgen. Zoals de misstappen bij het grote verzamelen van data en koppelen van collecties door bijvoorbeeld giganten als Google en Facebook, maar ook door de Nederlandse Belastingdienst en andere, minder zichtbare partijen. Zij gaan soms wel erg ver in hun verzamelwoede en worden daar ook wel voor op de vingers getikt.

Big Data gaat naar verwachting van experts en analisten nu een periode van bezinning in. De hype over het fenomeen heeft zijn piek wel zo'n beetje bereikt en de opgeblazen verwachtingen worden doorgeprikt. Dit volgens de technologiecyclus zoals geformuleerd door IT-onderzoeksbureau Gartner (zie ook het kader 'Hype, hyper, hypest'). De luchtkastelen en het voorbij galopperen komen dan ten einde. Na een periode van teleurstelling volgt er bezinning en uiteindelijk ook echt beter gebruik. Want Big Data belooft nog altijd veel; als er maar een goede balans wordt gevonden tussen datagraaien en dataversplintering.

Hype, hyper, hypest

Big Data stevent af op een diep dal. Tenminste, als de voorspelling van analisten uitkomt. Net zoals eerder bij de opkomst en uiteindelijk acceptatie van technologische trends, is er sprake van een cyclus: de zogeheten 'hype cycle'. Die trendstracker van ICT-onderzoeksbureau Gartner bestaat uit een curve waarin mensen eerst aanslaan op de innovatieve mogelijkheden van een technologie. Daarna volgen steeds verder opgeblazen verwachtingen tot er een piek wordt bereikt. Het Internet of Things (IoT) zit daar nu zo ongeveer, schatten de analisten van Gartner in.

Eenmaal op de piek van de hype aangekomen, worden de overdreven verwachtingen gezien voor wat ze zijn en volgt de trog van ontgoocheling. De eerst zo veelbelovende technologie wordt afgekraakt, afgeserveerd en lijkt afgedaan. Dit is echter een overdreven reactie op de eerder zo opgeblazen verwachtingen. Een periode van bezinning volgt, wat in de hype cycle de lichte helling van verlichting wordt genoemd. Daar zitten nu technologieën als cloudcomputing, NFC en virtual reality. Laatstgenoemde heeft in de jaren negentig al eens gepiekt qua hype.

Uiteindelijk volgt dan de fase waarin een technologie tot zijn recht komt en echt waarde oplevert. Het is dan geaccepteerd en de verwachtingen liggen lang niet zo hoog als op het toppunt van de hype. Op dit zogeheten plateau van productiviteit zitten nu zaken als spraakherkenning (zoals Siri, Ok Google en Cortana) en 3D-scanners. Voor elke opkomende technologie geldt er wel een andere, eigen tijdsduur om de diverse fases van de hype cycle door te komen. Sommige zaken worden sneller gehypet, zakken harder in en weten vlotter weer rijp te worden dan andere opkomende technologieën.

Vangst en bijvangst

Big Data is een relatieve term. Wat groot is voor de ene organisatie, kan best bescheiden zijn voor een andere dataverzamelaar. De gegevenscollectie van een forse Nederlandse zorgverzekeraar verbleekt waarschijnlijk bij die van bijvoorbeeld Facebook. Hierbij is er ook nog sprake van vooruitgang: wat nu een omvangrijke databerg is, wordt over een paar jaar gezien als een klein dataheuveltje.

Bovendien worden datacollecties en de analyse daarvan nog groter en in potentie interessanter als er meerdere databases met elkaar worden gekoppeld. Dáár zit 'm de meerwaarde en aantrekkelijkheid van Big Data. Zo heeft de Nederlandse Belastingdienst al uitgedokterd dat het best nuttig kan zijn om opgegeven kilometers van leaserijders in relatie te brengen met kentekenscans van parkeergarages. Zo zijn namelijk frauderende bestuurders van leasewagens op te sporen. Leaserijders die aan de fiscus geen bijtelling betalen, mogen in hun auto van de zaak maar een beperkt aantal kilometers rijden voor privégebruik. Aan de hand van de informatie die is opgevraagd bij parkeergarages, valt te zien waar welke leaserijder zoal is geweest en dus hoeveel kilometers hij of zij heeft gemaakt.

Alleen is er met dit vangnet voor leaserijfraude nogal erg breed gevist waarbij veel Nederlanders zich bespioneert voelden. Wettelijk gezien heeft de Belastingdienst niets verkeerd gegaan, bepaalde het Gerechtshof in Den Bosch vorig jaar al. Toch heeft de Belastingdienst begin dit jaar zelf besloten om toch maar te stoppen met het opvragen van parkeergegevens. Het had niet veel nut, vertelde directeur Hans Blokpoel aan De Correspondent, én het ging ook hem te ver. Lees het interview van de Correspondent.

Oppassen voor Big Databrother

Aan de ene kant van de doorgeslagen balans dreigt het alziende spook van Big Brother (ook zeker in bedrijfsgedaante). Aan de andere kant van de balans dreigt onwetendheid door verdeelde data die stil ligt in verschillende, niet-communicerende vijvertjes. De voordelen van goede koppelingen tussen zogeheten datasilo's zijn namelijk legio. Niet alleen voor kortingen en gerichte advertenties, waar naast marketeers ook consumenten wel voordeel in zien.

Naast geldelijk gewin valt er ook op gebied van gezondheid heel wat te winnen door onderling verbonden datameren. Wist je bijvoorbeeld dat griepgolven door Japanse wetenschappers in kaart zijn gebracht door data-analyse van berichten op Twitter? Zo zijn epidemieën vroegtijdig te signaleren én te bestrijden. Grote datavergaarders werken hier ook aan mee. Zo helpt Apple met zijn HealthKit en ResearchKit artsen en wetenschappers om makkelijker apps te maken die medische gegevens kunnen vergaren. Voor patiënten privé, voor geanonimiseerd grootschalig onderzoek én voor preventie van ernstige aandoeningen.

ING en de datarel

Bankiers hebben sinds de crisis bij veel mensen een slecht imago en ING heeft daar ruim een jaar geleden nog wat aan weten toe te voegen. De Nederlandse bank onthulde toen in een interview met Het Financieele Dagblad de plannen voor Big Data. ING had de intentie om een proef te doen waarbij het klantgegevens zou gebruiken voor commerciële doeleinden. "Een tuincentrum wil graag weten dat je elk jaar in maart 150 euro uitgeeft aan tuinspullen. Hij kan dan op het juiste moment een scherp aanbod doen", luidde de uitleg. Dit om "de dienstverlening te verbeteren".

Vervolgens zijn Nederlandse consumenten, de Consumentenbond, politici, financieel toezichthouder AFM en De Nederlandsche Bank gevallen over deze plannen voor data-analyse. Logisch, want de klant voor deze verbeterde dienstverlening lijkt in dit voorbeeld het tuincentrum te zijn en niet de rekeninghouder bij de bank! De proefballon met klantgegevens, die daarvoor wel om toestemming worden gevraagd, is gauw weer neergehaald. Big Data is hiermee niet afgeserveerd, want ING heeft nog vele andere vijvers met data die het wil koppelen tot grotere meren waaruit het interessante informatie kan vissen. Maar dan wel met meer zorg voor privacy.

Dagelijks nut: veiliger verkeer, favoriete films en doelpunten

Dichter bij het dagelijkse leven van de meeste mensen zijn er andere nuttige en verrassende toepassingen. Zoals welke kruispunten in een stad het gevaarlijkste zijn voor welke soort verkeersgebruiker, zodat een gemeente daar wat aan kan doen. En zoals wat de meest beboete parkeerplaats in New York is, zodat je die kunt mijden. Of welke film of tv-serie echt iets voor jou is op basis van je kijkgedrag, zodat Netflix je bizar lijkende subgenres kan voorschotelen.

Trouwens, heb je ooit de Brad Pitt-film Moneyball (2011) gezien? Dan ben je al een beetje bekend met Big Data en wat dat al heeft betekend voor sport. Het Amerikaanse honkbal gebruikt al jaren analyses voor de sport zelf, wat met de man erachter is beschreven in het later verfilmde boek (2003). Statistiek voor gevorderden, die niet alleen interessant is voor sportgokkers en bookmakers. Ook coaches, sporters zelf en professoren hebben veel baat bij Big Data-analyse van trainingen, opstellingen en wedstrijden.

De afgelopen jaren is er in het Amerikaanse basketbal weer voortgebouwd op de Moneyball-inzichten van honkbal. Een professor (tevens basketbalfan) heeft elk doelschot ooit genomen in de NBA (National Basketball Association) geanalyseerd. De complexere sport van basketbal is in kaart gebracht met zogeheten heatmaps waarbij de posities van spelers zijn gekoppeld aan hun scoringskansen. Daarop inspelen met opstelling en tactiek voor doorspelen van de bal levert meer doelpunten op. Het Nederlandse voetbal hoopt hier ook mee te scoren: de honkbalmanager van Moneyball is begin dit jaar door de Alkmaarse club AZ binnengehaald als adviseur. Big Data op het Hollandse voetbalveld. Heel gewoon, net zoals veel meer toepassingen normaal zullen worden.

Zelf doen?

Tot op heden lijkt Big Data iets voor grote giganten die drijven op data. Denk aan internetreuzen als Google en Facebook, denk aan overheden, denk aan wetenschappers. Toch zijn er twee trends die zorgen voor een democratisering van Big Data.

De eerste is het fenomeen van open data. Steeds meer interessante dataverzamelingen zijn openlijk in te zien voor iedereen. Deels zijn dit openbare en opvraagbare gegevens van overheden en deels zijn dit datasets van online diensten zoals bijvoorbeeld Twitter, die hun systemen aanspreekbaar en bevraagbaar maken. Dat doen ze middels een zogeheten API (application programming interface), wat een set beschrijvingen is waarmee het ene programma kan interfacen met een ander. Voer voor programmeurs dus? Ja, hoewel die op hun beurt programma's maken voor gewonere gebruikers.

De tweede democratiserende trend is het fenomeen opensource. Specifiek de Big Data-software Hadoop. De vergelijking valt te trekken met het besturingssysteem Linux, dat lang geleden heeft gezorgd voor een democratisering van servers. Dankzij die opensource-software kan iedereen zelf een server draaien, bijvoorbeeld voor een eigen website. Vroeger was daar een duur Unix-besturingssysteem en bijbehorende server voor nodig.

Zowel toen bij Linux (en webserversoftware Apache) als nu bij Hadoop gaat het er niet eens zozeer om dat de krachtige software gratis verkrijgbaar is. Belangrijker nog is dat de complexe programmatuur zijn taak kan doen op relatief goedkope standaardcomputers. Gewone thuis-pc's of instapservers zijn op dit moment nog niet toe aan Hadoop. Die opensource Big Data-software vraagt naast terabytes aan JBOD-schijven en zeker 64 GB aan geheugen ook quad-, hex- of zelfs octocore-processors. En dit geldt dan pér server die in combinatie een zogeheten cluster vormen waar de Big Data-analyse dan op wordt uitgevoerd. Zelf doen kán dus, maar is nog niet zo gemakkelijk.

Populairste artikelen:

Met deze software-updaters houd je indringers buiten de deur

9 april 2024 - 07:32

Dubbel de Dropbox: met deze trucjes profiteer je van gratis opslagruimte

5 april 2024 - 07:25

Leren programmeren? Met deze tools is coderen geen geheimcode meer

10 april 2024 - 07:29

Bekijk alle artikelen

Blijf op de hoogte met de wekelijkse ID.nl nieuwsbrief!

Deel dit artikel

Voeg toe aan favorieten

Deel dit artikel