Overgenomen uit AutomatiseringGids, 7 november 2011.
Hier staat het gehele artikel.
Kent u het bedrijf Rapleaf? Misschien niet. Toch was het één van de belangrijkste steunpilaren van de online marketingcampagne in aanloop naar de vorige Amerikaanse presidentsverkiezingen. Want alleen Rapleaf kon aan de politieke partijen de zekerheid geven dat hun advertenties aan het juiste publiek getoond zouden worden. Rapleaf houdt immers van elk van ons een zeer gedetailleerd profiel bij, zonder dat we hiervoor expliciet ingetekend hebben.
Rapleaf doet hiervoor niks illegaals: het baseert zich puur op datasporen die we allemaal achterlaten op het internet. Via trackers die het - met medeweten van de gebruikers - op een aantal belangrijke websites en online banneringbedrijven geïnstalleerd heeft, volgt Rapleaf ons surfgedrag. Daar is op zich niks nieuws of origineels aan.
Maar daarnaast stuurt het bedrijf ook webcrawlers het internet op om dit anonieme, op surfgedrag gebaseerde profiel te verrijken met publiek bekende persoonlijke informatie. Gegevens uit uw Facebook-profiel bijvoorbeeld, een Flickr-account, enz.
Rapleaf wist op die manier tijdens de vorige Amerikaanse presidentsverkiezingen of iemand Republikein dan wel Democraat was, door slimme segmentatie aan de hand van dit verrijkte profiel.
Meer nog, Rapleaf weet of u hetero dan wel homo bent, kent uw leeftijd met een afwijking van nauwelijks drie tot vijf jaar, weet of u houdt van tuinieren danwel van astrologie. Rapleaf weet alles, soms tot en met uw echte naam en e-mailadres - de holy grail voor de gemiddelde online reclamejongen.
Dus als u zich ooit afvraagt hoe het komt dat die contextafhankelijke banneradvertenties zo akelig accuraat zijn, dan weet u bij deze het antwoord: Rapleaf.
Honderden terabytes per dag
Het spreekt voor zich dat even uw surfgedrag bijhouden of even het internet opgaan met een webcrawler eenvoudiger klinkt dan het eigenlijk is. Zo’n activiteit genereert immers een waanzinnige hoeveelheid data, vaak vele honderden megabytes tot terabytes per dag. En dan is Rapleaf nog een kleinere speler, in vergelijking met de écht grote databoeren van het internet als Google, Yahoo!, Facebook, Twitter, Amazon enz. Bij die grote spelers wordt intussen al vlot met Petabytes gehandeld en is een datacluster vaak samengesteld uit duizenden nodes of servers.