Uit de cursus: Big data in tijden van AI

Het volume, de snelheid en de verscheidenheid van big data

Uit de cursus: Big data in tijden van AI

Het volume, de snelheid en de verscheidenheid van big data

- [Verteller] Het enige dat we absoluut zeker weten over big data is dat het echt groot is. Er zijn veel gegevens, het is groot. Maar weet je, wat telt als big data verandert met de tijd mee. Ooit waren een heleboel ponskaarten misschien big data of in 1969 was dit een enorme hoeveelheid programmering. Dit is Margaret Hamilton met de code voor de Apollo Guidance Computer waarvoor ze uiteindelijk de Presidential Medal of Freedom won. En dan wordt wat op het ene moment groot kan zijn normaal of op een ander moment zelfs klein. In 1992 kreeg ik bijvoorbeeld mijn eerste computer, een Apple Macintosh Classic II met de optionele grotere harde schijf van 80 megabyte. Ik kwam helemaal door de grad school. Ik heb mijn proefschrift over die computer geschreven en nu heb ik een relatief bescheiden MacBook Pro en als ik thuis ben, is deze verbonden met tien terabyte externe opslag. Dat is 125.000 keer zoveel opslagruimte als mijn eerste computer en eerlijk gezegd ben ik tegen de limieten aangelopen. Dus het is enorm in vergelijking met mijn zelf uit 1992, maar het is middelmatig voor consumenten en echt nietig volgens commerciële normen. Dus, als we echt willen nadenken over, wat bedoelen we met big data gezien dit relatief verschuivende referentiekader, nou, een ding dat vrij consistent is, is de definitie die afhankelijk is van wat de drie V's van big data worden genoemd. En dus is de eerste V, het eerste kenmerk van big data, volume, wat simpelweg betekent dat er veel van is. En de tweede is snelheid, die te maken heeft met de snelheid waarmee de gegevens binnenkomen. En de derde is de variëteit of de aard en het formaat van de gegevens. Neem die samen en je hebt wat de meeste mensen als big data zouden beschouwen en ik wil het over elk van deze een beetje afzonderlijk hebben. Volume is dus het meest voor de hand liggend. Dit is wanneer u meer gegevens hebt dan past in het RAM-geheugen van een computer, het geheugen, of misschien hebt u meer gegevens dan op een enkele harde schijf past en moet u servers en gedistribueerde opslag gebruiken. Ik bedoel, denk bijvoorbeeld aan de gegevens over de 2+ miljard gebruikers van Facebook. Dat kun je niet op één computer zetten. Of de informatie over de meer dan 120 miljoen items van Amazon die ze online verkopen. Het bijhouden van alles wat duidelijk elke computer of zelfs een verzameling computers zal overweldigen. De volgende is snelheid. Weet je, een zacht briesje door de bomen is leuk, maar een orkaan is een heel andere situatie. De snelheid verwijst naar gegevens die snel binnenkomen en vaak veranderen. Denk bijvoorbeeld aan het feit dat er naar schatting bijna 200 miljoen e-mails per minuut van elke dag worden verzonden. Of dat er dagelijks vijf miljard video's op YouTube worden bekeken. Als je dit soort dingen probeert bij te houden terwijl het gebeurt, wordt het een volledig overweldigende klus. En dan is de derde V afwisseling. Gegevens zijn er in veel verschillende formaten en je kunt video, foto's, audio hebben, je kunt GPS-coördinaten hebben met tijd en locatie, je kunt sociale netwerkverbindingen tussen mensen hebben, en al deze vertegenwoordigen verschillende soorten gegevens uit de reguliere rijen en kolommen met cijfers en letters die je zou verwachten te vinden in, zoals een spreadsheet. En al deze vereisen speciale manieren om de gegevens op te slaan, te beheren, te manipuleren en te analyseren. Alles bij elkaar vormen dat meestal big data. Een andere manier om erover na te denken is big data is data die moeilijk te beheren is. Het is het idee dat sommige dieren iets uitdagender zijn om mee om te gaan en niet zijn gedomesticeerd, zoals de zebra. Big data is een beetje als de zebra van de datawereld. Het is gewoon niet gemakkelijk om mee te werken, niet via conventionele normen, en je zult zeer aanpasbaar moeten zijn om de waarde uit die gegevens te halen. Nu wil ik wel iets historisch zeggen over de term. Dit zijn Google Trends-gegevens over de zoekpopulariteit voor de term "big data" op Google, en we hebben gegevens van 2011 tot en met 2019. En wat je kunt zien is dat er een duidelijke piek is in het midden van oktober 2014. Dat is het moment waarop de Google-zoekopdrachten naar "big data" over het algemeen het meest voorkwamen. Dit betekent niet dat mensen niet meer om big data geven. Je ziet hoe het sindsdien misschien een derde, misschien zelfs 50% is gedaald. Nou, er is een gezegde dat een vis, of in dit geval een zeepaardje, de laatste zou zijn om water te ontdekken. Dat komt omdat het overal om hen heen is. Het is letterlijk het medium waarin ze leven en bewegen. Hetzelfde geldt voor big data. Hoewel de zoektocht naar big data in de loop van de paar jaar misschien een beetje is afgenomen, niet omdat niemand meer om big data geeft, is het omdat big data de lucht is geworden die we nu inademen, het water waarin we ons verplaatsen. Big data is de nieuwe normale data geworden voor gebruik in data science en machine learning en kunstmatige intelligentie, en daarom is het begrijpen van wat big data betekent, de speciale uitdagingen die het creëert en hoe ermee te werken nu net zo relevant als ooit tevoren.

Inhoud