zaterdag, 17 september, 2016, 5:09 pm - Persoonlijk
Ik schrijf niet zo heel vaak blogs wat niet over mijn hobby hamsters gaat, maar over mijn werk. Afgelopen week stond in de teken van data en in het bijzonder: wat kunnen wij met data doen? En als computernerd c.q. financieel analyst bij Eshuis Accountants en Adviseurs heb ik daar een kijk en visie op.Binnen een bedrijf worden verschillende computerprogrammas gebruikt. En elk programma slaat gegevens op. Deze gegevens worden opgeslagen in de database behorend bij dit programma of in een externe database zoals een SQL database of bijvoorbeeld MYSQL als het om een web applicatie gaat. Elk database is gesplitst in onderwerpen. Zo worden de klantgegevens apart opgeslagen ten opzichte van bijvoorbeeld de gegevens van de verkoopfacturen en ten opzichte van bijvoorbeeld de kleur van de auto. Denkbeeldig moet je dit als tabellen zien. Er is een tabel autokleur en elke kleur kent een uniek nummer (een record identifier). In de tabel autos staat een verwijzing naar de kleur en een verwijzing naar de klantgegevens. Met deze record identifiers worden de verschillende tabellen met elkaar gekoppeld.
Stel nu voor dat je een autobedrijf wilt analyseren. Binnen een autobedrijf heb je verschillende programmas: ééntje waarin alle verkopen en onderhoud geregistreerd wordt. Soms zit daar de financiële administratie bij in, maar het komt ook voor dat de financiële administratie in een ander programma bijgehouden wordt. Daarnaast worden ergens de personeelsgegevens beheerd, ook al is dat bij de accountant. Als je al deze data bij elkaar neemt in verschillende tabellen dan kan je daar heel veel mee. Denk maar aan bijvoorbeeld hoeveel autos zijn er verkocht. Hoeveel rode autos zijn er afgelopen jaar verkocht. Hoeveel marge wordt gemiddeld op een rode auto gemaakt en hoeveel ten opzichte van de meer voorkomende kleur grijs. Zit daar verschil in? Maar je kunt ook denken aan wie heeft financiële data aangemaakt en wat was zijn of haar functie. Want meestal wordt in het financieel programma gelogd wie de mutatie maakt en als je dit koppelt met het tabel personeelsgegevens, dan kan je daar de functie bij halen.
Alleen data uit één programma noem ik nog geen big-data, een term die in deze tijd veel hoort en nu vele definities kent. Als je nu alle Twitter berichten neemt, dan is dit data maar in mijn ogen nog steeds geen big-data. Het gaat mij namelijk niet om de hoeveelheid. Een ander voorbeeld, als ik nu de dagomzetten van een horeca heb als data en ik heb een tabel weerberichten per dag. En ik zou dat koppelen dan zou ik de gemiddelde omzet bij een bepaald weertype kunnen berekenen. Is de hoeveelheid data veel?, nee: het zijn maar 365 bedragen omzet en 365 weerberichten. Big-data is in mijn ogen het maken van complexe koppelingen binnen de data.
De weerberichten is een open-database. Het staat vrij ter beschikking. Terug komend op de autoverkopen van het autobedrijf. Hoe de kleuren in hun programma gedefinieerd zijn, hoeft niet gelijk te zijn aan hoe een ander dit doet. Maar elk auto heeft nog een uniek identifier namelijk het kenteken. En RDW stelt alle autos als open-database beschikbaar waarbij identifier het kenteken is. Stel je voor je neemt alle verkochte autos van een bepaalde maand. Daarin staan ook de autos die het autobedrijf waarvan je een analyse wilt maken ook in. Dan kan je een koppeling maken en vergelijken hoeveel rode autos in een bepaalde maand verkocht zijn ten opzichte van je eigen verkopen. Maar bij RDW wordt veel meer geregistreerd. Zo wordt de op naam gesteld datum geregistreerd. Een auto waarvan de op naam gesteld datum anders is dan de verkoopfactuur is een auto die daarna weer verkocht is. En als die niet verkocht is door het autobedrijf, dan is de kans groot dat het geen klant meer is. Wat zou een autobedrijf met deze informatie kunnen?
Terugkomend op mijn ander voorbeeld de horeca. Als je nu alle verkooprecords zou pakken geregistreerd door het kassasysteem. Dan weet je waaruit de omzet precies bestaat. En als je dit koppelt met de weerberichten, dan weet je bij een bepaald weertype welke artikelen gemiddeld verkocht worden. Met deze informatie zou je beter kunnen inkopen in combinatie met de weersverwachtingen.
Bij webapplicaties zoals een webwinkel is het uitlezen van de MYSQL database. Hierin staat heel veel gegevens. Bijvoorbeeld de verkooprecords en dus wat precies verkocht is en waarvoor. Analyse hierop kan je inzicht geven in hoeveel verkopen heb ik wel verzendkosten doorbelast en hoeveel niet. En hoeveel marge heb ik bij een bepaald productgroep gerealiseerd en welke producten zorgen voor veel omzetvolume ten opzichte van een lage marge waardoor vaak geen verzendkosten doorbelast worden.
Zo kan analyse van de beschikte data uit verschillende pakketten zeer interessante informatie gehaald worden. En dit noem ik van data naar big-data.