Binnenkort verschijnt het BouwKennis Jaarrapport 2024. Voor veel bouwpartijen het vertrekpunt voor het bepalen van hun bedrijfs- en/of marketingstrategie. Achter al die data, grafieken, trends en prognoses gaat een bijzondere wereld schuil van een net zo bijzonder ‘volkje’: die van onze data-analisten. Maandenlang zonderen zij zich af om een oceaan aan data te verzamelen en kruisverbanden te leggen. Dat het geluid van toetsenbordaanslagen onlangs heeft plaatsgemaakt voor stemgeluid kan maar één ding betekenen: het Jaarrapport 2024 is klaar!
Het data-analyseproces
Marc van Wijk is één van die analisten die de afgelopen jaren zijn hart en ziel in de nodige publicaties heeft gestoken. Om het data-analyseproces enigszins te ontrafelen, legden we Marc enkele vragen voor:
Wat is jullie vertrekpunt voor het maken van het BouwKennis Jaarrapport?
“We beginnen niet helemaal from scratch, maar vanuit de kennis en ervaring van andere rapporten die we al jaren maken. Er is dus meestal al een gericht idee over wat we willen onderzoeken en hoe we dat willen presenteren. Zo hebben we al een ruw ‘verhaal’ en niet alleen platte onderzoeksresultaten.”
Hoe komen jullie aan alle benodigde data?
“De data komt van verschillende bronnen. Een deel is openbaar beschikbaar, zoals via het CBS of het CPB. Daarnaast is er openbare data die nog bewerkt moet worden voor het bruikbaar is. Vaak gaat het om grote datasets van bijvoorbeeld het Kadaster. En dan hebben we nog een flink aantal eigen onderzoeken, waarin we gerichte vragen stellen om blinde vlekken in te vullen.”
Hoe maken jullie van ruwe data bruikbare informatie?
“Sommige data is al gestructureerd, dat wil zeggen: als dataset opgebouwd, en andere data niet. In het laatste geval is er voorbereidend werk nodig. Vanuit een dataset is de grootste uitdaging om de juiste groepering of categorisering te creëren. Op die manier wordt de data behapbaar. Dit is een cruciale stap die veel inhoudelijke kennis vraagt over het betreffende onderwerp. In deze stap voegen we veel waarde toe. Hierna volgt de analysestap die gericht is op het leggen van verbanden, of correlaties. Heeft een ontwikkeling van het één te maken met een ontwikkeling van het ander?”
Wat bedoel je precies met categoriseren?
“Hierbij wordt op basis van bepaalde voorwaarden steeds bepaalt of bepaalde data in bak ‘a’, ‘b’ of ‘c’ moet komen, en dat kun je in verschillende stappen doen. Zo krijg je ‘vertakkingen’ die uiteindelijk tot een categorie leiden. Dit heet in vakjargon een ‘beslisboom’. Hierbij maken we ook gebruik van AI.“
Maken jullie ook gebruik van technologie zoals Business Intelligence?
“Naast een eigen database en ‘good old’ Excel gebruiken we ‘aan de voorkant’ inderdaad vooral Power BI. Daaromheen nog heel wat losse tools voor specifieke taken. Een deel van de technologie, zoals een data factory, gebruiken we om hele grote bestanden te verwerken. Een ander deel helpt ons om verbanden en relaties versneld te ‘berekenen’. Tot slot maken we gebruik van visualisatiesoftware om grafieken en tabellen, en soms ook kaarten, te maken.”
Hoeveel mensen hebben aan het BouwKennis Jaarrapport gewerkt?
“Aan het jaarrapport hebben vier mensen van BouwKennis gewerkt, inclusief redacteuren van BouwKennisContentCreatie. Voor een deel is dat op parttimebasis. Vanaf het moment dat de dataset klaar is, neemt het cijfermatige deel nog ongeveer een week in beslag. Daar komt voor schrijven en opmaak nog een week of twee bij, met twee FTE. Een deel van het werk is in een eerder stadium al gedaan, zoals vragenlijsten bijwerken, (nieuwe) bronnen in kaart brengen en cijfers updaten. Bij elkaar is dat ook een week werk.”