Het Centraal Bureau van Statistiek (CBS) heeft diverse datasets als open data vrijgegeven via hun Open Data StatLine. Voor de Challenge School en Toekomst is vooral de data over Arbeid en sociale zekerheid en Onderwijs bruikbaar. De data is telkens bulk te downloaden en als API te gebruiken.
Statistiek
Het CBS beschrijft statistische informatie als een “samenvatting van de werkelijkheid”. Statistische gegevens worden gecorrigeerd op bijvoorbeeld seizoensinvloeden. Ook worden verschillende cijfers met verschillende doelen gepubliceerd waardoor de cijfers op verschillende manieren worden gecorrigeerd. Het CBS kan zowel voorlopige als definitieve cijfers publiceren. Voorlopige cijfers zijn vaak sneller beschikbaar, maar minder betrouwbaar dan de definitieve. Het CBS geeft daarom aan dat het combineren van verschillende tabellen tot onjuiste cijfers kan leiden.
De cijfers van het CBS zijn niet te begrijpen zonder metadata. Deze data geven achtergrondinformatie over welke informatie in de datasets zitten. Wat voor data is het? Hoe is het verzameld? Op welk meetniveau? Deze data geven context aan de daadwerkelijke cijfers in de dataset. Het is dus van belang dat er goed naar de metadata wordt gekeken om interpretatieverschillen te voorkomen De metadata zijn toegevoegd aan de datasets, of als losse CSV, of in de API.
Wat kan je er mee?
Met de statistische informatie van het CBS kan je de huidige stand van zaken bekijken, maar ook over jaren trends analyseren en misschien zelfs voorspellingen doen. Je kan bijvoorbeeld de loonontwikkeling vergelijken met de uitstroom van studenten in een sector of het aantal faillissementen en ontslagen vergelijken. Ook kan je sectoren onderling vergelijken: bijvoorbeeld op het aantal vacatures of de stijging – of daling – van de lonen. Statistische gegevens kunnen een waardevolle context geven aan je app.
Data op een presenteerblaadje
Het CBS heeft per dataset een drietal CSV-bestanden beschikbaar gesteld. Allereerst publiceren zijn de metadata. Hierin leggen zij per kolom uit welke data er in het bestand zit. Ook publiceren zij de ruwe de data zelf in een .csv. Je kan er ook voor kiezen om de data voor grafische presentatie op te halen in .csv. Hier heeft het CBS wat herschikkingen in het bestand gedaan.
Het CBS heeft ook een API door middel van drie webservices die gebruik maken van het ODATA protocol versie 3.0. OdataCatalog geeft een overzicht van alle datasets. De OdataAPI kan direct worden aangesproken. Hier is wel een limiet van maximaal 10.000 cellen die gelijktijdig kunnen worden aangesproken. Met de ODATAFEED kan je data ophalen. Deze data moet eerst worden gedownload alvorens te worden gebruikt.
Per dataset verschilt hoe vaak deze wordt geüpdatet. Maar met de API kan je jezelf er van verzekeren altijd de laatste data tot je beschikking te hebben.
Licentie
De data is geheel gratis om te gebruiken. De performance is volgens een fair use policy: als je teveel data opvraagt kan je dus worden afgeknepen. Bij het gebruik van de data moet het CBS worden vernoemd: zij geven de data vrij onder een Creative Commons Naamsvermelding licentie.
Meer weten over Open Data in StatLine?
In volgende themablogs wordt er ingegaan op de inhoud van de verschillende datasets van het CBS. Op de Open Data pagina van het CBS staat meer informatie over de verschillende datasets.