Nieuws

Big, integrated data

Meerwaarde en gebruik van externe datasets onder de loep tijdens kennisuitwisselingsbijeenkomst Hydroinformatica

De stroom aan data die beschikbaar komt via openbaar toegankelijke databases groeit enorm. Denk bijvoorbeeld aan gegevens over waterkwaliteit, weersomstandigheden en de omgeving, via instellingen zoals het Europees Ruimteagentschap, Koninklijk Metereologisch Instituut (KNMI), Rijkswaterstaat en het Centraal Bureau voor de Statistiek. Wat valt er voor de waterbedrijven te halen bij bekende en minder bekende datahubs of repositoria? En hoe kan dit effectief en nuttig worden ingezet, bijvoorbeeld in combinatie met eigen meetdata? Deze vragen rond de toepassingen van ‘big integrated data’ waren onderwerp van gesprek tijdens de kennisuitwisselingsbijeenkomst van de themagroep Hydroinformatica op 5 september. Wanneer interne processen van de waterbedrijven worden ingericht op een meer data-gedreven organisatie, kunnen deze data effectiever worden gebruikt, luidde één van de conclusies.

De kennisuitwisselingsbijeenkomsten van de themagroep Hydroinformatica zijn een terugkerend gegeven, georganiseerd vanuit het collectief onderzoeksprogramma van de waterbedrijven (BTO). Belangrijk doel is het uitwisselen van praktijkervaring aan de hand van een relevant thema. In de afgelopen bijeenkomst stond de vraag centraal wat de meerwaarde en het gebruik is van externe datasets.

Grootste uitdaging

De bijeenkomst werd gestart met een online enquête, waarin deelnemers hun ervaring met data-integratie konden delen. Hieruit werd duidelijk dat big, integrated data vooral worden geassocieerd met de mogelijke kansen ervan. Volgens de deelnemers ligt de grootste uitdaging bij data-integratie en datakwaliteit, het gebrek aan standaardisatie en het begrijpen van de externe data. Maar ook het überhaupt kunnen vinden van geschikte data, is voor sommigen een probleem.

Data vinden en (laten) gebruiken

In haar prestentatie tijdens de bijeenkomst benadrukte KWR-onderzoeker Tessa Pronk het belang van databeschikbaarheid voor een efficiënte uitvoering van projecten. Pronk: “Data zijn op veel plekken te vinden, zoals publieke repositoria, individuele instituten, overheid en het internet.” Aan de hand van voorbeelden ging zij in op het gebruik van deze data. Een Creative Commons-licentie of gebruikersovereenkomst maakt expliciet onder welke voorwaarden data bruikbaar zijn. Om reproduceerbaar met die externe data te kunnen werken, moet ook worden gelet op de periode en voorwaarden voor de beschikbaarheid ervan. Voor het beschikbaar stellen van eigen data via data-publicatie, kan het gebruiken van een data-standaard zoals bijvoorbeeld de Aquo-standaard de uitwisseling ervan vergemakkelijken.

Open data als verrijking van eigen data

Een mooi voorbeeld van data-integratie in de praktijk werd gegeven door Sjoerd Rijpkema, geohydroloog bij Waterbedrijf Groningen. De onderzoeker legde uit hoe met een Tableau Dashboard de eigen data van metingen aan afvoer en waterpeil zijn te combineren met KNMI-data, zoals neerslag-verdamping, en met gedetailleerde data in de vorm van een weerspluim, neerslag-afvoermodellen en waterpeilmetingen van de waterschappen. Deze data worden opgeslagen in een datawarehouse om vervolgens de waterkwaliteit vast te leggen in de vorm van relaties tussen concentraties, seizoenen, afvoer en neerslag. Voor het vertalen van data in kennis over toekomstige ontwikkelingen, wordt bij Waterbedrijf Groningen machine learning (specifiek: random forest) ingezet. Hiermee dragen externe data bij aan inzichten in variabele waterkwaliteit; een waardevolle ontwikkeling voor de waterbedrijven.

GIS als verbinder

Hoe GEO- en andere beschikbare GIS-data inzetbaar zijn voor de watersector, werd toegelicht door KWR-onderzoeker Herbert ter Maat. Hij gaf veel voorbeelden van zulke bronnen en demonstreerde hoe ze kunnen worden benut. Een greep uit de lijst: ArcGIS, EsriNL, StatLine (CBS), Geotop-modellen, grondwaterstanden, BRO-basisregistratie ondergrond, 3D BAG, KNMI-data (klimatologie, climate explorer), internationale datasets zoals beschikbaar via Copernicus en mogelijkheden om Sentinel-2 te downloaden en te visualiseren. Deelnemers werden met dit overzicht op het spoor gezet van het brede scala aan mogelijke databronnen.

Potentie nog niet volledig benut

Naar goed gebruik eindigde de kennisuitwisselingsbijeenkomst met een discussie. Hierin kwam naar voren dat voor een effectief gebruik van data binnen de organisatie het allereerst van het grootste belang is om de datavolwassenheid van de drinkwaterbedrijven te verbeteren. Hiervoor moeten interne processen worden ingericht naar een meer data-gedreven organisatie. Daarnaast is het noodzakelijk om over de hele linie de datakwaliteit te verbeteren. Om binnen een waterbedrijf de data accuraat te kunnen vinden, zouden bruikbare sets kunnen worden beschreven in een datacatalogus. Ook werd het knelpunt genoemd dat medewerkers vaak verschillende achtergronden en kennisniveaus hebben. Om data-integratie in de praktijk vaker mogelijk te maken, is het belangrijk om inspiratie op te doen met use-cases en ervaringen te delen. Aan dit laatste heeft deze kennisuitwisselingsbijeenkomst in ieder geval goed bijgedragen.

Uitslag van een vraag uit de online enquête tijdens de HI Kennisuitwisseling.

 

Associaties met ‘Big, integrated data’ tijdens de HI kennisuitwisseling.

 

delen