project

Datamining voor assetmanagement – inventarisatie en voorbeelden uit de watersector

Datamining (het zoeken naar statistische verbanden in databases) is een stap in “Knowledge Discovery in Databases (KDD)”. Beiden worden reeds omarmd in de marketing, medische zorg, ICT en financiële sector, maar de implementatie in de drinkwatersector is vooralsnog beperkt. Dit, terwijl het potentieel nieuwe mogelijkheden biedt waarmee de drinkwatersector zijn assetmanagement kan verbeteren. Waterbedrijven willen daarom meer inzicht in de meerwaarde die datagedreven analysemethodieken voor hen kunnen opleveren en zoeken een kennisbasis die hen houvast kan geven bij beslissingen over het wel of niet inzetten van KDD in assetmanagement.

Met een brede inventarisatie van assetmanagement-kennisvragen, een literatuurstudie naar datamining en de eerste praktijkervaringen uit twee TKI-projecten is voor waterbedrijven in dit project een eerste, voorzichtige stap gezet richting een datagedreven bedrijfsvoering.

Vraag, aanbod en eerste praktijkervaringen van datamining verzamelen

Er is in eerste instantie een literatuurstudie uitgevoerd naar de voornaamste kenmerken, mogelijkheden en beperkingen van datamining. Daarnaast is de ‘kennisbehoefte’ in overleg met assetmanagers bij waterbedrijven in kaart gebracht. Tijdens een workshop bij KWR zijn de kennisvragen verder geprioriteerd op basis van urgentie en belang. Zo zijn zowel vraag als aanbod rondom datamining geïnventariseerd. Die inventarisatie is gebruikt om inzicht te krijgen in de meest kansrijke toepassingsgebieden voor datamining ten behoeve van waterinfrastructuur assetmanagement. Daarnaast hebben resultaten vanuit twee TKI-projecten in dit werk model gestaan voor de inzet van datamining/KDD bij assetmanagementvraagstukken.

Datamining vraagt gestroomlijnd datamanagement

Voornaamste lessen uit reeds uitgevoerde datamining projecten zijn (1) het belang van feature engineering (een bestaande dataset verrijken met afgeleide parameters uit bijvoorbeeld modelsimulaties of berekeningen), (2) samenwerking met vakspecialisten op het gebied van waterinfrastructuur en operationele processen en ten slotte (3) de beperkte hoeveelheid beschikbare data.

Van ‘big data’ is nog geen sprake bij de waterbedrijven. Toch lijkt er door een gestage toename aan sensoren in het leidingnet, slimme meters, groter wordende databases met meetgegevens en storingsregistraties meer en meer mogelijkheden te komen om middels datamining relevante vraagstukken voor de drinkwatersector te beantwoorden.

Waterbedrijven kunnen de verzamelde kennis inzetten bij beslissingen over het wel of niet inzetten van datamining en datagedreven analysetechnieken om hun operationeel assetmanagement te verbeteren. Met de huidige beperkingen aan de (kwaliteit en kwantiteit van) beschikbare data is voorzichtigheid geboden ten aanzien van datamining-ambities. Data-opschoonacties en data-kwaliteitscontroles binnen de bedrijven kunnen de beperkingen verkleinen.

Spearman correlatiematrix die de correlatiecoëfficiënten voor een aantal data-attributen van cementhoudende leidingen (mat_CH) met storingen van deze leidingen laat zien: storingsfrequentie (per lengte en per jaar, freq), aantal storingen (nstor), lengte van leiding (length), aanlegjaar (onderverdeeld naar periode 1800-1960, 1960-1980, 1980-2015), diameter leiding (0 – 80, 80 – 150 en 150 – 600 cm), gemiddelde volumestroom* (flow_mean), maximale druk*, verschil van maximum- en minimumdruk op een dag (dP), gemiddelde druk (druk_mean), ernst van gedetecteerde anomalieën voor volumestroom of druk ({flow/druk}_surprisescore), duur van anomalie in volumestroom of druk ({flow/druk}_Duration), aantal gedetecteerde anomalieën voor volumestroom of druk ({flow/druk}_nevents). Diep rood betekent een grote positieve correlatie, diep blauw een grote negatieve correlatie. *De getallen voor volumestroom en druk zijn berekend uit operationele data in de periode van 2 dagen vóór tot en met de dag van storing.

Onderlinge Spearman correlaties tussen alle in deze studie bekende en berekende eigenschappen van cementhoudende leidingen in het voorzieningsgebied van Brabant Water. Diep rood betekent een sterk positieve correlatie, en diep blauw een sterk negatieve correlatie. Storingsfrequentie (freq) blijkt duidelijk te correleren met de ernst van gedetecteerde anomalieën in de volumestroom (flow_SurpriseScore).