project

Deep Explorations: verkennend onderzoek naar deep learning-toepassingen in de watersector

Dit project betreft een aanvankelijke studie voor het beoordelen van de betekenis van ‘deep learning’ (DL) voor KWR en de watersector in het algemeen. De verschillende soorten deep learning, en hun sterke en zwakke punten, zijn onderzocht en beschouwd. De techniek is toegepast op twee case studies: (1) data mining in klachten van klanten die ontvangen zijn door drinkwaterbedrijven, en (2) data mining in infrarood spectrogrammen voor de analyse van microplastics en de classificatie van polymeren, wat later kan worden uitgebreid tot andere gebieden zoals chromatografie, UV-absorptie en patroonherkenning in data sets.

Wat is deep learning?

Deep Learning (DL) omvat een groep algoritmes voor machine learning (ML) op basis van kunstmatige neurale netwerken die complexere relaties tussen gegevensinvoer en -uitvoer kunnen afleiden dan andere ML-technieken. Het blijkt dat DL hierdoor bijzonder effectief is bij toepassingen zoals het verwerken van beeld en spraak. Bij deze toepassingen werken DL-technieken beter dan de gebruikelijke artificial neural networks (ANN) op basis van een beperkt aantal verborgen lagen, of andere algoritmes zoals Random Forest en Support Vector Machine (SVM).

Wat is de waarde van deep learning voor de watersector?

In dit project onderzochten we het potentiële nut en de waarde van DL voor de watersector. Dit stemt overeen met de trend bij KWR, en de watersector in het algemeen, waar steeds meer ML wordt toegepast voor het beantwoorden van (onderzoeks)vragen. Om de techniek te onderzoeken maakten we een overzicht van de verschillende soorten DL, en hun sterke en zwakke punten. Dit maakt het mogelijk onderwerpen en vragen te identificeren waar DL waarschijnlijk van betekenis kan zijn. Verder zijn er twee cases gekozen op basis van de eigenschappen DL, namelijk de effectiviteit bij complexe relaties tussen de invoer en uitvoer, en/of als er grote hoeveelheden data beschikbaar zin.

Deze cases betreffen:

  • De analyse van tekstdata (communicatie tussen klanten en waterbedrijven) en het automatisch bepalen van het onderwerp van de berichten. Deze onderwerpen kunnen gekoppeld worden met data over leidingbreuk en netwerkonderhoud, indien beschikbaar. Dit maakt de vroegtijdige vaststelling mogelijk van diverse problemen en verminderde prestaties van het distributienetwerk voor water. Tegelijkertijd kan het de contacten met klanten verbeteren.
  • De analyse van infrarood spectrografie data met betrekking tot de identificatie van microplastics. De uitvoer van deze use case omvat meerdere deep learning en ensemble learning (waarbij de resultaten van meerdere modellen worden gecombineerd) modellen voor de nauwkeurige classificatie van de polymeren van microplastics die in het milieu worden aangetroffen, en de kennis en vaardigheden voor het afleiden van deze modellen. Dit zal het mogelijk maken geavanceerde algoritmes voor data analyse en classificatie toe te passen op complexe chemische data. Dit onderzoek zal een aanzienlijke impact hebben omdat de opgebouwde ervaring relevant is voor vele onderzoeksgebieden binnen KWR (b.v. andere chemische analyses, voorspelling van de toxiciteit van chemicaliën en de mate van de verwijdering daarvan op basis van Quantitative Structure Activity Relationship (QSAR) modellen.

Op basis van deze twee cases hebben we de betekenis van deep learning en ensemble learning aangetoond bij het automatiseren van meerdere activiteiten die momenteel met de hand worden uitgevoerd. We hebben laten zien dat het verwerken van natuurlijke taal op basis van deep learning effectief is bij het automatiseren van het verwerken van teksten. Bij toepassing op een case study betreffende klantenklachten over problemen in verband met water, verzameld door een Nederlands waterbedrijf, konden de gebruikte algoritmes de emoties en vragen van klanten bepalen op basis van een beschrijving van de klacht in de vorm van tekst. Tevens hebben we aangetoond dat de combinatie van Laser Direct Infrared spectroscopie en ensemble machine learning het mogelijk maakt polymeren in watermonsters te identificeren. In dit geval werd een beperkt aantal bekende monsters van microplastics gebruikt voor het identificeren van andere monsters waarvan de soort aanvankelijk onbekend was. Deze bevindingen geven aan dat technieken ondersteund door kunstmatige intelligentie in het algemeen goede ondersteuning kunnen geven aan analytische chemie en wateronderzoek en deze kunnen verbeteren. Dit is relevant voor onderzoekers die polymeren willen classificeren op basis van classificatiemodellen, of hun biochemisch gedrag willen voorspellen op basis van regressiemodellen.

Een bijdrage aan de gereedschapskist van onderzoekers?

De ervaring op basis van deze twee use cases heeft ons ook inzicht gegeven in de mogelijke toepassing van DL bij het onderzoek van KWR en de watersector. Men kan nu bepalen wanneer het een geschikt instrument is voor toepassing op verschillende vragen in de watersector. Gezien de aard van de techniek bestrijken deze potentiële toepassingen meerdere disciplines. Wij willen deze techniek beter beschikbaar maken binnen de organisatie. Het kan een belangrijk instrument worden voor KWR onderzoekers – een bijdrage aan de gereedschapskist van onderzoekers – voor een betere dienstverlening aan onze klanten – de watersector.