Nieuws

Is data alles?

Kennisuitwisselingsbijeenkomst Hydroinformatica

Binnen de Hydroinformatica (HI) gaat het al heel snel enkel over data. Dit is dan ook de motor achter datagedreven modellen die we in dit vakgebied veel gebruiken. Maar, denken we wel genoeg aan fysische- en mathematische modellen waarin modelsystemen van oudsher met meer kennis van processen worden opgebouwd? Beide typen modellen hebben hun eigen voordelen en valkuilen. Daardoor kunnen zij elkaar aanvullen en combinaties zijn mogelijk van meerwaarde. In de afgelopen bijeenkomst van het platform Hydroinformatica op 2 mei 2023 wisselden deelnemers kennis uit over de voor- en nadelen van toepassingen van zowel gevestigde, nieuwe als hybride modelleertechnieken zoals ‘physically informed artificial intelligence’.

De kennisuitwisselingsbijeenkomsten Hydroinformatica worden georganiseerd vanuit het gezamenlijke bedrijfstakonderzoek (BTO) van de waterbedrijven. Een belangrijk doel hiervan is het uitwisselen van praktijkervaring aan de hand van een relevant thema. In de afgelopen bijeenkomst stond de vraag centraal wat de meerwaarde is van fysische, mathematische en datagedreven modellen.

Grip op de wereld met verschillende modellen

Modellen geven ons grip op de wereld. Peter van Thienen (KWR) zette om te beginnen de begrippen uiteen. Van oudsher worden systemen gemodelleerd in mathematische-fysische procesvergelijkingen. Deze zijn navolgbaar en resultaten zijn extrapoleerbaar naar situaties die zich niet eerder hebben voorgedaan. De recent ontwikkelde typen van datagedreven modellen hebben een kleine revolutie ontketend. Dit zijn krachtige statistische modellen om complexe situaties te beschrijven. Er is geen procesinformatie nodig, maar de beschrijving is alleen geldig voor het databereik dat ten grondslag ligt aan het model. Wanneer welk type model gebruikt kan worden ligt onder andere aan de mate van databeschikbaarheid, en begrip van het systeem.

Wanneer kan een fysisch model gebruikt worden, wanneer een datagedreven model? https://jpt.spe.org/twa/a-tale-of-two-approaches-physics-based-vs-data-driven-models

Wanneer kan een fysisch model gebruikt worden, wanneer een datagedreven model? Bron: https://jpt.spe.org/twa/a-tale-of-two-approaches-physics-based-vs-data-driven-models

Het beste van twee modelvormen met hybriden

Datagestuurde modellen kunnen op verschillende manieren worden gecombineerd met domeinkennis. Een manier is door de natuurkundige wetten direct te coderen, zoals gebeurt met fysica-geïnformeerde AI. Andere manieren zijn door gebruik te maken van de gegevensstructuur of door het nabootsen van de werking van gevestigde wiskundige algoritmen. Dr. Riccardo Taormina (TU Delft) doet onderzoek met zogenoemde ‘fysisch geïnformeerde’, ‘hybride’ of ‘domein geïnformeerde’ AI-modellen voor de watersector. De combinatie biedt verschillende voordelen.

  • Data-efficiëntie en -nauwkeurigheid: er zijn minder gegevens nodig om modellen met betere prestaties te trainen.
  • Generalisatie: het is mogelijk om van louter interpolatie naar extrapolatie te gaan.
  • Robuustheid: modellen met domeinkennis worden minder beïnvloed door ruis in de gegevens.
  • Het resulteert in modellen die gemakkelijker te interpreteren/uit te leggen zijn door een ex-ante benadering te volgen.

Domein geïnformeerde AI kan onder andere worden toegepast voor het versnellen van EPANET-simulaties. Dit is een softwaretoepassing die overal ter wereld wordt gebruikt voor het modelleren van waterdistributiesystemen. Het lab van dr. Taormina (AIdroLab) ontwikkelt momenteel surrogaatmodellen voor EPANET op basis van grafisch neurale netwerken en diepe ontrolde neurale netwerken. Deze technieken worden respectievelijk gebruikt om de grafiekgegevens van EPANET-simulaties naadloos te verwerken (waternetwerken zijn immers grafieken) en om de werking van het globale gradiëntalgoritme in de kern van EPANET na te bootsen. Op de vraag welke toepassing nuttiger is, het ondersteunen van datagestuurde modellen met fysische modellen of omgekeerd, is het antwoord dat het beide kanten op werkt en dat het veld zich snel ontwikkelt.

AI in de praktijk

Alex van der Helm van Waternet lichtte toe hoe datagedreven modellen met ‘reinforcement learning’ worden ingezet om de emissie van lachgas (N2O) te verminderen op één van de zeven beluchtingstanks van de rioolwaterzuiveringsinstallatie (rwzi) Amsterdam West van Waterschap Amstel, Gooi en Vecht. Sinds 2016 wordt met sensoren real-time lachgas gemeten in het afgas van twee beluchtingstanks van de zuivering. Dit is internationaal een unieke dataset. Met de data is een datagedreven digital twin gebouwd waarop een datagedreven ‘control agent’ is getraind. De control agent bepaalt het optimale setpoint op basis van de omstandigheden, waarbij hij rekening houdt met lachgasemissie, het energieverbruik en de eisen aan de effluent kwaliteit. De control agent is geïmplementeerd op één van de zeven zuiveringsstraten. [m3] [PT4] Als gevolg hiervan ligt de N2O-uitstoot aanzienlijk lager dan in de vergelijkingsstraat. Een veelbelovend resultaat, dat waarschijnlijk een betekenisvolle verlaging van de klimaatvoetafdruk van rwzi Amsterdam West betekent.

Datagedreven modellen kunnen fysische modellen aanvullen door (onbekende) missende processen te identificeren en te modelleren. https://jpt.spe.org/twa/a-tale-of-two-approaches-physics-based-vs-data-driven-models

Datagedreven modellen kunnen fysische modellen aanvullen door (onbekende) missende processen te identificeren en te modelleren. Bron: https://jpt.spe.org/twa/a-tale-of-two-approaches-physics-based-vs-data-driven-models

Hoge verwachtingen

Naar goed gebruik eindigde de kennisuitwisselingsbijeenkomst met een discussie. De voor- en nadelen van beide typen modellen werden eerst in aparte groepen besproken en daarna met alle deelnemers. Naast het onderschrijven van het blijvende nut van fysisch-mathematische modellen werd voor de toekomst veel verwacht van (domein geïnformeerde) datagedreven modellen omdat deze als systeemtechnologie het werkveld gaan veranderen. Zo maakt AI in de toekomst misschien wel zelf het meest relevante model op basis van data en bouwt het zelf optimalisatie-agenten. De applicatie ‘ChatGPT’ is een voorbeeld van zo’n systeem dat zelf met oplossingen komt. Toch zijn er restricties. Er moet genoeg data zijn, van goede kwaliteit en representatief voor het systeem. Daarnaast kan dataverzameling hoge kosten met zich meebrengen die bij fysische modellen nagenoeg ontbreken. Ook gedragen datagedreven modellen zich als een ‘black box’: het is lastig te achterhalen waar beslissingen precies op gebaseerd zijn. Om deze bezwaren deels weg te nemen is de combinatie van datagedreven en fysisch-mathematische modellen erg nuttig. De ontwikkelingen op dit gebied verdienen het om nauwlettend in de gaten te gehouden.

delen