5.8 Model validering
5.8.1 Definitioner og formål
Følgende terminologi fra Refsgaard and Henriksen (2004) benyttes i nærværende Geo-Vejledning:
- Verifikation benyttes om en modelkode, dvs. dokumentation for, at en modelkode løser de givne ligninger med en specificeret nøjagtighed.
- Validering benyttes i relation til en sted-specifik model, dvs. dokumentation for, at en sted-specifik model kan beskrive virkeligheden med en tilfredsstillende nøjagtighed.
Grundvandsmodeller indeholder et meget stort antal parametre, hvorfor det næsten altid vil være muligt at finde en kombination af parameterværdier, som giver en god overensstemmelse mellem modeloutput og feltdata i en kort kalibreringsperiode. Det giver imidlertid ingen garanti for, at modelstrukturen eller de skønnede parameterværdier er passende og vil resultere i pålidelige forudsigelser for andre perioder eller til simulering af andre variable end dem der er kalibreret imod. En model bør derfor aldrig anvendes uden en forudgående modelvalidering, fordi modellens pålidelighed i så fald ikke kendes. Formålet med modelvalidering er at undersøge og dokumentere hvilken nøjagtighed en given model kan forventes at have, når den efterfølgende skal anvendes.
5.8.2 Principper og typer af valideringstest
For at vurdere hvorvidt en kalibreret model kan betragtes som gyldig til efterfølgende brug, skal den valideres ved test mod andre data end dem, der blev brugt til kalibrering. Tilsvarende er det afgørende, at en valideringstest indeholder situationer sammenlignelige med dem, modellen bliver udsat for i den efterfølgende modelanvendelse.
Eftersom modelopgaver er forskellige med hensyn til bl.a. datatilgængelighed og formål for modelanvendelse vil valideringstestene være forskellige. Et godt udgangspunkt for udarbejdelse af konkrete tests for modelvalidering er at benytte principper foreslået af Klemes (1986). Han opstiller nedenstående testtyper svarende til forskellige situationer med hensyn til, hvorvidt der findes data til at foretage en kalibrering, og hvorvidt situationen i modelområdet er stationær. Stationaritet hentyder i denne sammenhæng til, hvorvidt der er tale om menneskeskabte ændringer (oppumpning, ændret arealanvendelse, klimaændring, mv.) i oplandet, og har ikke noget at gøre med om der anvendes en stationær eller dynamisk model.
- Split-sample (SS) test er den klassiske test for dynamiske modeller, hvor den tilgængelige datamængde deles i to tidsperioder, hvorefter der kalibreres på den ene og efterfølgende valideres på den anden. Den kan bruges i situationer, hvor der er tilstrækkelige data til en meningsfuld kalibrering, og hvor situationen i oplandet er stationær.
- Proxy-basin (PB) test. Denne test skal anvendes i stationære situationer, hvis der ikke findes data til kalibrering i det pågældende område. Princippet i denne test er, at der bør foretages test i to lignende områder (fx naboområder), hvor ukalibrerede (blindsimulerede) modelresultater sammenlignes med feltdata. Model performance for de to blindtest kan så betragtes som indikatorer på den nøjagtighed, modellen kan forventes at have i det umålte opland. Det er vigtigt, at proceduren for parameterestimation i de to oplande laves objektiv og gennemskuelig, og at en lignende procedure anvendes i det umålte opland. I den ultimative situation findes der slet ingen kalibreringsdata af fx trykniveauer eller vandføringer i det umålte opland (’basin’). Princippet kan også benyttes til at vurdere hvor god en model er til at simulere vandføringer eller trykniveauer for oplande og boringer, som ikke er benyttet til kalibrering. En sådan intern validering kan laves enten, hvis der findes stationer/boringer med data for valideringsperioden, hvorfra der ikke er data i kalibreringsperioden, eller ved simpelt hen ikke at inddrage alle stationer/boringer i kalibreringen. Eftersom der ikke er behov for en model til at beskrive tilstanden i punkter med målinger, er en models nøjagtighed specielt interessant i punkter, hvor der ikke er kalibreret. Derfor er en blindtest via intern validering vigtig.
Eksempel PB_1 (umålt opland): En hydrologisk model ønskes anvendt til at simulere vandføring for oplande, hvor der ikke er vandføringsdata. Her kan der så opstilles en hydrologisk model for et større område indeholdende såvel flere vandløbsoplande med vandføringsdata som det umålte opland. Modellen kalibreres ved anvendelse af de fleste vandføringsdada på en sådan måde, at der benyttes standardiserede procedurer med fx ens parameterværdier i samme geologiske enheder i hele modelområdet, men data fra to af de målte oplande benyttes ikke i kalibreringen. Herefter sammenlignes modelsimuleringer fra de to oplande med feltdata. Performance for de to oplande kan så benyttes som indikatorer på den nøjagtighed, der kan forventes i det umålte opland. Såfremt testene for de to oplande er indenfor de opstillede nøjagtighedsmål, kan modellen siges at være valideret for umålte områder med den givne nøjagtighed.
Eksempel PB_2 (intern validering): En hydrologisk model ønskes anvendt til at simulere andre punkter indenfor et opland, end de punkter, hvor den er blevet kalibreret. Refsgaard (1997) præsenterede et sådant eksempel for Karup Å. En hydrologisk model blev kalibreret mod vandføringsdata fra stationen dækkende hele oplandet og trykniveaudata fra syv observationsboringer. Herefter blev der foretaget en split-sample test for en anden periode. Endelig blev der simuleret vandføring fra tre deloplande og trykniveauer fra fire andre observationsboringer. Denne interne valideringstest er principielt en proxy-basin test. Resultaterne for de nye punkter, som ikke blev benyttet i kalibreringen, kan betragtes som indikatorer på modellens forventede nøjagtighed ved simulering af vandføringer og trykniveauer på helt nye lokaliteter indenfor oplandet.
Eksempel PB_3 (simulering af andre variable): En hydrologisk model ønskes anvendt til at simulere koncentrationer i grundvandsmagasiner, og der findes vandføringsdata og trykniveaudata, men ikke koncentrationsdata, til at kalibrere modellen imod. Troldborg et al. (1997) præsenterede et sådant eksempel for Eggeslevmagle området på Vestsjælland. Fire forskellige hydrologiske modeller, baseret på fire forskellige geologiske tolkninger, blev kalibreret mod vandføringsmålinger og trykniveauer. Herefter blev koncentrationer simuleret ved hjælp af en particle tracking model og sammenlignet med målte koncentrationer for et stort antal miljøtracere (CFC, tritium, helium). Modellens performance mod koncentrationsdata er principielt en proxy-basin test, som kan give viden om, hvor god modellen kan forventes at være til simulering af koncentrationer i det pågældende område.
- Differential split-sample (DSS) test . Denne test skal anvendes i ikke-stationære situationer, hvor der findes lokale data i et opland til kalibrering, men hvor modellen skal bruges til at forudsige konsekvenser af menneskelige indgreb som fx oppumpninger, ændringer i arealanvendelse eller klimaændringer. Tilsvarende til proxy-basin tests skal der her foretages test på sammenlignelige situationer i to tilsvarende områder.
Eksempel DSS_1 (ændret oppumpning): En hydrologisk model ønskes anvendt til at simulere effekten på vandføringer som et resultat af ændret grundvandsoppumpning på sjællandske kildepladser. Der identificeres tre vandløb, som i dag er påvirket af betydelig vandindvinding, og hvor der eksisterer gode vandføringsdata fra perioder før grundvandsindvindingerne startede. I dette tilfælde kalibreres modellen for den nuværende situation, og der foretages en almindelig split-sample valideringstest mod en anden periode med det nuværende niveau af vandindvinding. Herefter foretages en test af modellens evne til at simulere vandføringen for tre vandløb for perioder før vandindvindingerne startede. Resultaterne af denne differential split-sample test kan betragtes som indikatorer på modellens forventede nøjagtighed ved simulering af vandløbspåvirkninger ved ændring af oppumpning i andre områder af Sjælland.
De to sidste tests (proxy-basin og differential split-sample) er svagere end en split-sample test, fordi der ikke kan benyttes test data fra det opland, hvor modellen skal anvendes til sit egentlige formål. Ved at teste modellen i fx to andre oplande (eller interne valideringspunkter) opnås to indikationer på modellens nøjagtighed. Testene fra to oplande kan resultere i to meget forskellige indikatorer på nøjagtigheden. Såfremt flere end to ekstra oplande (eller interne valideringspunkter) benyttes kan de forskellige test resultater benyttes til at vurdere et sandsynligt interval inden for hvilket modellens nøjagtighed kan forventes at være.
Det er vigtigt at indskærpe, at principperne i de tre typer test skal tilpasses modelleringsformål og datatilgængelighed i de enkelte opgaver. De konkrete tests vil således variere fra opgave til opgave. Ofte vil det være muligt at kombinere flere tests i en samme modelkørsler.
Eksempel SS_PB_DSS_PB-DSS (intern validering i situation med ændret oppumpning): En hydrologisk model ønskes anvendt til at simulere effekten på trykniveauer som følge af ændret grundvandsoppumpning. Der findes data fra perioden 1990-2015, heriblandt vandføringsdata og trykniveaupejlinger fra et antal boringer med tidsserier. Oppumpningerne i området er ændret signifikant gennem perioden 2005 – 2009. I dette tilfælde kalibreres mod data fra 1992 – 1999 (1990-1991 benyttes som opvarmningsperiode) og der foretages valideringstest for to perioder 2000 – 2004 og 2010 – 2015. Ved at trække nøjagtighedskriterier ud for forskellige typer af boringer er det nu muligt at lave fire forskellige tests:
- Split-sample (SS) test: Resultater for perioden 2000-2004 for boringer, som indgår i kalibreringen.
- Proxy-basin (PB) test: Resultater for perioden 2000-2004 for boringer, som ikke indgår i kalibreringen. Det kan fx være ny boringer der ikke fandtes eller ikke blev pejlede i kalibreringsperioden.
- Differential split-sample (DSS) test: Resultater for perioden 2010-2015 for boringer som indgår i kalibreringen.
- Proxy-basin, differential split-sample (PB-DSS) test: Resultater for perioden 2010-2015 for boringer, som ikke indgår i kalibreringen.
5.8.3 Test for simulering af indvindings- og grundvandsdannende oplande
Når en hydrologisk model skal benyttes til at bestemme indvindings- og grundvandsdannende oplande er de traditionelle valideringstest rettet mod simulering af trykniveauer og vandføringer ikke tilstrækkelige. En god simulering af vandbalancen (årlig vandløbsafstrømning) er en indikator på, at den simulerede grundvandsdannelse og dermed størrelser af de grundvandsdannende oplande formentlig er nogenlunde korrekt, men det giver ingen indikation på, om oplandene er korrekt placeret. Placering og afgrænsning af indvindings- og grundvandsdannende oplande er bestemt af grundvandstrykniveauer. Men i og med at oplande bestemmes af retninger på trykniveaugradienter, er det mest anvendte nøjagtighedskriterium (kvadratroden af summen af de kvadrerede afvigelser mellem observerede og simulerede trykniveauer, RMS – Kriterium 3 Tabel 8) ikke i sig selv en tilstrækkelig indikator på, hvorvidt en model er god til at simulere et opland.
Der kan derfor være god grund til benytte mere målrettede tests. Afhængigt at det tilgængelige datamateriale kan sådanne test fx inkludere:
- Test om modellen kan simulere potentialkort fra forskellige magasiner, og om muligt fra forskellige årstider. Her skal der fokuseres på strømningsretninger, beliggenhed af grundvandsskel og retninger af gradienter over dybden.
- Test om modellen kan simulere årstidsvariationer i pejledata. Det vil fortælle noget om den årstidsafhængige dynamik beskrives godt af modellen.
- Test om modellen kan simulere pejledata og vandføringer fra stationer/boringer, der ikke er medtaget i kalibreringen, jfr. ovenstående eksempel med PB-test.
5.8.4 Brug af bløde data i valideringstest
Udover de sædvanlige datatyper vandføringer og trykniveauer, som anvendes til modelkaibrering, er det muligt at benytte andre datatyper som fx CFC aldre og vandkemi til validering. Sådanne data kan her betragtes som bløde [1], fordi modellen typisk ikke simulerer sådanne variable og en direkte sammenligning derfor ikke umiddelbart er mulig. Ved at sammenholde de bløde data med aldre fra partikelbaneberegninger samt med data om vandtyper er det muligt at lave et ”konsistenstjek” af modellen. Herved vurderes om alle de bløde data kan betragtes som værende konsistente med modellen.
5.8.5 Specielle forhold ved stationære grundvandsmodeller
En stationær model kan vanskeligt testes ved en split-sample test, fordi den ikke simulerer dynamiske forhold. Den kan dog simulere forskelle i gennemsnitsforhold mellem to perioder og et valg af to forskellige perioder til kalibrering og validering med hver deres gennemsnitsdata for grundvandsdannelse og vandføringer/trykniveauer være en split-sample test, selvom det er markant svagere end en tilsvarende test for en dynamisk model. Endvidere kan vandbalance og grundvandsdannelse ikke umiddelbart testes ved hjælp af vandføringsdata. Derfor er det væsentligt at gennemføre både grundige proxy-basin test for trykniveauer og test til vurdering af modellens vandbalance. Elementer i sådanne test kunne være:
- Proxy-basin test på trykniveauer . De eksisterende trykniveauobservationer opdeles i to halvdele, hvoraf den ene del anvendes til kalibrering sammen med vandføringsdataene. Herefter foretages modelvalidering mod den anden halvdel af trykniveaudataene. Hvis data skal udnyttes optimalt gennemføres det som en jackknifing test, hvor der kalibreres mod alle boringer bortset fra én der benyttes til validering, hvilket gentages indtil alle boringer har været anvendt til validering.
- Test på strømningsretning . Ved en sammenligning af det observerede potentialekort (hvis gode data ikke findes skal der laves en synkronpejling) med modelsimuleringer testes om strømningsretninger og grundvandsskel er sammenfaldende.
- Vandbalance . Den stationære models vandbalance, herunder simulering af vandføring og grundvandsdannelse sammenlignes med resultater fra en dynamisk model der er valideret mod vandføringsdata,
- Strømningsforhold . Der gennemføres test af grundvandsalder mod dateringer fra CFC og andre miljøtracere. Såfremt der ikke findes tilstrækkelige miljøtracerdata, skal nye data indsamles Endvidere vurderes om eksisterende vandkemidata er konsistente med modellen.
Disse tests kan tilsammen give indikationer på modellens evne til at simulere indvindingsoplande.
5.8.6 Anbefalinger
- I modelleringsopgaven skal der eksplicit lægges vægt på gennemførelse af valideringstest baseret på ovenstående principper. Det kræver følgende arbejdsdeling mellem de forskellige aktører:
- Vandressourceforvalteren, evt. med input fra interessenterne i den konkrete opgave, beskriver i udbudsbetingelserne et krav om at Modelløren skal opstille passende valideringstest målrettet mod den ønskede modelanvendelse, som også skal være specificeret i udbudsmaterialet (Tabel 1, opgaverne 1.4 og 1.5)
- Modelløren beskriver konkret hvordan valideringstestene planlægges gennemført. Det sker i første omgang i tilbuddet (Tabel 1, opgave 1.6) og senere mere detaljeret (Tabel 3, opgave 3.3).
- Vandressourceforvalteren - med støtte fra Revieweren og efter konsultation med involverede slutbrugere - vurderer og godkender de foreslåede valideringstest (Tabel 3, opgave 3.5).
- Modelløren gennemfører valideringstestene og beskriver modellens dokumenterede anvendelsesområde (Tabel 4, opgaverne 4.8 og 4.11).
- Resultaterne af valideringstestene vurderes og godkendes efterfølgende af Vandressourceforvalteren med støtte fra Revieweren (Tabel 4, opgave 4.13).
- Den hydrologiske model bør i videst mulig omfang udsættes for et ”konsistenstjek” ved anvendelse af bløde data. Resultatet herfra skal kommunikeres i form af konklusioner om graden af modellens troværdighed.
- Til grundvandskortlægningsopgaver bør der gennemføres følgende tests:
- Proxy-basin test af modellens test til at simulere i punkter, hvor der ikke er kalibreret. Det kan fx gennemføres via ”intern validering”
- Split-sample test (for dynamiske modeller).
- Differential split-sample test, hvis modellen skal anvendes til at vurdere ændringer I oppumpning eller arealanvendelse.
- Test mod bløde data i form af bl.a. CFC aldre, vandkemi og potentialkort. Dette er specielt vigtigt for stationære grundvandsmodeller, fordi det her ikke er muligt at teste vandbalanceforhold. Såfremt tilstrækkelige bløde data ikke findes bør der ved anvendelse af stationære modeller gennemføres ekstra dataindsamling.
5.8.7 Referencer
Klemes V (1986) Operational testing of hydrological simulation models. Hydrological Sciences Journal, 31, 13-24.
Refsgaard JC (1997) Parametrisation, calibration and validation of distributed hydrological models. Journal of Hydrology, 198, 69-97.
Refsgaard JC, Henriksen HJ (2004) Modelling guidelines – terminology and guiding principles. Advances in Water Resources, 27(1), 71-82.
Troldborg L, Refsgaard JC, Jensen KH, Engesgaard P (2007) The importance of alternative conceptual models for simulation of concentrations in multi-aquifer system. Hydrogeology Journal, 15, 843-860.
5.8.8 Baggrundsliteratur
Refsgaard JC, Madsen H, Andreassian V, Arnbjerg-Nielsen K, Davidson TA, Drews M, Hamilton DP, Jeppesen E, Kjellström E, Olesen JE, Sonnenborg TO, Trolle D, Willems P, Christensen JH (2014) A framework for testing the ability of models to project climate change and its impacts. Climatic Change, 122(1), 271-282.
Doherty, J.E., Hunt, R.J., and Tonkin, M.J., 2010, Approaches to highly parameterized inversion: A guide to using PEST for model-parameter and predictive-uncertainty analysis: U.S. Geological Survey Scientific Investigations Report 2010–5211, 71 p.
Matott, L. S., J. E. Babendreier, and S. T. Purucker (2009), Evaluating uncertainty in integrated environmental models: A review of concepts and tools, Water Resour. Res., 45, W06421, doi:10.1029/2008WR007301.
Refsgaard JC, van der Sluijs, Højberg AL, Vanrolleghem PA (2007) Uncertainty in the environmental modelling process – A framework and guidance. Environmental Modelling & Software, 22, 1543-1556.
[1] Begrebet bløde data er inspireret af litteraturen hvor begrebet hedder ”soft data”. Her tales der fx om at en model kan sammenlignes mod hårde data eller bløde data, hvor de bløde er dem hvor der ikke kan forventes en 1:1 sammmenligning, men som alligevel har et væsentligt informationsinddhold og derfor skal man ikke tvinge modellen til at ramme dem fuldstændig, men snarere benytte dem i en kvalitativ/subjektiv vurdering af om modellen leverere resultater som er konsistente med (plausible) de bløde data.
Skriv et svar