5.5 Valg af kalibrerings- og valideringskriterier og mål for nøjagtighed
Et nøjagtighedskriterium er et numerisk mål for overensstemmelsen mellem en modelsimulering og observerede feltdata og benyttes som mål i kalibrerings og valideringsprocedurer. Et nøjagtighedskriterium består af to delelementer (Sonnenborg og Henriksen, 2005):
- Valg af kvalitative og kvantitative kriterier
- Numeriske mål for nøjagtigheden (fx talværdi for størrelsen af RMS, NSE, Fbal mv.)
Kriterier og mål vil variere fra opgave til opgave bl.a. afhængig af model, krav til nøjagtighed, områdets karakteristika (fx trykniveauvariation indenfor området, heterogenitetsforhold, maskevidde, variationer i afstrømning, osv.). Vejledningen kan give en ramme med ”bløde vejledninger”, men det afgørende er, at aktørerne konkret tager stilling til, hvad der skal benyttes i den konkrete opgave (Refsgaard og Henriksen, 2004; Black et al., 2011; Anderson et al., 2015).
5.5.1 Valg af kvalitative og kvantitative kriterier (objektivfunktion)
Kvalitativt bør det gælde at (a) de estimerede parametre har realistiske værdier; (b) residualer er rimeligt jævnt fordelt i tid og sted; og (c) områdets hydrologiske karakteristika reproduceres af modellen (fx strømningsretning, gradient, beliggenheden af grundvandsskel, hydrograf- og vandstandsdynamik, forureningspåvirkning).
Udover de kvalitative kriterier opstilles udvalgte kvantitative kriterier, der beregnes statistisk ud fra simulerings- og observationsdata. I Tabel 8 er vist eksempler på kvantitative nøjagtighedskriterier til brug for kalibrering og validering. Der er ikke tale om en fuldstændig liste, og de foreslåede kriterier kan evt. suppleres med andre. Tabel 9 giver vejledning i valg af kvantitative kriterier tilpasset formålet med opgaven
Kriterium 1 - Middelfejlen (ME). Her beskrives den generelle bias (ME) i forhold til samtlige trykniveauobservations. Selv om ME samlet set er lille, kan det dække over store positive og negative afvigelser, der opvejer hinanden. En lille værdi af ME indikerer dog om modellen ’overordnet set’ ”rammer trykniveauet” for modellen som helhed (for alle observationer, eller for observationer i hvert modellag). En variant af middelfejlen er den såkaldte MAE (middel absolut error) hvor den absolutte værdi af residualer benyttes. Herved sikrer man, at fx betydelige positive og negative residualer ikke ”ophæver hinanden”. I tilfælde hvor observationer konsekvent simuleres for højt i et område og for lavt i et andet område, kan ME være tæt på nul. MAE vil afsløre fejl af denne type og kan derfor være et vigtigt supplement til ME i vurderingen af den gennemsnitlige fejl.
Kriterium 2 – RMS. RMS, som beregnes ud fra kvadratroden på gennemsnittet af de kvadrerede residualværdier på trykniveau, er det hyppigst anvendte kriterie. Hvis middelfejlen ME = 0 vil RMS være lig standardafvigelsen på residualerne, mens den vil være større end standardafvigelsen i tilfælde hvor ME er forskellig fra nul. RMS vil altid være større end MAE, fordi store residualer (inklusive ’outliers’) får relativ stor vægt på grund af kvaderingen af residualer.
Kriterium 3 – SE. SE er et direkte mål for modellens evne til at reproducere de observerede data, med en vægtning af observationer (varierende usikkerhed på obs).
Tabel 8: Kvantitative nøjagtighedskriterier
Kriterium 4 – RMS. Svarer til kriterium 2 blot med vurdering i forhold til trykniveauvariationer for observationsdata i modelområdet ( Δhmax) i nævneren, i stedet for Sobs.
Kriterium 5 – NSE. Det såkaldte Nash-Sutcliffe kriterie (NSE), som ofte benævnes model effektivitet, er det mest anvendte kriterie til dynamiske tidsserier som fx vandføringer. I Figur 5 vist et eksempel på de fire oplandstyper, der benyttes ved fastlæggelse af NSE krav jf. variationen i vandføring over året (Qvar). NSE udtrykker hvor stor en del af den totale variation i observationsdata der bliver forklaret af modellen (NSE kan maksimalt blive 1). NSE kriteriet er meget afhængig af afvigelser på de store afstrømninger samt evt. vandbalancefejl. Der findes i litteraturen (Rushpalatha et al., 2012) en række varianter bl.a. log transformeret og invers transformeret flow mm. versioner af NSE, som vægter baseflow højest, som fremadrettet bør overvejes i stedet for/som supplement krav til NSE, Fbal og Fbal-S. NSE på invers flow (NSEiQ) vurderes som det bedst anvendelige kriterium i forhold til baseflow og dermed grundvandsafstrømning til vandløb, fordi dette kriterium i modsætning til NSE og log-transformeret NSE ikke er følsomt overfor store afstrømninger. Der vil altid, selv med kvantitative nøjagtighedskriterier, være et væsentligt element af subjektiv vurdering, når man skal tolke opnåede resultater på nøjagtighed (ME, RMSE, NSE, Fbal osv.) i forhold til nøjagtighedskriterier (Anderson et al., 2015; Fienen, 2013).
Figur 5: Klassificering i oplandstyper (Qvar) i forbindelse med Kriterium 5 (NSE).
Kriterium 6 - Fbal. Fbal er et mål for afvigelsen mellem observeret og simuleret vandføring for en simuleringsperiode. Opgjort på årsværdier skelnes der mellem fire grupper af årlige middelvandføringer (Qmid): a) meget små Qmid (< 100 l/s eller 3 mio. m3 pr. år), b) små Qmid (100 - 500 l/s eller 3 – 15 mio. m3 pr. år), c) mellem store Qmid (500 - 2000 l/s eller 15 - 60 mio. m 3 pr. år) og d) store (> 2000 l/s eller 60 mio. m3 pr. år).
Kriterium 7 - Fbal-S. Ved sommerværdier af vandbalancen skelnes der mellem fire grupper (Qmin ~ middel sommervandføring jun-jul-aug): a) meget små Qmin (< 10 l/s eller 0.3 mio. m3 pr. år), b) små Q min (10 - 50 l/s eller 0.3 -1.5 mio. m3 pr. år), c) mellemstore Qmin (50-200 l/s eller 1.5- 6 mio. m3 pr. år) og d) store Qmin (> 200 l/s eller 6 mio. m3 pr. år).
Tabel 9: Valg af kvantitative nøjagtighedskriterier afhængigt af modelformål (parentes: kan evt. inddrages)
5.5.2 Numeriske mål for nøjagtigheden
Baseret på erfaringer fra hidtidige modelstudier i Danmark er der i Tabel 10 angivet forslag til numeriske mål for seks af nøjagtighedskriterierne i. Forslagene er angivet som kravværdier til b1 - b6 for tre forskellige ambitionsniveauer. Generelt er det vigtigt at fremhæve, at både valget af kriterier og valget af de numeriske mål ikke bør ske ved automatiske opslag i de tre tabeller i nærværende afsnit, men bør vurderes konkret i forhold til den aktuelle modelleringsopgave. Der foreligger efterhånden et godt grundlag for vurdering af de forskellige hjælpestørrelser og beta værdier, specielt for lidt større oplande fx fra DK model (NSE, Fbal og Fbal-S) og kortlægningsmodeller (NSE og Fbal).
5.5.3 Dynamiske modeller
De opstillede kvantitative nøjagtighedskriterier (Tabel 8) kan umiddelbart anvendes for dynamiske (transiente) modeller med den diskretisering der er valgt, fx på basis af daglige værdier for afstrømning for NSE, SE, Fbal og Fbal-S og tidsserier med trykniveau observationer ved beregning af ME og RMS. Hvis der benyttes fx uge- eller månedsværdier i en transient model, beregnes indikatorer på det grundlag. De opstillede numeriske mål for nøjagtighed nedenfor i Tabel 10 gælder for daglige vandføringer og tidsserier for trykniveau når der anvendes dynamiske modeller.
5.5.4 Stationære grundvandsmodeller
Når der anvendes stationære grundvandsmodeller vil der være et ekstra bidrag til usikkerheden, der skyldes at man ikke kan tage høj for sæsonvariation i trykniveau i sammenligningen af simuleret og observeret trykniveau (den usikkerhed vil indgå i vurderingen af Sobs og dermed nøjagtighedskriterie 2 for RMS/Sobs). For stationære grundvandsmodeller er det ikke muligt at vurdere Fbal-S, med mindre man laver en dynamisk valideringstest, og stationære grundvandsmodellers performance i forhold til simulering af grundvandsdannelse kan dermed ikke vurderes kvantitativt. I stedet kan man evt. vælge en kvalitativ nøjagtighedsvurdering, som evt. kan indbefatte en sammenligning af grundvandsudstrømning til vandløb, sammenligning af simuleret afstrømning med fx median min Q og/eller middelafstrømningen i vandløb, samt en eller anden form for tracer test (eller aldersdatering), fx baseret på partikelbanesimulering eller en anden type kvalitativ nøjagtighedsvurdering.
Eksempler på kvalitative nøjagtighedskrav anvendt til stationære modeller:
- Aldersdatering i tre boringer, gradient/vandkemi/kalk og gammelt potentialebillede fra 1934, samt tættere net af pejledata fra Gammel Rye (Aarhus Vest, 17/12-2013).
- Validering mod grundvandsalder og sammenligning af parametre med Staby-Vildbjerg og Herning-Ikast (Kibæk, 1/3 2013).
- Semi kvantitativ metodik (magasinspecifikke residualer) plottet mod observeret trykniveau (Lindved, november 2011).
- Valideret i forhold til resultater af prøvepumpningsforsøg (T-værdier i 4 boringer foretaget efter at kalibreringen er afsluttet i i alt 16 filtre) (Padborg-Gråsten, april 2015).
5.5.5 Små vandløbsoplande (5-30 km2)
Der er endnu kun i meget begrænset omfang erfaringer med NSE, Fbal og Fbal-S for små oplande (< 30 km2). Erfaringer fra DK model viser, at mens 76 % af stationerne kan leve op til krav til NSE for alle vandløb, så kan 53 % af de små stationer opfylde dette nøjagtighedskrav i DK modellens kalibreringsperiode fra 2000-2006, og for valideringsperioden 1996-1999 hvor datagrundlaget er bedst. For små vandløb < 30 km 2 kunne man derfor i stedet for 75 % kriteriet (jf. Tabel 10), arbejde med et lempet kriterie, der hedder, at mindst 50 % af stationerne (i stedet for 75 % af stationerne) skal opfylde kravene til NSE kriterier i Tabel 10. For små oplande (størrelsesorden ~ 10 km2) kan formentlig kun en mere begrænset del af stationerne opfylde kravene til NSE jf. Tabel 10. For meget små vandløb (~10 km2) vil man i bedste fald kunne opnå NSE værdier på 0,5 for ca. 50 % af stationerne, for en screeningsmodel (0,6 for overslags- og 0,7 for detailmodel). Det samme gælder den nøjagtighed man kan opnå for valideringsperioder efter 2006 (her kan man med DK model for valideringsperioden 2007-2010 kun opnå krav til NSE for 50 % af alle stationer). For Fbal er kriterier rimelige selv for små oplande, men det er vigtigt at sommervandbalancen systematisk inddrages i kortlægningsmodellerne, specielt når de anvendes til øvrige formål såsom nye indvindingstilladelser og vandløbspåvirkning.
Det er en god ide at teste om nøjagtighedskrav fx til ME og RMS er opfyldte, ikke bare for modellen som helhed, men også for de enkelte magasiner (og modellag), og at bruge enten kriterium 2 (RMS/Sobs ) eller 3 (SE), afhængigt af om observationsdata har samme eller forskellig usikkerhed (datakvalitet).
Tabel 10 Numeriske mål for nøjagtigheden (kravværdier til beta)
Kalibrerings- og valideringsresultater for NSE (Nash-Sutcliffe) < 0,5 kan anses som ”ikke tilfredsstillende” mens resultater > 0,8 anses for at være ”meget gode” (Moriasi et al., 2015) for store og små oplande.
5.5.6 Anbefalinger
Det anbefales at nøjagtighedskriterier og -mål vælges efter følgende procedure:
- Først vurderes ud fra modellens formål, hvilke kvantitative nøjagtighedskriterier i Tabel 8, der skal bringes i spil. Tabel 9 kan benyttes som vejledning hertil.
- Herefter formuleres hvilke kvalitative kriterier, modellen skal opfylde, og det overvejes samtidig, om der skal suppleres med yderligere ad hoc kriterier, så de konkrete formål for modelanvendelsen bedst muligt kan afspejles af de valgte kriterier.
- Observationsdata og de nødvendige hjælpestørrelser, der indgår i de enkelte kriterier, vurderes nøje, fx dHmax, Sobs (Sonnenborg og Henriksen, 2005) samt hvilken klasse de enkelte vandføringslokaliteter repræsenterer jf. Qvar, Qmid og Qmin.
- Endelig vurderes hvilke numeriske mål, der skal opfyldes for de enkelte kriterier. Her kan beta værdierne i Tabel 10 benyttes som vejledning. Der skal opnås enighed om kvantitative og kvalitative nøjagtighedsmål inden kalibreringen gennemføres.
- Kriterierne må gerne være lidt ambitiøse, så ikke alle kriterier er lette at opfylde for alle magasiner, typologier og/eller delområder af modelområdet. Det er med til at gøre modelperformance vurderingen til et aktivt dialogværktøj, som kan bidrage kommunikativt i modelprocessen og gøre modellen mere gennemsigtig for slutbrugere, i forhold til hvad den kan bruges til.
5.5.7 Referencer
Anderson MP, Woessner WW, Hunt RJ (2015) Applied groundwater modelling. Simulation of flow and advective transport. Second Edition. Elsevier. 535 pp.
Black DC, Wallbrink PJ, Jordan PW, Waters D, Carroll C, Blackmore, JM (2011) Guidelines for water management modelling: towards best practice model application. eWater Cooperative Research Centre, Canberra, Australia. September. Available at: http://www.ewater.com.au
Fienen MN (2013) We speek for the data. Groundwater 51(2),157. http://dx.doi.org/10.1111/gwat.12018
Moriasi DN, Gitay MW, Pai N. Daghgupati P (2015) Hydrologic and water quality models: Performance measures and evaluation criteria. Transactions of the ASABE 2015, 58, 1763-1785.
Pushpalatha R, Perrin C, Le Moine N. Andréassian C (2012) A review of efficiency criteria for evaluating low-flow simulations. Journal of Hydrology, 420-422, 171-182
Refsgaard, JC og Henriksen, HJ. 2004. Modelling guidelines – terminology and guiding principles. Advances in water resources, 27, 71-82.
Sonnenborg og Henriksen, 2005. Håndbog i grundvandsmodellering. GEUS rapport 2005/80.
Skriv et svar