Nooit meer een editie van
het Esri Magazine missen?
Binnen veel organisaties wordt geodata op grote schaal gebruikt. Maar om daadwerkelijk waarde uit deze data te kunnen halen is het van groot belang dat de kwaliteit van de data goed is. Wanneer is data van goede kwaliteit en wat kun je doen als de data die je wilt gebruiken niet voldoet aan de standaard die nodig is om het effectief te gebruiken? In dit blog laat ik u aan de hand van een praktijkvoorbeeld het belang van kwalitatieve geodata zien en welke stappen u kunt nemen om de datakwaliteit te verbeteren.
Contact
Tekst: Romeo Langestraat. Foto's: Freepik
Count Overlapping Features – Deze tool identificeert polygonen die geheel of gedeeltelijk overlappen. Het resultaat is per polygoon een telling van het aantal andere polygonen waarmee overlap is.
Find Identical – Deze tool identificeert identieke records in de dataset op basis van een aantal gekozen attributen.
Delete Identical – Deze tool verwijdert identieke records op basis van een aantal gekozen attributen.
Check Geometry – Deze tool identificeert en rapporteert geometrieën met een fout in de geometrie.
Repair Geometry – Deze tool herstelt geometrieën met een fout in de geometrie.
Calculate Geometry Attributes – Deze tool kan de oppervlakte en omtrek van een polygoon of lengte van een lijnsegment berekenen en wegschrijven in nieuwe kolommen in de attribuuttabel.
Data Engineering – Deze functie in het Content-venster geeft in een paar klikken inzicht in missende attributen en outliers in de data.
Werkt u zelf met data die nog een verbeterslag kan gebruiken? Onderstaande functies in ArcGIS Pro helpen u de kwaliteit van bestaande data op te halen.
Hoewel de nieuwe workflow een aanzienlijke verbetering betekende, was er nog steeds ruimte voor verdere optimalisatie. De grootste stap die te maken is op het gebied van datakwaliteit ligt aan de bronzijde. Hiervoor is het van belang de verantwoordelijke van deze data op de hoogte te brengen van de issues. Vaak wordt het door organisaties gewaardeerd wanneer zij op datakwaliteitsissues gewezen worden, omdat ze hier niet van op de hoogte waren. Het weten waar de issues zitten scheelt de organisaties veel tijd, waardoor ze direct aan de slag kunnen met de oplossing.
De ervaringen in deze voorbeeldcase staan niet op zichzelf. Het gebeurt vaker wel dan niet dat een organisatie met data aan de slag wil, maar dat de kwaliteit te laag is. Vaak komt dit doordat er niet geografisch genoeg wordt gedacht en er geen (goed) locatiecomponent aanwezig is in de data. Gelukkig is slechte datakwaliteit dus lang niet altijd een 'dealbreaker'. In veel gevallen is er toch veel mogelijk met de data die voorhanden is. Wilt u meer weten over hoe u de kwaliteit van uw data kunt vergroten? Neem dan vooral contact op.
conflicten. Zo werden er diverse duplicaten en overlappende percelen zichtbaar. De verschillen tussen de diverse landen waren groot. In Nederland worden percelen secuur geregistreerd door het Kadaster, maar in de VS is geen centrale percelenregistratie en is de kwaliteit van de data zeer wisselend: overlappende percelen en meerdere perceelnummers voor hetzelfde perceel. Daar is niet mee te werken, want wat is dan de waarheid? Om betrouwbaar werk te doen moet zeker 80 tot 90% van je data kloppen, al is de ambitie natuurlijk 100%.
Visualiseren van percelen
In mijn rol als analytics consultant bij Esri werd ik betrokken bij een project waarbij een organisatie wereldwijd landbouwpercelen wilde visualiseren in een GIS. Vaak zijn percelen opgeslagen aan de hand van een registratienummer en een omschrijving. Het probleem hierbij is dat de locatie dus niet exact is geregistreerd. Bovendien verschilt de brondata hiervoor per land: in Nederland is deze afkomstig van het Kadaster, maar in andere landen geldt een ander systeem dat vaak ook nog regionaal afwijkt. Het gevolg: zodra we met de percelen aan de slag gingen ontstonden er diverse
De noodzaak was duidelijk: ten eerste moesten we aan de slag met inconsistenties in de gebruikte data en ten tweede was een beter systeem nodig om in de toekomst de kwaliteit en consistentie van deze gegevens te garanderen. Dit vereiste enerzijds het identificeren van fouten en anderzijds het bouwen van een workflow die deze fouten in de toekomst voorkomt. Om de datakwaliteit van de bestaande data te verbeteren hebben we een gedetailleerde analyse uitgevoerd om overlappende en onjuiste gegevens te identificeren. De eerste vraag die daarbij opkomt is hoe de issues in de data zijn ontstaan en wie daar verantwoordelijk voor is. Ligt dat aan de gebruikte software, bij interne data van de betreffende organisatie of in de officiële brondata? Wanneer je dit helder hebt kun je namelijk schakelen met de juiste stakeholders om de problemen aan te pakken. Uiteindelijk bleken er meerdere stakeholders verantwoordelijk. In de officiële brondata kwam overlap voor, maar er ontstonden ook dubbele percelen doordat lokale medewerkers percelen meerdere keren aanklikten. Met allerlei slimmigheden in ArcGIS - zoals ‘repair geometry’, ‘find overlaps’ en ‘find identical’ - zijn issues voor een groot deel te identificeren (zie kader ‘Slimme tools om datakwaliteit mee te verbeteren’). Soms zijn deze op te lossen, en in andere gevallen moet je concluderen: hier weten we niet wat de waarheid is. De volgende stap is om deze kwaliteitscontroles te automatiseren. Hiervoor hebben we een workflow gecreëerd die inkomende gegevens door verschillende controles laat lopen. Deze controles identificeren en corrigeren de meeste kwaliteitsproblemen, waardoor de hoeveelheid handmatig correctiewerk achteraf sterk wordt verminderd.
Meer informatie
Meer weten over het borgen van goede datakwaliteit? Neem contact op.
Romeo Langestraat is analytics consultant bij Esri Nederland. Met een achtergrond in econometrie, is hij door de jaren heen steeds meer gaan doen met data science in combinatie met locatie. Met veel plezier komt Romeo bij organisaties waar locatievraagstukken beantwoord kunnen worden en nieuwe inzichten gecreëerd kunnen worden door toepassing van data analyse en data science.
Romeo Langestraat
Romeo Langestraat
Romeo Langestraat is analytics consultant bij Esri Nederland. Met een achtergrond in econometrie, is hij door de jaren heen steeds meer gaan doen met data science in combinatie met locatie. Met veel plezier komt Romeo bij organisaties waar locatievraagstukken beantwoord kunnen worden en nieuwe inzichten gecreëerd kunnen worden door toepassing van data analyse en data science.
In mijn rol als analytics consultant bij Esri werd ik betrokken bij een project waarbij een organisatie wereldwijd landbouwpercelen wilde visualiseren in een GIS. Vaak zijn percelen opgeslagen aan de hand van een registratienummer en een omschrijving. Het probleem hierbij is dat de locatie dus niet exact is geregistreerd. Bovendien verschilt de brondata hiervoor per land: in Nederland is deze afkomstig van het Kadaster, maar in andere landen geldt een ander systeem dat vaak ook nog regionaal afwijkt. Het gevolg: zodra we met de percelen aan de slag gingen ontstonden er diverse conflicten. Zo werden er diverse duplicaten en overlappende percelen zichtbaar. De verschillen tussen de diverse landen waren groot. In Nederland worden percelen secuur geregistreerd door het Kadaster, maar in de VS is geen centrale percelenregistratie en is de kwaliteit van de data zeer wisselend: overlappende percelen en meerdere perceelnummers voor hetzelfde perceel. Daar is niet mee te werken, want wat is dan de waarheid? Om betrouwbaar werk te doen moet zeker 80 tot 90% van je data kloppen, al is de ambitie natuurlijk 100%.
kwalitatief goede geodata
Nooit meer een editie van
het Esri Magazine missen?
De noodzaak was duidelijk: ten eerste moesten we aan de slag met inconsistenties in de gebruikte data en ten tweede was een beter systeem nodig om in de toekomst de kwaliteit en consistentie van deze gegevens te garanderen. Dit vereiste enerzijds het identificeren van fouten en anderzijds het bouwen van een workflow die deze fouten in de toekomst voorkomt. Om de datakwaliteit van de bestaande data te verbeteren hebben we een gedetailleerde analyse uitgevoerd om overlappende en onjuiste gegevens te identificeren. De eerste vraag die daarbij opkomt is hoe de issues in de data zijn ontstaan en wie daar verantwoordelijk voor is. Ligt dat aan de gebruikte software, bij interne data van de betreffende organisatie of in de officiële brondata? Wanneer je dit helder hebt kun je namelijk schakelen met de juiste stakeholders om de problemen aan te pakken. Uiteindelijk bleken er meerdere stakeholders verantwoordelijk. In de officiële brondata kwam overlap voor, maar er ontstonden ook dubbele percelen doordat lokale medewerkers percelen meerdere keren aanklikten. Met allerlei slimmigheden in ArcGIS - zoals ‘repair geometry’, ‘find overlaps’ en ‘find identical’ - zijn issues voor een groot deel te identificeren (zie kader ‘Slimme tools om datakwaliteit mee te verbeteren’). Soms zijn deze op te lossen, en in andere gevallen moet je concluderen: hier weten we niet wat de waarheid is. De volgende stap is om deze kwaliteitscontroles te automatiseren. Hiervoor hebben we een workflow gecreëerd die inkomende gegevens door verschillende controles laat lopen. Deze controles identificeren en corrigeren de meeste kwaliteitsproblemen, waardoor de hoeveelheid handmatig correctiewerk achteraf sterk wordt verminderd.
Binnen veel organisaties wordt geodata op grote schaal gebruikt. Maar om daadwerkelijk waarde uit deze data te kunnen halen is het van groot belang dat de kwaliteit van de data goed is. Wanneer is data van goede kwaliteit en wat kun je doen als de data die je wilt gebruiken niet voldoet aan de standaard die nodig is om het effectief te gebruiken? In dit blog laat ik u aan de hand van een praktijkvoorbeeld het belang van kwalitatieve geodata zien en welke stappen u kunt nemen om de datakwaliteit te verbeteren.
Count Overlapping Features – Deze tool identificeert polygonen die geheel of gedeeltelijk overlappen. Het resultaat is per polygoon een telling van het aantal andere polygonen waarmee overlap is.
Find Identical – Deze tool identificeert identieke records in de dataset op basis van een aantal gekozen attributen.
Delete Identical – Deze tool verwijdert identieke records op basis van een aantal gekozen attributen.
Check Geometry – Deze tool identificeert en rapporteert geometrieën met een fout in de geometrie.
Repair Geometry – Deze tool herstelt geometrieën met een fout in de geometrie.
Calculate Geometry Attributes – Deze tool kan de oppervlakte en omtrek van een polygoon of lengte van een lijnsegment berekenen en wegschrijven in nieuwe kolommen in de attribuuttabel.
Data Engineering – Deze functie in het Content-venster geeft in een paar klikken inzicht in missende attributen en outliers in de data.
Tekst: Romeo Langestraat. Foto's: Freepik
Contact
Meer informatie
Meer weten over het borgen van goede datakwaliteit? Neem contact op.
Hoewel de nieuwe workflow een aanzienlijke verbetering betekende, was er nog steeds ruimte voor verdere optimalisatie. De grootste stap die te maken is op het gebied van datakwaliteit ligt aan de bronzijde. Hiervoor is het van belang de verantwoordelijke van deze data op de hoogte te brengen van de issues. Vaak wordt het door organisaties gewaardeerd wanneer zij op datakwaliteitsissues gewezen worden, omdat ze hier niet van op de hoogte waren. Het weten waar de issues zitten scheelt de organisaties veel tijd, waardoor ze direct aan de slag kunnen met de oplossing.
De ervaringen in deze voorbeeldcase staan niet op zichzelf. Het gebeurt vaker wel dan niet dat een organisatie met data aan de slag wil, maar dat de kwaliteit te laag is. Vaak komt dit doordat er niet geografisch genoeg wordt gedacht en er geen (goed) locatiecomponent aanwezig is in de data. Gelukkig is slechte datakwaliteit dus lang niet altijd een 'dealbreaker'. In veel gevallen is er toch veel mogelijk met de data die voorhanden is. Wilt u meer weten over hoe u de kwaliteit van uw data kunt vergroten? Neem dan vooral contact op.
Werkt u zelf met data die nog een verbeterslag kan gebruiken? Onderstaande functies in ArcGIS Pro helpen u de kwaliteit van bestaande data op te halen.