Identificació d'outliers espaials
Tipus de documentProjecte Final de Màster Oficial
Data2021-07-08
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
La identificació d'anomalies en un conjunt de dades, també anomenades outliers, és un tema molt estudiat per l'estadística. Existeixen, per tant, molts mètodes per a la realització d’aquesta tasca. Ara bé, la majoria d'aquests mètodes no distingeixen la diferent naturalesa dels múltiples atributs mesurats, ni contemplen si es tracta de valors de concentració, de recompte, de localització, o d’altres. Aquest treball es centra en la detecció d'outliers en dades geolocalitzables, és a dir, dades que disposen d’atributs que determinen la seva posició a l'espai. Generalment, es tracta de dades que s'han recollit en diverses localitzacions físiques sobre un terreny. Per a aquest tipus de dades, molt sovint, la seva posició espaial estableix una relació de concordança amb els valors dels atributs no espaials del seu entorn immediat. En conseqüència, sembla lògic que la detecció de les anomalies tingui en compte aquesta correlació entre la posició espaial i les altres mesures. La identificació d’outliers consisteix a trobar mostres singulars que no corresponen o s’allunyen de la resta del conjunt. En el cas de les dades geolocalitzades, la seva posició espaial pot ser útil per a deduir-ne les relacions de veïnatge. La inclusió d'aquests aspectes en el mètode d'identificació d'outliers hauria de millorar els resultats que s'obtenen mitjançant mètodes d'anàlisi més genèrics, basats en models estadístics més comuns que no tenen en compte la característica de geolocalització de les dades. L’objecte d'aquest treball és comparar diferents mètodes d'identificació d'outliers en un conjunt de dades geolocalitzables, és a dir, de dades que ressalten sobre una superfície. Es tracta de trobar punts que a priori no destaquen respecte a tot el conjunt de dades, però que són significatius quan es diferencien dels que es troben al voltant, des d'un punt de vista de la seva
localització espaial. En l’anàlisi, s’han fet servir tant dades sintètiques, generades aleatòriament, com dades reals. El primer tipus de dades ha servit per a validar la millora aportada pels mètodes que tenen en compte la geolocalització, així com per a saber en quins casos és millor aplicar una varietat d’un mètode o una altra. Com a dades reals, s'han utilitzat dos conjunts: la concentració de contaminant atmosfèric al territori de Catalunya i l’acumulació de casos de la COVID-19 durant el mes d’abril de l’any 2021. Aquest projecte permetrà posar a prova el comportament d’aquests mètodes i comprovar-ne l’adequació en casos reals
MatèriesLocation-based services -- Evaluation -- Mathematicals models, Outliers (Statistics), COVID-19 Pandemic, 2020- -- Catalonia (Spain) -- Statistics, Air--Pollution -- Catalonia (Spain) -- Statistics, Geolocalització, Serveis de -- Avaluació -- Models matemàtics, Observacions aberrants (Estadística), Pandèmia de COVID-19, 2020- -- Barcelona (Catalunya) -- Estadístiques, Aire -- Contaminació -- Catalunya -- Estadístiques
TitulacióMÀSTER UNIVERSITARI EN ENGINYERIA INDUSTRIAL (Pla 2014)
Localització
Col·leccions
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
identificaci-d-outliers-espaials.pdf | 1,539Mb | Visualitza/Obre | ||
annex.pdf | 7,078Mb | Visualitza/Obre |