Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/46099
Type: Dissertação
Title: Imputation by decomposition and by time series nature : novel imputation methods for missing data in time series
Other Titles: Imputação por decomposição e pela natureza da série temporal : novos métodos de imputação para dados ausentes em séries temporais
Authors: Silvana Mara Ribeiro
First Advisor: Cristiano Leite de Castro
First Referee: Luis Antonio Aguirre
Second Referee: Frederico Gadelha Guimarães
Abstract: Dealing with missingness in time series data is a very important, but oftentimes overlooked, step in data analysis. In this dissertation, the pattern of time series data and missingness mechanisms are described to help identify which imputation method should be used to impute missing data, along with a review of imputation methods and how they work. Recommended methods from literature are used to impute synthetic data of different pattern and the results are discussed. In this dissertation, two new methods to impute missing time steps are presented and compared to other classical imputation methods, as well as state-of-the-art methods. The first imputation method presented is Imputation by Pattern. This method is based on the premise that imputing the data using the literature- recommended methods will achieve the best results. Heuristics are proposed to separate the time series by pattern. The second imputation method presented is Imputation by Decomposition. This method consists in decomposing the time series in its components and then imputing them using the literature-recommended methods. The combination of these methods and the Kalman filter are also tested. The discussed imputation methods are used to impute a financial indexes and instability trackers data set, a COVID-19 data set and a deng data set and then predictions are made and the results are presented. The Imputation by Pattern method combined with the Kalman filter achieved consistently satisfactory results, although it did not always achieve the best results. The Imputation by Decomposition method achieved good results, specially when some time was spent investigating which variation worked better with each data set. Overall, both imputation method achieved similar, and in some cases, better results than the classical imputation methods.
Abstract: Um passo importante, porém muitas vezes negligenciado, durante a análise de dados de séries temporais é a imputação de dados ausentes. Nessa dissertação, as características de séries temporais e mecanismos de perda são descritos para ajudar na identificação de qual método de imputação deve ser utilizado para imputar dados ausentes, juntamente com uma revisão bibliográfica de métodos de imputação e seu funcionamento. Os métodos de imputação recomendados pela literatura são utilizados para imputar dados sintéticos com diferentes características e os resultados são discutidos. Dois novos métodos de imputação de séries temporais são apresentados e comparados com métodos de imputação clássicos e métodos do estado-da-arte. O primeiro método de imputação apresentado é o de Imputação pelo Padrão. Esse método se baseia na premissa que utilizando-se o método de imputação recomendado pela literatura para cada padrão de série temporal se obterá os melhores resultados. Heurísticas de separação das séries temporais por padrão foram desenvolvidas. O segundo método apresentado é o de Imputação por Decomposição. Esse método consiste em decompor a série temporal e depois imputar cada um de seus componentes pelos métodos recomendados pela literatura. As combinações desses métodos e o filtro de Kalman também foram testados. Os métodos de imputação discutidos são utilizados para imputar dados de índices financeiros e rastreadores de instabilidade, dados sobre a COVID-19 e dados sobre a dengue. Predições são realizadas com os dados dos casos de estudo e os resultados são apresentados. Os resultados obtidos pelo método de Imputação por Padrão combinado com o filtro de Kalman são consistentemente satisfatórios, apesar de nem sempre obter os melhores resultados. O método de Imputação por Decomposição também obteve bons resultados, principalmente quando algum tempo foi gasto para investigar qual de suas variações se adequou melhor a cada conjunto de dados. No geral, ambos os métodos mostraram resultados similares e/ou melhores que os métodos de imputação clássicos.
Subject: Engenharia elétrica
Análise de séries temporais
Ausência de dados (Estatística)
Ciências sociais - Métodos estatísticos
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA
metadata.dc.publisher.program: Programa de Pós-Graduação em Engenharia Elétrica
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/46099
Issue Date: 28-Jul-2021
Appears in Collections:Dissertações de Mestrado



This item is licensed under a Creative Commons License Creative Commons