Challenges in Cluster Analyses for Longitudinal Data

BRUCKERS, Liesbeth

Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/20436

Title:	Challenges in Cluster Analyses for Longitudinal Data
Authors:	BRUCKERS, Liesbeth
Advisors:	MOLENBERGHS, Geert
Issue Date:	2014
Abstract:	In this dissertation, we have addressed clustering for high dimensional data, possibly subject to missingness. The research was inspired by a number of data sets, ranging from data collected in a mental care setting, studies in patients with abdominal aortic aneurysm or heart failure, to an EEG study in rats. The communality in these studies is the believe that the population under investigation is not homogenous, but instead consists of subpopulations. A direct labelling of these subpopulations is not available. But given that these sub-populations are characterized by different structures in the collected data, it is possible to uncover the latent subpopulations. Model-based clustering is a statistical tool that can be entertained for this purpose. However, for the given data sets, clustering is impeded by the high dimensionality and longitudinal character of the data, and by the fact data is not always fully observed. Often a set of outcomes is measured over time, resulting in multivariate longitudinal data. Due to the dimension of the joint distribution of the random effects, computational problems are likely to occur when mixture models are applied to a multivariate longitudinal setting. In this dissertation, we have proposed an algorithm to reveal latent subgroups for multivariate repeated outcomes. The approach is inspired by work of Fieuws and Verbeke (2008), the authors perform a discriminant analysis for repeatedly measured data. Instead of maximizing the full joint model a pseudolikelihood approach, based on bivariate joint models for the repeated outcomes, was utilized. The iterative algorithm mimics a partition cluster method. The performance of the proposed algorithm was looked into by means of a simulation study. Complexity is enhanced when observations are densely sampled over a continuum, e.g., time. In such a situation, the data are generated by an underlying smooth function or by a set of smooth functions that are not easily described by a mathematical expression. Functional data analysis methods are used to reduce the dimensionality of the data and latent subgroups are then discovered for the reduced data. Such an approach was, e.g., used in Jacques and Preda (2013). The fact that their approach uses a data reduction technique, requiring a complete data structure, limits the practical usefulness of the cluster algorithm. In this dissertation, we combined methods from functional data analysis, missing data and ensemble clustering to discover latent subgroups in high-dimensional data, in terms of the number of responses and the number of repeated measurements, contaminated by missing observations. Data were completed by means of multiple imputation, whereupon the model-based clustering of Jacques and Preda (2013) was used to find latent subgroups in the principal components, and finally ensemble clustering was employed to summarize the set of partitions into a final data partition. The amalgamation of statistical techniques allows to cluster complex data and at the same time to quantify the influence of the missing data on the composed groups. Ensemble clustering has to our knowledge not yet been used in combination with multiple imputation. A small simulation study was designed to explore its utility. When the missing-data mechanism is believed to be non-random, the joint distribution of the data and the missing-data indicators should be considered. In this work, we have investigated various mixture models for non-random missingness as proposed by Muth´en et al. (2011). We assessed the vulnerability of the results not only in terms of the number of clusters, the cluster-specific profiles, but also in terms of the group-membership probabilities. It is however impossible to decide on the best model, since all models rely on non-verifiable assumptions. We have illustrated how an ultimate outcome, related to the growth curves, can be supportive in choosing between the models. Cluster results are of course also sensitive to outlying and influential observations. We used ideas presented by Lesaffre and Verbeke (1998) for a mixed model, and applied local-influence diagnostics to a mixture model. This allowed quantification of the influence an observation has on the cluster-specific profiles and on the groupmembership probabilities of the other observations. A number of issues were not or partially addressed in this dissertation and could be topic for further deepening. The local-influence diagnostics, described in Chapter 8, are obtained by introducing weights for the log-likelihood contributions of single subjects, where focuss was on the influence of a single subject. Other perturbation schemes could be worthwhile to consider. The method of local influence could for example be used to study the impact of MNAR mechanisms on the cluster result. The approach presented in Chapter 6, to cluster sets of smooth but incomplete functions, has a number of flaws. The method is sensitive to the class-specific orders to approximate the pseudo-likelihood for the functional data. A heuristic test is used to determine these orders. More formal procedures could be implemented. Determination of the number of clusters is also difficult. An information criterion similar to the one proposed by Breaban and Luchian (2011) could be developed for functional data. This would address the selection of the class-specific orders and the optimal number of clusters at the same time. The set of partitions is reduced into a final partition by means of consensus clustering. This step could be replaced by other techniques, for example a latent class analysis with the cluster-indicators as variables. We have focussed on repeated measurements for continuous responses. But the methods presented in this dissertation, can be applied to non-continuous responses/data with other structures. It would be interesting to see how the methods perform in spatial or temporal-spatial settings and for combinations of responses not belonging to the same parametric family. Het blootleggen van natuurlijke groeperingen binnen een set van multivariate gegevens noemt men clusteren. De term clusteren verscheen voor het eerst in een artikel gepubliceerd in 1954, met antropologische gegevens. Het K-means algoritme, ´e´en van de populairste cluster technieken, werd voor het eerst in 1955 gepubliceerd. Het organiseren van gegevens in logische en natuurlijke groeperingen vindt toepassingen in een groot aantal disciplines. Zo werd clusteren succesvol toegepast in o.a. transcriptomics om genen met dezelfde functie te groeperen, in astronomie om sterren te klasseren, in plant- en dierkunde om organismen in gemeenschappen te verdelen, in geneeskunde om patiënten met dezelfde klinische en psychosociale noden te identificeren, . . . De term ‘cluster analyse’ omvat in feite verschillende algoritmen, alle met als doel gegevens te groeperen zodat gelijkaardige observaties, volgens een bepaalde afstandsmaat, in dezelfde groep zitten en ongelijksoortige observaties in verschillende groepen. In de literatuur wordt een waaier van cluster algoritmen beschreven, deze verschillen in hun definitie van waaruit een cluster bestaat en hoe deze clusters gedetecteerd worden. Traditionele cluster algoritmen, zoals hiërarchische methoden en (iteratieve) verdelingsmethoden, worden veelvuldig en met succes toegepast. Maar voor complexe data structuren –zoals het geval is bij herhaalde metingen, ruimtelijke gegevens, enz. – blijken deze technieken minder efficiënt in het blootleggen van de natuurlijke groeperingen. Voor dit soort van gegevens kan het wenselijk zijn om een onderliggend model voor de gegevens te veronderstellen. Het model specifieert enerzijds de structuur van de gegevens (bijv. gemiddelde evolutie, correlatie tussen de metingen van eenzelfde individu) en laat anderzijds toe dat de populatie heterogeen is en uit een (eindig) aantal subpopulaties/clusters bestaat. Een dergelijk model is bijvoorbeeld het finite-mixture model. In een finite-mixture benadering wordt elke cluster wiskundig vertegenwoordigd door een parametrische verdeling, bijv. de normale of Poisson verdeling. De volledige set van gegevens wordt beschreven als een gewogen mengeling (mixture) van de cluster specifieke verdelingen. De parameters in dit model zijn enerzijds de parameters uit de cluster specifieke verdelingen en anderzijds de a-priori kansen om tot de verschillende clusters te behoren. Waarschijnlijkheidstheorie wordt gebruikt om de parameters te bepalen zodat de fit tussen het opgegeven model en de gegevens optimaal is. Clusters worden vervolgens gedefinieerd als observaties die, onder dit model, waarschijnlijk tot dezelfde verdeling behoren. (On)zekerheid over toewijzing van een observatie tot een bepaalde cluster wordt gevat in de a-posteriori kans. Hoofdstuk 4 introduceert finite-mixture modellen en illustreert de toepassing voor gegevens uit de geestelijke gezondheidszorg. Ondanks het feit dat cluster analyse veelvuldig gebruikt wordt in toegepaste wetenschappen en onderwerp is van een groot aantal methodologische artikels, zijn er nog steeds een reeks open en controversiële vragen: de validiteit van de uiteindelijke groepering, de keuze van de te beschouwen response-variabelen in de cluster analyse, de beslissing van het optimaal aantal clusters, het probleem van lokale oplossingen voor de te maximaliseren waarschijnlijkheidsfunctie (voor model-gebaseerde technieken), gevoeligheid van de uitkomst van het algoritme aan de gekozen startwaarden, . . . In dit proefschrift behandelen we een aantal beperkingen van cluster analyses die tot nu toe minder aandacht kregen in de statistische literatuur. Deze onderwerpen worden het eenvoudigst behandeld in een model-gebaseerde cluster benadering. Specifiek focussen we op het clusteren van hoog-dimensionale gegevens en bestuderen we het effect van enerzijds ontbrekende gegevens en anderzijds invloedrijke gegevens. Cluster analyse wordt uitdagend wanneer de dimensionaliteit van de gegevens stijgt. De reden hiervoor is het toenemend aantal parameters in de waarschijnlijkheidsfunctie. In deze thesis zijn twee hoofdstukken gewijd aan dit onderwerp. Hoofdstuk 5 beschouwt een setting waar de dimensionaliteit toeneemt doordat gelijktijdig een aantal response-variabelen doorheen de tijd opgemeten worden. Hoofdstuk 6 behandelt de situatie waarbij ´e´en of meerdere responsevariabelen bijna continue opgemeten worden, wat resulteert in functies. Hoofdstuk 5 beschrijft een algoritme om soortgelijke patronen te ontdekken in een multivariate herhaalde metingen setting. Zoals reeds aangegeven kan clusteren van herhaalde metingen vlot door middel van een finite-mixture model. Voorbeelden beschreven in de literatuur bespreken echter enkel situaties waar tot een maximum van drie response-variabelen gelijktijdig beschouwd worden. Meer response-variabelen leidt snel tot computationele problemen. Hoofdstuk 5 stelt een procedure voor om in een set van longitudinale data voor meerdere response variabelen, groepen bloot te leggen. De procedure is gebaseerd op pseudo-waarschijnlijkheid schattingen. Een EEG studie bij ratten, waarbij verschillende hersensignalen (α, β, γ, δ, . . . - golven) geregistreerd worden, dient als case-studie. Tegenwoordig is men in staat om gegevens bijna continue op te meten, we denken bijvoorbeeld aan ruimtelijke metingen op een zeer dicht raster of metingen kort in de tijd. Bloeddruk en hartslag bijvoorbeeld kunnen door middel van een elektronisch apparaat continue gemonitord worden. Zelfs indien men maar in ´e´en response-variabele geïnteresseerd is, resulteert dit in hoog dimensionale gegevens. In dergelijke situaties, worden de waarnemingen gezien als een verwezenlijking van een vloeiend onderliggend proces en spreekt men van functionele data. Voorafgaand aan de eigenlijke statistische verwerking moet de dimensionaliteit van de functionele data omzeild worden. Vaak gebeurt dit via een principaal-component analyse. Populatie heterogeniteit, m.a.w. aanwezigheid van natuurlijke groeperingen, in de oorspronkelijke curves wordt ook weerspiegeld in de gereduceerde gegevens. Een cluster analyse voor functionele gegevens, wanneer deze bestaat uit bivariate functies, werd door Jacques en Preda (2013) beschreven. Een essentiële bouwsteen van deze techniek is de principaal-component analyse, dewelke volledige datastructuren verondersteld. Hierdoor wordt de toepasbaarheid van hun procedure beperkt door records met ontbrekende gegevens. Ontbrekende gegevens zijn echter bijna onvermijdelijk in longitudinale studies. Hoofdstuk 6 licht toe hoe een combinatie van technieken uit verschillende domeinen gebruikt kan worden om hoog dimensionale onvolledige gegevens te clusteren. Volledige datasets worden eerst bekomen door meervoudige imputatie van de ontbrekende informatie. Elk van deze datasets wordt vervolgens onderworpen aan een cluster algoritme voor functionele data. Dit resulteert in een collectie van partities van de data, ook een ensemble genoemd. Om op basis van de bekomen collectie van groeperingen tot een finale consensus groepering te komen, wordt ensemble clustering aangewend. Een studie over hartfalen wordt als illustratie gebruikt. Gedurende 6 maanden, na ontslag uit het ziekenhuis, wordt dagelijks informatie over gewicht, hartslag, diastole en systole bloeddruk van de patiënten via een telemonitoring apparaat verzameld. Voor het merendeel van de patiënten zijn er periodes dat de metingen ontbreken. Bij het vervolledigen van de gegevens wordt verondersteld dat de onvolledigheid van de gegevens afhangt van de geobserveerde metingen maar, gegeven deze, niet van de niet geobserveerde metingen (MAR, willekeurig ontbreken). Indien dit niet het geval is, wordt het mechanisme dat aanleiding geeft tot het ontbreken van gegevens MNAR (niet-willekeurig ontbreken) genoemd. MAR is vaak een beperkende veronderstelling en er kan nooit definitief uitgesloten worden dat het mechanisme niet verder afhangt van ontbrekende informatie. Zodra de onvolledigheid MNAR is, is het nodig een expliciet model voor de ontbrekende gegevens te formuleren. De gezamenlijke verdeling van de metingen en het onvolledigheidsproces moet dan beschouwd worden, dit resulteert in o.a. selectie modellen en pattern-mixture modellen. Er is reeds veel gepubliceerd over niet-willekeurig ontbrekende gegevens, maar weinig over MNAR modellen voor cluster-doeleinden. Hoofdstuk 7 presenteert een aantal MNAR-modellen waarbij een finite-mixture model verondersteld wordt voor de metingen. Elk van deze modellen gaat uit van niet te verifiëren veronderstellingen. De modellen worden toegepast op slagader-diameter bepalingen bij patiënten met abdominale aorta aneurysma (AAA-studie). De resultaten van de verschillende modellen worden vergeleken in termen van de gemiddelde cluster specifieke profielen, voor de a-posteriori kansen en de definitieve groepering van de patiënten. Er zijn opmerkelijke verschillen in de resultaten, maar een beste model kiezen is moeilijk. Externe informatie, die samenhangt met de groepering kan helpen bij een verstandige ranking van de verschillende MNAR modellen. Voor de AAA-studie is deze externe informatie vervat in het feit of de patiënt al dan niet een operatie diende te ondergaan. Dergelijke oefening wordt geïmplementeerd en beschreven in Hoofdstuk 7. Hoofdstuk 8, tenslotte, bestudeert de invloed van individuele observaties op het cluster resultaat. De parameter schatters, die de verschillende verdelingen in een finite-mixture model beschrijven, zijn onderhevig aan invloedrijke observaties en uitschieters. Het identificeren van uitschieters in een cluster analyse is reeds beschreven in de literatuur. Ook het bepalen van de invloed van individuele observaties in een herhaalde metingen setting voor homogene populaties en van het ontbreken van gegevens werd reeds bestudeerd. Hiervoor werd onder andere gebruik gemaakt van een lokale invloedsanalyse. Deze analyse werd tot nu toe echter nog niet toegepast voor een finite-mixtue model. In Hoofdstuk 8 worden de lokale invloedsstatistieken berekend voor een finite-mixture model. Deze aanpak maakt het mogelijk de invloed van een observatie op de resultaten van de cluster analyse te kwantificeren. Enerzijds de invloed op de parameter schatters, m.a.w. op de cluster specifieke gemiddelde profielen en finale partitie van de gegevens. Maar anderzijds is het ook mogelijk om de invloed van observatie i op de a-posterior kans van observatie j te bepalen. De invloed op de a-posterior kans kan aanzienlijk zijn, zelfs als observatie i geen invloed heeft op de samenstelling van de clusters. De techniek wordt geïllustreerd op de EEG data.
Document URI:	http://hdl.handle.net/1942/20436
Category:	T1
Type:	Theses and Dissertations
Appears in Collections:	PhD theses Research publications

Files in This Item:

File	Description	Size	Format
7508 D-2014-2451-53 Liesbeth Bruckers.pdf		2.26 MB	Adobe PDF	View/Open

Show full item record

Page view(s)

58

checked on Nov 7, 2023

Download(s)

32

checked on Nov 7, 2023

Google Scholar^TM

Check

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM