Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/RFFO-7HZHU9
Type: Dissertação de Mestrado
Title: Detecção de clusters espacias via algoritmo scan multi-objetivo
Authors: Flavio dos Reis Moura
First Advisor: Luiz Henrique Duczmal
First Referee: Frederico Rodrigues Borges da Cruz
Second Referee: Sabino Jose Ferreira Neto
Third Referee: Ricardo Hiroshi Caldeira Takahashi
Abstract: Situações em que clusters espaciais de doenças não têm um formato regular são muito comuns. Além disso, mapas com múltiplos clusters, que não têm um cluster primário claramente dominante, ocorrem freqüentemente. Nós desenvolvemos um método para analisar maisdetalhadamente os diversos níveis de clusterização que aparecem naturalmente em mapas de doenças divididos em m regiões.A estatística scan espacial é uma medida usual da intensidade de um cluster. Outra medida importante é a regularidade geométrica. O algoritmo genético multi-objetivo foi desenvolvido anteriormente para identificar o formato geométrico dos clusters. Este método realizauma busca para maximizar dois objetivos, a estatistica scan e a regularidade da forma (o conceito de compacidade). A solução encontrada é um conjunto de Pareto, consistindo de todos os clustersencontrados que não são piores que nenhum outro cluster em ambos objetivos simultaneamente. A avaliação da significância é feita paralelamente para todos os cluster através de simulações deMonte Carlo. Este procedimento determina a melhor solução.Ao invés de usarmos o algoritmo genético, nós desenvolvemos um novo método que incorpora a simplicidade do método scan circular, sendo capaz de detectar e avaliar clusters de formato irregulares. Nós definimos a ocupação circular (OC) de uma zona candidata a cluster como a sua população dividida pela população dentro do menor círculo que a contém. O conceito de OC é computacionalmente rápido, utiliza um conceito mais intuitivo, e substitui aqui o conceito de compacidade como outra medida de regularidade de forma. A estatística scan é calculada para cada uma das m regiões do mapa examinado-as individualmente. As regiões são ordenadas decrescentemente de acordo com o valor da estatística scan. Seja R(k) o conjunto contendo as k primeiras regiões. A modificação multi-objetivo do algoritmo scan circular é aplicada sucessivamente para cada conjunto R(k). Em cada círculo, a zona candidata a ser um cluster consiste das regiões pertencentes a R(k) e que estão no círculo. Na prática nós escolhemos somente alguns poucos valores de k tais como m, m/2, m/4,. . .1. Para cada valor de k nós construímos um conjunto de Pareto P(k). Reunimos todos os conjuntos de Pareto em um gráfico e calculamos o cojunto de Pareto Globlal P(0). Um procedimento de Monte Carlo é usado para avaliar a significância dos clusters.A presença de joelhos no conjunto de Pareto indica transições repentinas na estrutura dos clusters, correspondendo a rearranjos devido à coalescência de clusters fracamente ligados (geralmente desconectados). Cada conjunto de Pareto contém os cluster mais prováveis dentro de um certo nível de informação geográfica. Eles são relacionados, refletindo a distribuição dos casos,estrutura de população e vizinhança do mapa. Computacionalmente, o método é somente algumas vezes mais demorado que o scan circular usual.O scan circular multi-objetivo permite enxergar a estrutura de clusters de um mapa. A comparação do conjunto de Pareto de casos observados com aquele calculados sobre a hipótese nula fornece indicações valiosas sobre a ocorrência de clusters espaciais de doenças. O potencial para monitoramento de clusters incipientes e em diversas escalas geográficas simultaneamente o torna uma ferramenta promissora em vigilância sindrômica, especialmente para doenças contagiosas em que existem interações de curto e longo alcance.
Abstract: Situations where a disease cluster does not have a regular shape are fairly common. Moreover, maps with multiple clustering, when there is not a clearly dominating primary cluster, also occur frequently. We would like to develop a method to analyze more thoroughly the severallevels of clustering that arise naturally in a disease map divided into m regions.The spatial scan statistic is the usual measure of strength of a cluster. Another important measure is its geometric regularity. A genetic multi-objective algorithm was developed elsewhere to identify irregularly shaped clusters. That method conducts a search aiming to maximize twoobjectives, namely the scan statistic and the regularity of shape (the compactness concept). The solution presented is a Pareto-set, consisting of all the clusters found which are not worse in bothobjectives simultaneously. The significance evaluation is conducted in parallel for all the clusters in the Pareto-set through a Monte Carlo simulation. This procedure determines the best cluster solution.Instead of using a genetic algorithm, we designed a novel method that incorporated the simplicity of the circular scan, being able to detect and evaluate irregularly shaped clusters. We define the circular occupation (CO) of a cluster candidate roughly as its population divided by thepopulation inside the smallest circle containing it. The CO concept, being computationally faster, and relying on familiar concepts, is easier to grasp and substitutes here the compactness concept as another measure of regularity of shape. The scan statistic is evaluated for each of the m regions of the map taken individually. The regions are ranked accordingly in decreasing order. Let R(k) be the set containing the first k regions. A multi-objective modification of the circular scan algorithm [8] issuccessively applied for each set R(k). For each circle, the candidate cluster consists of the regions belonging to R(k) within it, and the quotient in the CO calculation takes into account all the regions of the original map inside the circle. In practice we choose only some few k values such asm,m/2,m/4,,1. For each value of k we build the Pareto-set P(k). We display all the Pareto-sets in a graph and after joining all of them we compute the global Pareto-set P(0). A Monte Carlo procedureis used for significance evaluation.The presence of knees in the Pareto-sets indicates sudden transitions in the clusters structure, corresponding to rearrangements due to the coalescence of loosely knitted (usually disconnected) clusters. Each Pareto-set contains the most likely clusters within a certain level ofgeographical information. They are related, reflecting the distribution of cases, populations and neighborhood structure of the map. Computationally, the method is only a few times slower thanthe usual circular scan.The multi-objective circular scan allows peering into the clustering structure of a map. The comparison of Pareto-sets for observed cases with those computed under null-hypothesis provides valuable hints for the spatial occurrence of diseases. The potential for monitoring incipientclusters at several geographic scales simultaneously makes this a promising tool in syndromic surveillance, especially for contagious diseases when there is a mix of short and long range spatialinteractions.
Subject: Estatística
Estatistica médica
Saude Pesquisa
Analise por conglomerados
Análise espacial (Estatística)
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/RFFO-7HZHU9
Issue Date: 9-Aug-2006
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
flaviomoura_2006.pdf1.39 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.