Utilize este identificador para referenciar este registo: http://hdl.handle.net/10400.13/3559
Título: User chat clustering using deep learning representations and unsupervised methods for dialog system applications
Autor: Moura, André Filipe Nóbrega
Orientador: Dias, Fernando Manuel Rosmaninho Morgado Ferrão
Lima, Pedro
Palavras-chave: Agrupamentos
Classificações de intenções
Redução de dimensão
Representações de texto
Transformadores
Clustering
Unsupervised
Intent clustering
Dimension reduction
Embeddings
Text representation
Transformers
Engenharia Informática
.
Faculdade de Ciências Exatas e da Engenharia
Data de Defesa: 28-Mai-2021
Resumo: Os sistemas automáticos de conversação, conhecidos normalmente como chat bots, estão a tornar-se cada vez mais populares e devem ser capazes de interpretar a linguagem humana para compreender e comunicar com os seres humanos. A deteção de intenções desempenha uma tarefa crucial para desenvolver conversas inteligentes nestes sistemas de conversa. As implementações existentes destes sistemas requerem muitos dados etiquetados e a sua aquisição pode ser dispendiosa e demorada. Esta tese visa avaliar representações de texto existentes, utilizando abordagens clássicas, tais como Word2Vec, GloVe e modelos de Transformer pré-treinados (BERT, RoBERTa, GPT2 e outros), para possível automatização de dados de diálogo não etiquetados através de algoritmos de agrupamento. Os algoritmos de agrupamento testados, vão desde o clássico K-Means até abordagens mais sofisticadas, tais como HDBSCAN, com a ajuda de técnicas de redução de dimensão (t-SNE, UMAP). Um conjunto de dados é utilizado para avaliação das técnicas utilizadas, que contêm diálogo de intents de utilizadores em múltiplos domínios e taxonomia de intents variada que se encontram no mesmo domínio. Os resultados mostram que os Transformers apresentam um desempenho de representação de texto superior às representações clássicas. No entanto, um modelo ensemble com múltiplos algoritmos de agrupamento e de múltiplas representações de fontes diferentes apresenta uma melhoria drástica na solução final. A aplicação do UMAP e t-SNE em dimensões mais baixas pode também apresentar um desempenho tão bom ou mesmo melhor do que as representações originais.
Dialog systems commonly called chat bots are increasingly more popular and must interpret spoken language to understand and communicate with humans. Intent detection plays a crucial task to develop smart and intelligent conversations in these conversational systems. Existing implementations require a lot of labeled data and acquiring it can be costly and time-consuming. This thesis aims to evaluate existing text representations, using classical approaches, such as Word2Vec, GloVe, and current state of the art pre-trained Transformer models (BERT, RoBERTa, GPT2, and more) for possible automation of unlabeled dialog data through clustering algorithms. The cluster algorithms tested, range from the classical K-Means to more sophisticated approaches such as HDBSCAN, with dimension reduction techniques (t-SNE, UMAP) as pre processing techniques. A dataset is used for evaluation that contains multiple user intents in many domains and varying intents taxonomy in the same domain. Results show that Transformers demonstrate superior text representation performance to classical representations. Nevertheless, ensemble clustering with multiple clustering algorithms and multiple representations from different sources shows massive improvement in the final clustering solution. Applying UMAP and t-SNE in lower dimensions may also perform as good or even better than the original clustering with the original embeddings.
URI: http://hdl.handle.net/10400.13/3559
Designação: Mestrado em Engenharia Informática
Aparece nas colecções:Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
AndreMoura_final_final.pdf7,63 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.