Publications

Detailed Information

일기자료 연구에서 토픽모델링 기법의 활용가능성 검토 : An Illustrative Application of Topic Modeling Method to a Farmers Diary

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

남춘호

Issue Date
2016
Publisher
서울대학교 비교문화연구소
Citation
비교문화연구, Vol.22 No.1, pp. 89-135
Keywords
diarydigitized texttopic modelingvalidityprior domain expertisebag of wordsdistant reading일기디지털텍스트토픽모델링타당도사전적 지식어휘자루멀리서 읽기
Abstract
최근 들어 각종 문헌자료들의 디지털화가 급속히 진행되고 있으며 일상생활사 자료로서의 의의가 새롭게 부각되어온 일기자료 역시 예외는 아니다. 그러나 디지털화된 텍스트자료들은 그 방대한 규모로 인하여 전통적인 텍스트분석방법으로는 소화해내기에 한계가 있다. 본 연구에서는 해당 분야에 대한 별다른 사전적 전문지식이 없이도 방대한 디지털 텍스트자료로부터 소수의 의미 있는 토픽을 추출해주는 알고리즘으로 알려진 토픽모델링 기법의 특징과 이론적 전제에 대해 살펴보고, 이를 농민일기 분석에 예시적으로 적용해보았다. 토픽모델링 기법을 적용하여 아포일기에서 추출된 토픽들은 해석가능성이나 외적 타당도 측면에서 유의미한 것으로 드러났다. 전통적 텍스트분석방법에 의한 연구결과와의 비교에서도 대체로 일맥상통하는 것으로 나타났으며, 더 나아가 기존연구에서는 간과하였던 새로운 토픽을 발견해낼 수도 있음을 보여주었다. 이런 연구결과에 기반하여 향후 일기자료 연구에 토픽모델링 기법이 본격적으로 활용되기 위해서는 검토해야 할 부분이 무엇인지 토픽모델링의 주요 특징으로 알려진 1) 연구

분야에 대한 사전적 지식을 요구하지 않는 점, 2) 멀리서 읽기, 3) 어휘자루 가정과 관계적 의미 전제를 중심으로 논의해 보았다.
Rapid digitization of text documents, including personal diaries, raised a new puzzle: how can researchers analyze large quantities of textual data efficiently and effectively? The author presents topic modeling as a promising solution to these challenges. The most distinctive feature of topic models is that they provide an automated procedure for coding the content of a corpus of texts into a set of substantively meaningful categories called topics. The author discussed the theoretical presumptions of the topic modeling technique. The author illustrated the strength of topic modeling methods as a means of analyzing large text corpora by applying them to a farmers diary (Appo diary). Topics extracted by topic modeling method are significant in terms of interpretability and external validity. Most of the results of topic modeling coincide with the results of traditional content analysis. In addition, topic modeling extracted a new topic, which the traditional content analysis had overlooked. Based on this findings, the author discussed the demands and limitations of the methods focusing on three major characteristics of topic modeling methods: Bag of words assumption, no need of a priori coding list (prior domain expertise), and distant reading.
ISSN
1226-0568
Language
Korean
URI
https://hdl.handle.net/10371/95582
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share