Una de las áreas que más interés está despertando actualmente entre los
investigadores y usuarios de sistemas de Recuperación de Información es la recuperación de
documentos que contengan imágenes relevantes a una necesidad de información. En este caso,
el principal objetivo no es la recuperación de los documentos relevantes a la necesidad de
información del usuario sino la obtención de las imágenes relevantes a dicha necesidad. En la
actualidad, las colecciones de documentos se pueden encontrar en diversos formatos (html, xml,
pdf, etc.). En este artículo presentamos un método eficaz para indexar una colección de
documentos en formato pdf para mejorar la recuperación de imágenes contenidas en los
documentos. Los experimentos realizados prueban que el método presentado obtiene mejores
resultados que si se realizara una indexación del texto completo.
One of the areas which is presently awakening more interest among researchers and
users of Information Retrieval systems is the retrieval of documents containing images which
are relevant to a need for information. In this case, the main objective is not the retrieval of the
documents relevant to the user’s need for information, but the achievement of the images
relevant to that need for information. At present, document collections can be found in a variety
of formats (html, xml, pdf, etc). In this paper we present an efficient method to index a
collection of documents in pdf format to improve the retrieval of images contained in
documents. The experiments we carried out prove that the method presented here achieves
better results than indexing the full text.