Contribució als mètodes d'obtenció i representació de vistes d'objectes reals per aplicacions interactives.

Author

Martín Rull, Enric X. (Enric Xavier)

Director

Martínez Velasco, Antonio-Benito

Date of defense

2006-09-05

ISBN

9788469055557

Legal Deposit

B.25528-2007



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Enginyeria de Sistemes, Automàtica i Informàtica Industrial

Abstract

En aquesta tesi s'han realitzat una sèrie d'experiments per tal de cercar, identificar, caracteritzar i comparar diversos mètodes d'obtenció de vistes d'objectes reals per aplicacions interactives de realitat augmentada, telepresència o altres que puguin idear-se en el futur. <br/>Durant el desenvolupament dels mètodes trobats, de naturalesa diversa, han sorgit dificultats que han fet aprofundir aquest treball en l'àmbit de la geometria de la síntesi de vistes, la reconstrucció de l'estructura tridimensional dels objectes, l'acceleració de certs algoritmes amb l'ajut del maquinari existent o la portabilitat de les dades a través de la xarxa.<br/>Concretament, s'han identificat tres mètodes que poden satisfer els requeriments plantejats. El primer, accés a vistes d'objectes comprimides en fitxers, es basa en l'organització de les dades presentada, la capacitat de compressió dels algoritmes i el suport del maquinari a la tasca de descompressió. El segon mètode, reconstrucció tridimensional i projecció emprant el coprocessador gràfic, aprofita les altes prestacions d'aquests últims, impulsats per les necessitats del mercat. El tercer, selecció d'un conjunt representatiu de vistes i interpolació entre elles, aprofita les propietats de la rectificació de tres vistes i l'exactitud de la interpolació de vistes si es disposa d'un mapa de disparitat prou dens. Aquesta necessitat ha connectat aquest mètode amb el segon, al que cal el model tridimensional reconstruït, ja que hi ha una equivalència entre les dues expressions de la informació.<br/> Per la comparació dels resultats dels mètodes estudiats, s'han seguit tres criteris: <br/>- El primer, òbviament, el de la qualitat de les vistes obtingudes de l'objecte. Ha calgut identificar les principals fonts d'error en els processos i cercar uns avaluadors d'aquest error. A més d'aquests numèrics se n'han cercat de subjectius ja que el destinatari de les vistes serà un ésser humà. <br/>- El temps d'obtenció d'una vista (important per la interactivitat), projectat a les plataformes tecnològiques existents o previsibles.<br/>- La mida de les dades necessàries per cadascun dels mètodes, que limitarà la portabilitat de la visualització dels objectes.<br/> Durant la realització d'aquesta tesi, s'han realitzat algunes contribucions, la majoria d'elles ja publicades, que es poden resumir en:<br/>- Disseny d'una metodologia per la representació d'objectes a partir de conjunts de vistes i mètodes de síntesi. En aquesta metodologia s'ha presentat un protocol per l'adquisició i ordenació de les dades, idees per la selecció del conjunt mínim de vistes, un criteri per gravar la mínima informació necessària, ajuts a l'obtenció de la informació tridimensional de l'escena necessària, i un algoritme ràpid i general de síntesi de vistes.<br/><br/>- Supressió de les restriccions geomètriques del mètode de síntesi per rectificació de tres vistes, permetent generalitzar la ubicació de la càmera virtual i optimitzar la distància del pla de reprojecció per maximitzar l'àrea de la vista interpolada.<br/>- Especificació de l'algoritme de síntesi de vistes pel mètode de rectificació de tres vistes, de forma que es pugui implementar amb processadors tipus DSP o conjunts d'instruccions específiques dels processadors CISC, per assolir les necessitats de les aplicacions interactives.<br/>- Presentació d'un mètode de refinament de models tridimensionals obtinguts per space carving mitjançant estereovisió. El mètode combina dues tècniques conegudes de visió per ordinador obtenint un millor resultat en la reconstrucció tridimensional.<br/>- Acceleració del mètode de reconstrucció tridimensional per projecció de vòxels amb la utilització de mapes de distància, estructures en arbre i el coprocessador gràfic present en els computadors personals. <br/> Els resultats obtinguts en la tesi s'han adaptat per aplicar-se a un projecte de simulació de situacions de conducció en carreteres amb realitat augmentada, desenvolupat per la UPC i la Universitat de Toronto i un segon de representació remota de vistes d'objectes arqueològics, desenvolupat per la UPC, la UB i un conjunt d'universitats estrangeres.


This work shows a set of experiments to identify, characterize and compare several methods for obtaining real object views in interactive applications such as augmented reality, telepresence or other future developments.<br/> While developing those methods, the problems found have induced a deeper study of view synthesis geometry, object three-dimensional structure, hardware process acceleration and data portability through the internet.<br/> Three methods have been found that meet the ends of this work. First, file-stored object-view access rests in data organization, compression- algorithm capabilities and hardware support to decompression. The second method, 3D object reconstruction and graphic coprocessor based projection, takes advantage of market driven GPU evolution. Finally, the representative view-set selection and interpolation method, uses the three-view-rectification properties and the precision of view interpolation when a dense-enough disparity map is available. This last requirement binds the second and third methods in the need of a good 3D object reconstruction, 3D models and disparity maps being two expressions for the same data. <br/> To compare the method results three criteria have been used: <br/>- Object view image quality. It has been necessary to identify the main source of errors on the processes and to find some evaluators for those errors. As the results of the process are images to be shown to humans, with those numerical evaluators a subjective evaluator has been used too. <br/>- Process time, important for the interactivity aim, calculated with current technology but projected to next foreseeable platforms. <br/>- Amount of data that must be recorded in each method, which will be a key point for portability. <br/>While developing this work, some contributions have been achieved and they can be summarized as:<br/>- Design of a methodology to represent any object view from a reduced set of views and synthesis methods. The methodology includes a protocol to acquire and organize data, ideas for a minimum view set selection, a criterion to record the minimum amount of data, improvements in obtaining the three-dimensional structure of the scene and a fast and general synthesis algorithm.<br/>- Suppression of some geometric restrictions in the three-view-rectification method, allowing a more general positioning for the virtual camera and a maximization of the virtual image area through the distance to the reprojection plane.<br/>- A complete specification for the modified three-view rectification and view interpolation method allowing its implementation with DSP or MMX instructions to achieve the requirements of interactive applications. <br/>- Presentation of a method to refine three-dimensional models obtained by space carving through stereovision. This method combines two well-known computer vision techniques to achieve a better result in 3D reconstruction.<br/> - Acceleration of the space carving 3D reconstruction method with the use of an octree voxel organization, projection to special distance maps and taking advantage of the GPU performance to speed-up the projection. <br/> Some of the results of this work will be used in the construction of an augmented reality driving simulator (UPC- University of Toronto) and the implementation of a remote viewer of archaeological objects (UPC - UB - other universities).

Keywords

processat d'imatge; arquitectura de computadors; hardware; infografia; Imatge i multimedia

Subjects

004 - Computer science and technology. Computing. Data processing

Documents

01EXmr01de01.pdf

10.25Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)