Automatically configuring parallelism for hybrid layouts
Visualitza/Obre
10.1007/978-3-030-30278-8_15
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/175616
Tipus de documentComunicació de congrés
Data publicació2019
EditorSpringer
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Projecte
Abstract
Distributed processing frameworks process data in parallel by dividing it into multiple partitions and each partition is processed in a separate task. The number of tasks is always created based on the total file size. However, this can lead to launch more tasks than needed in the case of hybrid layouts, because they help to read less data for certain operations (i.e., projection, selection). The over-provisioning of tasks may increase the job execution time and induce significant waste of computing resources. The latter due to the fact that each task introduces extra overhead (e.g., initialization, garbage collection, etc.).
To allow a more efficient use of resources and reduce the job execution time, we propose a cost-based approach that decides the number of tasks based on the data being read. The proposed cost-model can be utilized in a multi-objective approach to decide both the number of tasks and number of machines for execution.
CitacióMunir, R. [et al.]. Automatically configuring parallelism for hybrid layouts. A: Conference on Advances in Databases and Information Systems. "New Trends in Databases and Information Systems: ADBIS 2019 Short Papers, Workshops BBIGAP, QAUCA, SemBDM, SIMPDA, M2P, MADEISD, and Doctoral Consortium: Bled, Slovenia, September 8–11, 2019: proceedings". Berlín: Springer, 2019, p. 120-125.
ISBN978-3-030-30278-8
Versió de l'editorhttps://link.springer.com/chapter/10.1007/978-3-030-30278-8_15
Col·leccions
- inSSIDE - integrated Software, Service, Information and Data Engineering - Ponències/Comunicacions de congressos [332]
- IMP - Information Modeling and Processing - Ponències/Comunicacions de congressos [99]
- Departament d'Enginyeria de Serveis i Sistemes d'Informació - Ponències/Comunicacions de congressos [529]
- Doctorat Erasmus Mundus en Tecnologies de la Informació per a la Intel·ligència Empresarial - Ponències/Comunicacions de congressos [11]
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
main.pdf | 236,0Kb | Visualitza/Obre |