Automatické plánování, spouštění a monitoring výpočetních workflows na distribuovaných systémech

No Thumbnail Available
Date
ORCID
Mark
P
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Rutinní automatizované vykonávání složitých výpočetních procesů, tzv. workflows, se stalo naprosto klíčovým pro dosažení vysoké produktivity v různých oblastech vědy a výzkumu. Výpočetní workflows se v posledních několika letech staly důležitou abstrakcí mnoha reálných procesů a jevů, jako např. digitálních dvojčat, personalizované medicíny či na simulaci založené vědě obecně. Vykonání workflow lze vnímat jako orchestraci mnoha úloh s různými výpočetními požadavky a vzájemnými závislostmi. Vzhledem k výpočetní složitosti reálných workflows je jejich provádění možné pouze na výpočetních klastrech nebo v cloudu, kde hraje efektivní plánování a optimalizace provedení workflows klíčovou roli. Hlavním cílem této práce je umožnit automatizované a spolehlivé vykonání výpočetních workflows. Tyto workflows se často skládají z distribuovaných úloh, které jsou schopny běžet na několika výpočetních prostředcích najednou, dokonce umožňují toto množství měnit. Anglicky se tyto úlohy nazývají moldable tasks. Množství přiřazených prostředků ovlivňuje jak dobu vykonání workflow, tak i cenu výpočtu, ovšem ne stejnou měrou díky rozdílné výpočetní efektivitě. Proto tato práce zkoumá různé přístupy k plánování a optimalizaci vykonání workflows, převážně se zabývá optimalizačními technikami založenými na genetických algoritmech. Práce představuje tři optimalizační přístupy zkoumající dynamicky i staticky přidělované výpočetních zdroje. V procesu optimalizace hraje důležitou roli výkonnostní databáze, která je průběžně vytvářena a jejíž úlohou je uchovávat paralelní škálování prováděných úloh při různých vstupech. Řídkost a neúplnost výkonnostní databáze je řešena různými interpolačními metodami. Navrhované přístupy vykazují lepší využití výpočetních prostředků a umožňují prioritizaci různých optimalizačních kritérií, např. doby provádění workflow či ceny výpočtu. Finální implementace byla experimentálně ověřena na reálných workflows vykonávaných na klastrech v národním superpočítačovém centru IT4Innovations. Tato práce rovněž představuje návrh a implementaci komplexního systému pro automatické plánování, vykonávání a monitorování workflows na výpočetních klastrech. Systém rovněž disponuje dalšími funkcemi jako jsou účtování, reportování či odolnost vůči chybám. Tento systém, zvaný k-Dispatch, byl úspěšně komercializován v oblasti ultrazvukové neurostimulace a je nabízen společností Brainbox, Ltd.
Automated execution of computational workflows has become a critical issue in achieving high productivity in various research and development fields. Over the last few years, workflows have emerged as a significant abstraction of numerous real-world processes and phenomena, including digital twins, personalized medicine, and simulation-based science in general. Workflow execution can be viewed as an orchestration of multiple tasks with diverse computational requirements and interdependencies, determined by the workflow structure. Due to the complexity of workflows, execution can only be satisfied by remote computing clusters or clouds. As these resources are expensive, workflow scheduling plays a crucial role in the automation process. The primary objective of this thesis is to enable automated and reliable execution of computational workflows. Moldable tasks, defined within these workflows, permit execution across multiple computational resources. This affects both the workflow makespan and computational cost, but not equally due to varying computational efficiency. Consequently, the thesis investigates various approaches to workflow scheduling and execution optimization, focusing on methods based on genetic algorithms. Three optimization approaches-targeting both on-demand and static computational resource allocations-are examined and discussed. The optimization process is supported by a performance database, which is collected on-the-fly and maintains parallel scaling of executed tasks and diverse inputs. The sparsity and incompleteness of the performance database are addressed through different interpolation methods. The proposed approaches demonstrate better utilization of computing resources while allowing prioritization of various optimization criteria, such as workflow makespan and computational cost. The final implementation was experimentally validated using real workflows executed on high-performance computing clusters at the IT4Innovations national supercomputing center. Additionally, this thesis presents the design and development of a comprehensive system for automated workflow scheduling, execution offloading and monitoring, completed with features such as accounting, reporting, and fault tolerance. This system, named k-Dispatch, has been commercialized for the neuroscience market by Brainbox, Ltd.
Description
Citation
JAROŠ, M. Automatické plánování, spouštění a monitoring výpočetních workflows na distribuovaných systémech [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2023.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Výpočetní technika a informatika
Comittee
prof. Dr. Ing. Jan Černocký (předseda) prof. RNDr. Roman Barták, Ph.D. (člen) prof. Ing. Tomáš Kozubek, Ph.D. (člen) prof. Ing. Radomil Matoušek, Ph.D. (člen) doc. Mgr. Hana Rudová, Ph.D. (člen)
Date of acceptance
2023-10-19
Defence
Studentka přednesla cíle a výsledky, kterých v rámci řešení disertační práce dosáhla. V rozpravě studentka odpověděla na otázky komise a oponentů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 6. Komise se v závěru většinou členů usnesla, že studentka splnila podmínky pro udělení akademického titulu doktor. The student presented the goals and results, which he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 6. The committee has agreed by a majority that the student has fulfilled requirements for being awarded the academic title Ph.D.
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO