Policy Optimization (PO) is a family of reinforcement learning algorithms that is particularly suited to real-world control tasks due to its ability of managing high-dimensional decision variables and noisy signals. This also makes PO one of the most pressing targets of safety concerns. Outside of simulation, the trial-and-error behavior typical of learning agents can have concrete, potentially catastrophic consequences. The design of reliable adaptive agents for real-world settings requires, first of all, a better theoretical understanding of the learning algorithms used to train them. In this dissertation, we highlight the potential and limitations of existing policy optimization techniques, with a special focus on policy gradient algorithms. We study theoretical properties of policy gradients that are relevant to safety. We establish novel guarantees of monotonic performance improvement and convergence. We also study the trade-offs that safety requirements inevitably engage with sample complexity and exploration. Besides improving the theoretical understanding of policy gradient methods, we design new algorithms with more desirable properties, and evaluate them on simulated continuous control tasks.

L'Ottimizzazione della Politica (OP) è una famiglia di algoritmi di apprendimento per rinforzo particolarmente adatti per problemi di controllo reali, grazie alla capacità di questi metodi di gestire variabili di controllo a molte dimensioni e segnali rumorosi. Per questo motivo, gli algoritmi OP sono particolarmente soggetti a questioni di sicurezza. In ambienti non simulati, procedendo naturalmente per tentativi ed errori, agenti artificiali che implementino questi algoritmi di apprendimento possono avere conseguenze concrete, financo catastrofiche. La progettazione di agenti adattivi affidabili per l'effettivo utilizzo richiede, innanzitutto, una più profonda comprensione degli algoritmi di apprendimento. In questa tesi, si evidenziano le potenzialità e i limiti delle tecniche di OP esistenti, concentrandosi in particolare sui metodi a gradiente. Si studiano, da un punto di vista teorico, le proprietà di questi algoritmi che possano essere rilevanti per questioni di sicurezza. Si stabiliscono nuove garanzie di convergenza e di miglioramento monotono delle prestazioni. Si studiano le complesse interazioni tra requisiti di sicurezza, quantità di dati richiesta, e capacità di esplorazione delle alternative. Oltre a migliorare la comprensione degli algoritmi di OP a gradiente, si producono nuovi algoritmi con le proprietà desiderate. Questi sono valutati empiricamente su tipici problemi di controllo continuo simulati.

Safe policy optimization

Papini, Matteo
2020/2021

Abstract

Policy Optimization (PO) is a family of reinforcement learning algorithms that is particularly suited to real-world control tasks due to its ability of managing high-dimensional decision variables and noisy signals. This also makes PO one of the most pressing targets of safety concerns. Outside of simulation, the trial-and-error behavior typical of learning agents can have concrete, potentially catastrophic consequences. The design of reliable adaptive agents for real-world settings requires, first of all, a better theoretical understanding of the learning algorithms used to train them. In this dissertation, we highlight the potential and limitations of existing policy optimization techniques, with a special focus on policy gradient algorithms. We study theoretical properties of policy gradients that are relevant to safety. We establish novel guarantees of monotonic performance improvement and convergence. We also study the trade-offs that safety requirements inevitably engage with sample complexity and exploration. Besides improving the theoretical understanding of policy gradient methods, we design new algorithms with more desirable properties, and evaluate them on simulated continuous control tasks.
PERNICI, BARBARA
GATTI, NICOLA
11-mar-2021
Safe policy optimization
L'Ottimizzazione della Politica (OP) è una famiglia di algoritmi di apprendimento per rinforzo particolarmente adatti per problemi di controllo reali, grazie alla capacità di questi metodi di gestire variabili di controllo a molte dimensioni e segnali rumorosi. Per questo motivo, gli algoritmi OP sono particolarmente soggetti a questioni di sicurezza. In ambienti non simulati, procedendo naturalmente per tentativi ed errori, agenti artificiali che implementino questi algoritmi di apprendimento possono avere conseguenze concrete, financo catastrofiche. La progettazione di agenti adattivi affidabili per l'effettivo utilizzo richiede, innanzitutto, una più profonda comprensione degli algoritmi di apprendimento. In questa tesi, si evidenziano le potenzialità e i limiti delle tecniche di OP esistenti, concentrandosi in particolare sui metodi a gradiente. Si studiano, da un punto di vista teorico, le proprietà di questi algoritmi che possano essere rilevanti per questioni di sicurezza. Si stabiliscono nuove garanzie di convergenza e di miglioramento monotono delle prestazioni. Si studiano le complesse interazioni tra requisiti di sicurezza, quantità di dati richiesta, e capacità di esplorazione delle alternative. Oltre a migliorare la comprensione degli algoritmi di OP a gradiente, si producono nuovi algoritmi con le proprietà desiderate. Questi sono valutati empiricamente su tipici problemi di controllo continuo simulati.
File allegati
File Dimensione Formato  
main.pdf

accessibile in internet per tutti

Dimensione 2.99 MB
Formato Adobe PDF
2.99 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/170196