Bilişsel Robotlarda Yaşam Boyu Deneyimsel Öğrenme İle Hata Kotarma

thumbnail.default.alt
Tarih
2013-04-19
Yazarlar
Karapınar, Sertaç
Süreli Yayın başlığı
Süreli Yayın ISSN
Cilt Başlığı
Yayınevi
Fen Bilimleri Enstitüsü
Institute of Science and Technology
Özet
Bilişsel bir robot hedeflerini gerçekleştirebilmek için gerekli olan eylemler dizisini planlama ile üretebilir. Ancak robot, planda yer alan eylemleri yürütürken iç ve dış etkenlerden dolayı çeşitli hatalarla karşılaşabilir. Gürbüz görev yürütme; sürekli planlama, yürütme, gözlemleme, çıkarsama ve öğrenme süreçlerinin birbirleriyle entegre olarak çalışmasını gerektirir. Bu tez çalışmasında, eylem yürütme deneyimleri göz önüne alınarak görev yürütmede gürbüzlüğün nasıl sağlanabileceği araştırılmıştır. Hataları kotarmak için, bilişsel robotlar için bir gürbüz planlama sistemi önerilmiştir. Bu sistemde, görevlerin başarıyla yürütülebilmesi için planlama, yürütme, gözlemleme ve öğrenme süreçleri bir araya getirilmiştir. Sistemin ilk adımı, planlama ile üst seviyede bir plan üretmektir. Önerilen yaklaşımda ileri zincir yöntemli, zamansal bir planlayıcı olan TLPlan kullanılmıştır. Bu planlayıcı, tekli ve çoklu robot sistemlerinde hem süreli hem de anlık eylemler için plan üretebilmektedir. TLPlan; tanım kümesi bilgisini (operatorler, olgular vs.), mevcut ortam durumunu, verilen hedefleri ve gürbüz görev yürütme için gereken geçerli planları üretmek amacıyla öğrenilen hipotezleri kullanır. Verilen durum için geçerli bir plan üretildiğinde, bu plan içinde yer alan her bir eylemin sırasıyla yürütülebilmesi için robotun modelinde saklanır. Yürütme süreci robotun eyleyicilerini (actuator) ve ortam etkileyicilerini (effector) kontrol ederek eylemleri sırasıyla yürütür. Yürütme gözlemleme süreci güncellenen durumların ve olası hataların kontrol edilebilmesi için, plan yürütülürken sürekli olarak gözlenmesini sağlar. Eğer gözlenen durum beklenen bir durum değil ise, hata oluştuğuna karar verilir, yeniden planlama ve çıkarım mekanizmaları devreye sokulur. Hatanın farkedilmesiyle birlikte güncellenen ortam durumuna göre yeniden planlama yapılır ya da öğrenme süreci kullanılarak yeni hipotezler oluşturulur. Öğrenme süreci; robotun eylemler, eylemlerin parametreleri ve ortamda bu eylemler tarafından etkilenen varlıklar hakkında kazandığı tecrübelere dayanarak kendini ortama adapte etmesini sağlar. Bu süreç, her eylemin yürütülmesi sonucunda etkinleştirilerek hipotez üretilmesini sağlar. Böylece her eylem için başarılı ve başarısız olduğu durumlar ile ilgili hipotezler üretilerek, bu eylemlerin daha sonra tekrarlanmaları durumunda robotun deneyimlerinden faydalanması sağlanır. Ayrıca, hata sezildiğinde ve yeniden planlama yapmanın mümkün olmadığı durumlarda da alternatif planlar üretilebilmesi için yine öğrenme sürecinin çıktılarından faydalanılır. Problemin çözümü için kullanılan yaklaşım yaşam boyu deneyimsel öğrenmeye dayanmaktadır. Hem yürütme modelleri hem de hata durumları için hipotez üretmek amacıyla Tümevarımsal Mantıksal Programlama (Inductive Logic Programming) yöntemi kullanılmıştır. ILP hipotezleri yüklem mantığı bilgi gösterim dili ile temsil etmektedir. Böylece üretilen hipotezler çıkarsama ve planlama birimleri tarafından kolaylıkla kullanılabilmektedir. Ayrıca ILP ile bilgi birikimi (background knowledge) kullanılabileceğinden daha gelişmiş hipotezler üretilebilir. Kısmi olarak gözlemlenen dünya durumları bu kurallar ile kolaylıkla temsil edilebilir. ILP nin bütün bu avantaj- ları, nitelik tabanlı öğrenme yöntemlerine karşı üstünlük kurmasını sağlar. Öğrenme ile elde edilen deneyimler robotu gelecek kararlarında yönledirir. ILP nin başarımı hem nitelik tabanlı öğrenme yöntemleri ile karşılaştırılarak hem de Pioneer 3DX robot üzerinde kullanılarak analiz edilmiştir. Sonuçlar, hata durumları için üretilen hipotezlerin robotun gelecek görevlerinin güvenliğini sağladığını göstermiştir.
A cognitive robot should possess abilities to solve problems and plan to attain its goals, reason about dynamic cases and learn from experience as intelligent systems in nature. Problem solving and planning is crucial for achieving the given objectives. Automated planners are commonly used for finding a coarse of actions for a robot to achieve its goals. These planners usually take the domain information (initial/goal states and operators corresponding to real-world actions) to construct a plan. During the execution of actions in the constructed plan, a robot may face several types of failures some of which may be recovered by replanning. However, there may be gaps between the real-world representation of the domain and its symbolic counterpart. Especially when the real outcomes of actions are not completely represented, a planner may not be able to construct a valid plan in case of failures. Belief revision and reasoning tools are necessary to deal with these type of issues. Furthermore, the robot should be equipped with learning capabilities for the efficiency of its future decisions. The main focus of this research is developing a robust planning framework against real-world failures. We propose a continual planning, execution, monitoring and learning framework for cognitive robots. The framework combines five main processes, namely, Planning, Scene Interpretation, Execution, Execution Monitoring and Learning for robust execution of tasks. All these processes have access to the Knowledge Base (KB). KB maintains the domain knowledge, the world state and the goals (for the planning problem), the plan and the gained experience in terms of the generated hypotheses. These processes use sensor and motor interfaces to sense and act, respectively. The first step in the framework is constructing a high-level plan by planning. TLPlan, a forward chaining temporal planner is used in our proposed approach. This planner can construct plans of both TGP-style actions and instantaneous actions for both single and multirobot domains. The planner uses the domain knowledge (i.e., operators and facts), the current world state, the given goals and the hypotheses learned to generate a valid plan for robust execution. When a complete plan for a given state is found, it is maintained in KB so that Execution takes responsibility of taking each action in sequence. Execution process can control the actuators and the effectors of the robot. Execution Monitoring process continuously monitors the execution of the plan to check the updated states and detect failures if any. If the observed state does not include the intended outcome, a failure is assumed, and the corresponding replanning and reasoning methods are activated. Upon detecting failures, depending on the updated world state, either the planner is invoked to replan or new hypotheses are generated by Learning. Similar to human-level failure detection (Wolpert ve Ghahramani, 2000), our framework detects failures by confronting sensory predictor with the actual sensor inputs. For instance, the robot may fail during the execution of a pick up action due to several reasons. Scene Interpretation is responsible for updating the domain knowledge and the world state in KB, based on the gathered data from the environment using the sensors. After getting all sensory data, this process interprets the objects in the scene and their relations, and propositionalize these facts in KB. To detect and recognize objects in a scene (Sjoo ve diğ., 2011; Cubek ve Ertel, 2011; Hinterstoisser ve diğ., 2012), advanced 3D vision techniques are needed. Our ongoing work includes investigation of these techniques. We leave the details of these techniques out of the scope of this paper. For now, we assume that some observable properties of objects can be recognized but we also relax the assumption on full observability of these features. When the robot is interacting with known objects, it can use their predefined models (i.e., templates) and different physical/visual features. If the object models are not known in advance, we assume the robot can grab the object’s some of the observable visual features (e.g., key descriptors such as SIFT (Lowe, 2004) and Viewpoint Feature Histogram (Rusu ve diğ., 2010) or size) and store them for further reference. We investigate action execution failures and propose a method to derive hypotheses through learning. There are two types of hypotheses derived from execution monitoring. The first type corresponds to hypotheses on safe action types in different contexts, and the second one to hypotheses for failure cases. The former type of hypotheses are used to update the planning domain to guide future planning processes. Therefore, the robot gains experience on both correct execution types of actions and when executions fail. These hypotheses are framed by the observed features of the objects in interest and the relevant world states. Since the relevant facts in the domain are also represented in a hypothesis, both generalized and specialized conclusions can be made. Our approach is based on a lifelong experience-based learning process. We use Inductive Logic Programming as the learning method to frame hypotheses for both efficient execution types and failure situations. ILP learning provides first-order logical representations of the derived hypotheses that are useful for reasoning and planning processes. Furthermore, this approach can use background knowledge to represent more advanced rules. Partially specified world states can also be easily represented in these rules. All these advantages of ILP make this approach superior to the attribute-based learning approaches. Experience gained through incremental learning is used as a guide to the future decisions of the robot for robust execution. Failure situations of actions on specific contexts are represented by hypotheses that are, then, used to compute the costs. Adaptive cost computations for the failed actions make the overall system robust by blocking the selection of actions that may fail. The performance of the ILP process is analysed by setting up several experiment environments including real world and simulation experiments. The real world experiments are performed on a Pioneer 3DX robot. Hypotheses produced for the real world experiments by both the original and improved ILP are compared and discussed. In the simulation experiments, two different cases are considered. In the first case, random observations are generated for predefined hypotheses, and then, the performance of the learning system is analysed by dividing these observations into training and test sets. The results of ILP are compared to that of the attributed-based learners, ID3 and Bayes Network classifiers in the simulation experiments. In the second analysis, the powerful features of the ILP such as background knowledge usage are investigated. The results reveal that the ILP is better than attribute-based learners in several ways, and the hypotheses framed for failure cases are sound and ensure safety in future tasks of the robot.
Açıklama
Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2013
Thesis (M.Sc.) -- İstanbul Technical University, Institute of Science and Technology, 2013
Anahtar kelimeler
Yapay zeka, bilişsel öğrenme, robotik, robot sistemleri, Artificial intelligence, cognitive learning, robotics, robot systems
Alıntı