Titolo del Progetto di Ricerca
|
Multi-agent deeP ReinfOrceMEnT learning witH applications to thE IndUStry4.0 automation scenarios (PROMETHEUS 4.0)
|
Idea progettuale
|
La comunità scientifica sta rivolgendo attenzione ai problemi dei sistemi su rete, in cui numerosi agenti operano congiuntamente per raggiungere obiettivi comuni nel rispetto di vincoli di risorse e comunicazioni limitate. Il vantaggio dell’utilizzo di sistemi multiagente consiste nella riduzione dei costi operativi, nell’aumento dell’efficienza, in una maggiore robustezza a guasti/disturbi/ritardi tramite la riconfigurazione della rete. La proposta è focalizzata sul progetto e sviluppo di metodologie di apprendimento mimetico profondo per consentire l’attuazione di decisioni in contesti applicativi dinamici, caratterizzati da elevata complessità e tali che l’imprevedibilità delle variabili in gioco impedisce di affrontare il problema del controllo facendo ricorso ad una modellistica definita. Il candidato si concentrerà sul Multiagent Reinforcement Learning (RL) con l’obiettivo di risolvere problemi emergenti nell’Industria 4.0 (allocazione dinamica della banda e bilanciamento dei carichi nelle TLC, sharing dinamico dello spettro tra accesso cellulare e satellitare nel 5G, decision making coordinato in ambito cyberphysical security, coordinazione di agenti robotici per la realizzazione di task complessi) con prestazioni elevate di throughput e minimizzazione della latenza. I risultati attesi sono pubblicazioni e attività di trasferimento tecnologico volti ad evidenziare i vantaggi conseguenti all’impiego della combinazione del controllo cooperativo multiagente con il Deep RL.
The scientific community devoting a great deal of attention to the problems of networked systems, in which numerous agents work together to achieve common objectives while respecting constraints on resources and limited communications. The advantage of using multi-agent systems consists in the reduction of operating costs, in the increase of efficiency, in a greater robustness to failures / disturbances / delays through the reconfiguration of the network. The proposal is focused on the design and development of deep mimetic learning methodologies to allow the implementation of decisions in dynamic application contexts, characterized by high complexity and such that the unpredictability of the variables involved prevents tackling the control problem by resorting to definite modeling. The candidate will focus on Multiagent Reinforcement Learning (RL) with the aim of solving emerging problems in Industry 4.0 (dynamic bandwidth allocation and load balancing in TLC, dynamic sharing of the spectrum between cellular and satellite access in 5G, coordinated decision making in cyberphysical security, coordination of robotic agents for the realization of complex tasks) with high throughput performance and minimization of latency. Expected results are publications and technology transfer activities aimed at highlighting the advantages resulting from the use of the combination of multi-agent cooperative control with Deep RL.
|
Campo principale di ricerca
|
PE7 Ingegneria dei sistemi e delle comunicazioni
PE7 Systems and communication engineering
|
Sottocampo di ricerca
|
PE7_1 Ingegneria dei sistemi di controllo
PE7_1 Control systems engineering
|
Dettagli dell’impegno di ricerca (obiettivi della produttività scientifica e relative caratteristiche qualitative)
|
Obiettivi di ricerca. 1. Modellizzazione dell’estensione al caso multiagente di algoritmi di Deep RL: e.g., il Double Deep Q-Learning che rispetto al Q-Learning classico calcola una stima migliore dell’action value function; 2. Individuazione di almeno due use case nell’ambito dell’Industria 4.0, rilevanti in termini di utilizzo di algoritmi di Multiagent Deep RL per il decision making coordinato; 3. Produzione di almeno due pubblicazioni su rivista e una proof-of-concept utile in termini di trasferimento tecnologico, tali da mettere in evidenza i benefici in termini di prestazioni e robustezza. Il raggiungimento dell’obiettivo 1 richiederà il confronto con la letteratura caratterizzata da contributi disseminati come (van Hasselt, Deep RL with double Q-Learning, 2016). Di questi, solo alcuni sono strutturati dal punto di vista della teoria del controllo (Wang, A Novel Approach to Feedback Control with Deep RL, 2018) e una trattazione univoca è data solo nel caso di singolo agente (François-Lavet, An Introduction to Deep RL, 2018). Si valuterà il comportamento dell’algoritmo in situazioni di agenti stocastici soggetti a ritardi sulle comunicazioni con i vicini e sulle misure (Zheng, Weighted Double Deep Multiagent RL in Stochastic Cooperative Environments, 2018). Il raggiungimento dell’obiettivo 2 richiederà il confronto con attori del contesto industriale in modo che l’obiettivo 3 sia raggiunto definendo chiaramente l’impatto in termini di business prodotto dal lavoro svolto.
Le attività di ricerca si svolgeranno presso il laboratorio “Control of Computing and Communication Systems Lab” (C3LAB) del Politecnico di Bari.
I risultati della ricerca saranno pubblicati in atti di conferenze internazionali e riviste internazionali quali quelle edite dall’IEEE, ACM, Elsevier.
Research objectives. 1. Modeling of the extension to the multiagent case of Deep RL algorithms: e.g., the Double Deep Q-Learning which compared to the classic Q-Learning calculates a better estimate of the action value function; 2. Identification of at least two use cases within Industry 4.0, relevant in terms of the use of Multiagent Deep RL algorithms for coordinated decision making; 3. Production of at least two journal publications and a proof-of-concept useful in terms of technology transfer, such as to highlight the benefits in terms of performance and robustness. The achievement of objective 1 will require comparison with the literature characterized by disseminated contributions such as (van Hasselt, Deep RL with double Q-Learning, 2016). Of these, only a few are structured from the point of view of control theory (Wang, A Novel Approach to Feedback Control with Deep RL, 2018) and a single discussion is given only in the case of a single agent (François-Lavet, An Introduction to Deep RL, 2018). The behavior of the algorithm will be assessed in situations of stochastic agents subject to delays in communication with neighbors and on measures (Zheng, Weighted Double Deep Multiagent RL in Stochastic Cooperative Environments, 2018). The achievement of objective 2 will require the comparison with actors of the industrial context so that objective 3 is achieved by clearly defining the impact in terms of business produced by the work done.
The research activities will take place in collaboration with the "Control of Computing and Communication Systems Lab" (C3LAB) of the Bari Polytechnic.
The research results will be published in proceedings of international conferences and international journals such as those edited by IEEE, ACM. Elsevier.
|
Dettagli dell'impegno didattico
|
Al ricercatore potranno essere assegnati compiti didattici fino ad un massimo di 6 CFU, nell’ambito di insegnamenti afferenti al SSD ING-INF/04
The researcher could be required to teach up to 6 CFU. Subjects will belong to SSD ING-INF/04
|
Attività didattica e di didattica integrativa
|
Il Ricercatore potrà svolgere attività didattica per le discipline afferenti al settore oggetto della selezione, relativamente ai corsi di studio triennale, magistrale e di dottorato.
The selected candidate may be involved in teaching activities on subjects related to the Electromagnetic Fields, in Undergraduate, Master of Science, and PhD courses in the framework of the Department course plan.
|
Competenze richieste
|
Il candidato deve aver svolto attività di ricerca nelle seguenti tematiche: modellistica, simulazione e prototipizzazione di sistemi di controllo distribuito in sistemi a rete complessi.
The candidate must have carried out research in the following topics: modeling, simulation and prototyping of distributed control systems in complex network systems.
|
Esperienze di ricerca richieste
|
Esperienza di ricerca qualificata post-dottorato.
Post-doctoral qualified research activities.
|
Lingua richiesta
|
Lingua: inglese
L’accertamento avverrà sulla base delle pubblicazioni scientifiche in lingua inglese. La Commissione potrà, eventualmente, accertare il grado di conoscenza della lingua inglese anche mediante colloquio in presenza.
Language: English
Evaluation will be conducted on the basis of the scientific publication written in English language. If necessary, the evaluation committee can assess the capability English knowledge level through an oral examination.
|
Numero massimo di pubblicazioni presentate dai candidati ai fini della valutazione
|
10 (dieci)
10 (ten)
|
Competenze informatiche richieste
|
Ottima conoscenza di linguaggi di programmazione (quali ad esempio C, C++, GO, Python) e di framework per l’orchestrazione di risorse distribuite su infrastrutture di rete di tipo cloud (quali Docker, Swarm, Kubernetes). Conoscenza di protocolli di comunicazione TCP/UDP. Conoscenza dei software Matlab Simulink, Matlab Stateflow. Ottima conoscenza di software di simulazione per sistemi a rete (come Ns-2, Ns-3, Omnet++) e di framework per l’emulazione di infrastrutture di rete. Conoscenza di sistemi operativi per il controllo in tempo-reale. Conoscenza di tecniche di sviluppo in Kernel space per lo sviluppo di algoritmi di controllo di rete.
Extensive knowledge of object programming languages (such as, f.i., C, C++, GO, Python) and distributed network infrastructures orchestration frameworks (such as Docker, Swarm, Kubernetes). Knowledge of TCP/UDP communication protocols. Knowledge of Matlab Simulink, Matlab Stateflow software. Extensive knowledge of simulation software for network systems (such as Ns-2, Ns-3, Omnet++), and frameworks for emulating network infrastructures. Knowledge of operating systems for real-time control. Knowledge of Kernel space development techniques for the implementation of network control algorithms.
|
Servizio agli studenti
|
Assistenza didattica, tesi di laurea, progetti
Teaching assistance, thesis and projects
|
Requisiti specifici di ammissione
|
Art. 2 del bando.
|
Diritti e doveri
|
Come previsto dalle vigenti disposizioni di legge in materia di stato giuridico dei ricercatori universitari a tempo indeterminato, per quanto compatibili, dal Contratto individuale di lavoro e dai vigenti Statuto e Codice di comportamento di questo Politecnico di Bari.
Il ricercatore è tenuto a svolgere la propria attività nel rispetto delle indicazioni contenute nell’Atto Unilaterale d’Obbligo per la realizzazione del Programma Regionale “Research for Innovation – REFIN” POR PUGLIA FESR-FSE 2014/2020 e, in particolare, nella scheda contenuta nell’Allegato 1 al predetto Atto, riferita alla presente procedura di reclutamento e disponibile sul portale www.poliba.it di questo Ateneo.
|