Kybernetik Intelligent Agents- Action Selection Mohamed Oubbati Institut für Neuroinformatik Tel.: (+49) 731 / 50 24153 mohamed.oubbati@uni-ulm.de 26. 06. 2012
Intelligent Agents
Intelligent Agents Environment Agent Intelligent Agents continuously perform 4 functions: 1. Perception (sensory data + interpretation). 2. Reasoning. 3. Decision making. 4. Action selection to affect the environment in order to meet its design objectives.
Intelligent Agents Agent objective Environment - Perception - Reasoning -Decision Action selection
Intelligent Agents Agent objective Environment - Perception - Reasoning -Decision Action selection How should the agent select actions?
Intelligent Agents How should the agent select actions? One way is to use architectures from control theory.
Intelligent Agents How should the agent select actions? Sollwert + - e Regler System Sensor
Intelligent Agents How should the agent select actions? Sollwert + - e Agent (action selection) Environment Sensor
Intelligent Agents How should the agent select actions? We consider the following control architectures 1. ON-OFF 2. PID 3. MRAC (Model Reference Adaptive Control) 4. MPC (Model Predictive Control)
ON-OFF Regler
ON-OFF Regler Diese Art der Regelung wird nur für einfache Anwendungen eingesetzt. Beispiel 1
ON-OFF Regler Beispiel 2: Regelung der Temperature im Backofen Soll-Wert + - ON/OFF Aktuelle Temperatur Temperatur Sensor - Der Regler schaltet "Aus", wenn die Temperatur höher als der Soll-Wert ist. - Der Regler schaltet "Ein", wenn der Soll-Wert unterschritten wird.
PID Regler
PID Regler PID-Regler besteht aus folgenden Anteilen: - Proportionalen Anteil (P-Regler) - Integralen Anteil (I-Regler) - Differentialen Anteil (D-Regler)
PID Regler P-Regler Er bestimmt die Stellgröße u(t) durch Multiplikation der Regelabweichung e(t) mit einem Faktor Kp: V(t) + e(t) P-Regler u(t) System y(t) - u(t)= Kp e(t)
PID Regler P-Regler Er bestimmt die Stellgröße u(t) durch Multiplikation der Regelabweichung e(t) mit einem Faktor Kp: V(t) + e(t) P-Regler u(t) System y(t) - u(t)= Kp e(t) - reagiert nur auf aktuellen Wert der Regelabweichung e(t) berücksichtigt nur die Gegenwart. - je größer (kleiner) die Regelabweichung e(t), desto größer (kleiner) ist die Stellgröße u(t). - Getting closer to the desired value means that the control signal u(t) does practically nothing! eine bleibende Regelabweichung.
P-Regler Simulation V(t) + - e(t) P-Regler u(t) System && y + 10 y& + 5 = u y(t)
P-Regler Sollwert Kp=50
P-Regler Sollwert Kp=100
P-Regler Sollwert Kp=200
P-Regler Sollwert Kp=300
P-Regler P-Regler Zusammenfassung Die Regeldifferenz und die Ausregelzeit werden kleiner, wenn Kp größer gewählt wird. Aber dazu erhalt man eine stärkere Überschwingung!
P-Regler P-Regler einfach im Aufbau und damit relative preiswert. das Verhalten wird nur durch die Einstellung des Parameters Kp. Kp Kp bleibende Regeldifferenz Überschwingweite
I-Regler I-Regler Beim I-Regler (integrierender Regler) ist die Stellgröße u(t), abgesehen vom Anfangswert, proportional zum Zeitintegral der Regelabweichung e(t): V + e I-Regler u System y - u 1 ( t ) = e ( τ ) d τ k i t 0 alle zurückliegenden Werte der Regelabweichung e(t) werden integriert. berücksichtigt die Vergangenheit. Advantage If e(t) remains non-zero (even for small values) for a length of time, the control signal u(t) gets larger and larger as time goes on! keine bleibende Regelabweichung
I-Regler I-Regler Simulation V(t) + - e(t) I-Regler u(t) System && y + 10 y& + 5 = u y(t)
I-Regler Ki=0.8
I-Regler Ki=10
I-Regler Ki=30
I-Regler Ki=50
I-Regler I-Regler keine bleibende Regeldifferenz. I-Regler greift langsamer ein als P-Regler.
PI-Regler PI-Regler Die Kombination eines I-Reglers mit einem P-Regler führt zum PI-Regler. u 1 ( t ) = K + p e ( t ) e ( τ ) d τ k i t 0
PI-Regler PI-Regler Simulation V(t) + - e(t) PI-Regler u(t) System && y + 10 y& + 5 = u y(t)
PI-Regler PI-Regler Kp=60 Ki=30
PI-Regler Kp=60 Ki=30
PI-Regler Kp=100 Ki=90
PI-Regler PI-Regler - anfangs schneller als der I-Regler. - präziser als der P-Regler (keine bleibende Regeldifferenz) Einstellung von zwei Reglerparametern (Zeit Aufwand beim Tuning)
D-Regler D-Regler Der D-Regler (differentialer Regler) bestimmt den Stellwert aus der zeitlichen Ableitung der Regelabweichung. V + e D-Regler u System y - u ( t ) = K d de ( t ) dt -Der D-Regler reagiert auf der Änderung der Regelabweichung. - Die Änderung zeigt, wohin die Regelabweichung in der Zukunft gehen wird. berücksichtigt die Zukunft. - Je stärker die Änderung der Regelabweichung e(t), desto größer ist die Stellgröße u(t). Überschwingen wird minimiert.
PI-Regler D-Regler Simulation V(t) + - e(t) D-Regler u(t) System && y + 10 y& + 5 = u y(t)
D-Regler Sollwert Kd=50
D-Regler Sollwert Kd=50
D-Regler D-Regler greift sofort ein beim Auftreten einer Regeldifferenz. Das Überschwingen zu minimieren. - reagiert nicht auf eine konstante Regeldifferenz. - verstärkt Messrauschen.
PD-Regler PD-Regler Die Parallelschaltung eines D-Reglers und eines P-Reglers führt zum PD-Regler. u( t) = K e( t) + p K d de( t) dt
PI-Regler D-Regler Simulation V(t) + - e(t) PD-Regler u(t) System && y + 10 y& + 5 = u y(t)
PD-Regler Sollwert Kp=10 Kd=50
PD-Regler Sollwert Kp=100 Kd=60
PD-Regler PD-Regler sehr schneller Regler, und größere Regeldifferenz werden vermieden. bleibende Regeldifferenz tritt auf.
PID-Regler PID-Regler Der PID-Regler vereint die Verhaltensweisen der P-, I-, und D-Regler. u( t) 1 = K p e( t) + e( τ ) dτ + K i t 0 K d d dt e( t)
PI-Regler PID-Regler Simulation V(t) + - e(t) PID-Regler u(t) System && y + 10 y& + 5 = u y(t)
PID-Regler Sollwert Kp=300 Ki=150 Kd=80
PID-Regler PID-Regler - reagiert schnell - läßt keine bleibende Regeldifferenz zu - erlaubt keine großen Regelabweichungen Einstellung eines PID-Regler erfordert einen großen Zeitaufwand
PID-Regler Die Merkmale der elementaren PID-Regler
Model Reference Adaptive Control (MRAC)
MRAC desired output actual output reference model Regler Adjustment Mechanism System + - Das Modell-Referenz-Verfahren besteht aus dem Regler und einem Referenzmodell. Das Ziel ist dann, das dynamische Verhalten des Regelkreises in Übereinstimmung mit dem Referenzmodell zu bringen.
Model Predictive Control (MPC)
MPC desired output actual output Regler control inputs System System model Systemidentifikation Beim MPC wird zuerst ein Modell des Systems verwendet, um die zukünftigen Zustände des Systems zu berechnen (vorhersagen). Aufgrund dieser Prädiktion wird dann die geeignete Eingangssignale (control inputs) gewählt.