Steuerung solar gespeister Energiesysteme basierend auf Reinforcement Learning

Kontakt: Daniel John, M.Sc.

Photovoltaisch-thermische (PVT) Kollektoren stellen eine Erweiterung klassischer PV-Kollektoren dar. Diese PVT-Systeme können sowohl elektrische Energie als auch Niedertemperaturwärme auf verschiedenen Temperaturniveaus bereitstellen, abhängig von Umweltparametern wie der Sonneneinstrahlung und der Umgebungstemperatur. Bei Kopplung von PVT-Kollektoren mit einer Wärmepumpe können durch Variation der Durchflussrate sowohl die Gesamtdurchflussrate als auch das Temperaturniveau des Fluids verändert und an die Bedürfnisse einer Solewärmepumpe angepasst werden. Dadurch kann die Effizienz der Wärmepumpe gesteigert und die benötigte Wärmeenergie eines Gebäudes möglicherweise zu niedrigeren Betriebskosten bereitgestellt werden.

Da sowohl die Umweltparameter als auch die Bedarfscharakteristiken von Raumwärme, Brauchwarmwasser und Strom volatiler Natur sind, können klassische Ein-Aus-Regelungskonzepte der Durchflussrate von PVT-Systemen nicht explizit auf Schwankungen im Energieangebot und -bedarf reagieren. Gleichzeitig hat sich gezeigt, dass variable Durchflussraten einen Mehrwert für PVT-Systeme darstellen können. Um die Auswirkungen der Steuerung der Durchflussrate auf die volatilen Merkmale von Energieangebot und -nachfrage zu untersuchen, wird ein Ansatz des Reinforcement Learnings (RL) angewendet. Das Ziel dieses Ansatzes ist es, eine Regelungsentscheidung hinsichtlich einer vorteilhaften Durchflussrate in Abhängigkeit von messbaren Variablen (Beobachtungen) eines PVT-Wärmepumpen-Systems zu ermöglichen. Zu diesem Zweck wurde ein Modell entwickelt, das ein PVT-Wärmepumpen-System abbildet und Messgrößen des Systems an eine Steuereinheit (Agent) übergibt. In dieser Steuereinheit werden die Messgrößen verarbeitet und eine Entscheidung (Aktion) über eine einzustellende Durchflussrate für die PVT-Kollektoren getroffen. Infolge der Entscheidung über die Durchflussrate verändern sich die Betriebskosten sowie der Zustand des PVT-Wärmepumpen-Systems und es ist möglich, dieser Veränderung einen Wert zuzuordnen. Dieser Wert kann als Belohnung des PVT-Wärmepumpen-Systems für die gewählte Entscheidung in Abhängigkeit von Messgrößen verstanden werden.

Dieser beschriebene Steuerungsansatz wird als Reinforcement Learning (RL) verstanden. Die Messgrößen bzw. Beobachtungen sind Zustandswerte des PVT-Wärmepumpen-Systems und werden der Steuereinheit, in diesem Fall einem sogenannten Agenten, vorgegeben. Der Agent im RL-Ansatz verwendet ein künstliches neuronales Netz (KNN), um auf der Grundlage der Beobachtungen eine Aktion auszuwählen, in diesem Fall eine Durchflussrate durch das PVT-System. Das KNN entspricht der Strategie des Agenten und ist der Kern des RL-Ansatzes. Das Ziel des RL-Ansatzes ist es, den Agenten in die Lage zu versetzen, eine Aktion für das PVT-Wärmepumpen-System zu wählen, indem das KNN und damit die Strategie des Agenten trainiert wird.