www.uni-potsdam.de/fileadmin/pr...
Please share, please circulate:
In my ERC project, we are recruiting new team members for the second phase.
Forwarding to networks, lists, and colleagues is very welcome.
www.uni-potsdam.de/fileadmin/pr...
Please share, please circulate:
In my ERC project, we are recruiting new team members for the second phase.
Forwarding to networks, lists, and colleagues is very welcome.
Das ist ein richtig wichtiger Punkt und wäre mein Auftrag an alle Ausbildner:innen hier nach innovativen Ansätzen zu suchen (und diese bestenfalls wissenschaftlich begleiten zu lassen).
Gerne! Das ist letztendlich auch der Tatsache geschuldet, dass es hier in Leipzig kein Praxissemester, sondern Blockpraktika gibt. Aber ich gebe hier voll und ganz recht: das ist schon sehr umfangreich und wird auch im Rahmen der neuen Ordnung verringert/vereinheitlicht.
Die Entwürfe stammen aus universitären Praktika, die sind umfangreicher als im Ref. 60-100 Seiten ist die Spannweite, die meisten bewegen sich eher an der Untergrenze. Im Mittel sind 30-50 % des Umfangs Ausführlicher Anhang (kopierte Schulbuchseiten, Tafelbilder, Arbeitsblätter, etc).
Benoten ist also genau nicht die Idee: Unsere Daten sprechen eher dafür, LLMs als frühes Screening zu nutzen (z. B. um Unklarheiten, Inkonsistenzen, fehlende Begründungen zu markieren). „Final decisions“ gehören in die Hände der Profession – u. a. auch mit Blick auf Regulierung.
Für Anfänger-Lehrende: LLM als Checkliste + Fragegenerator (Struktur, Passung, Klarheit).
Für Expert*innen: LLM als Second opinion und „Bias-Check“: Wo bin ich zu schnell? Was übersehe ich? Danach priorisiert der Mensch.
4. Dialog: Feedbackgespräch mit Student*in (Begründungen einfordern)
5. Revision: Plan überarbeiten + ggf. zweites LLM-Screening
Ein praktikabler Human(s!)-in-the-loop Ablauf (für Anfänger bis Expert*innen):
1. Input: Lesson Plan + Kontextinfos (Klasse, Ziele, Zeit, Voraussetzungen)
2. LLM-Screening: Stärken/Risiken + Fragen statt Urteile
3. Human Review: Mentor*in prüft Plausibilität, ergänzt Kontext
Hierbei würde ich KI zur QS nicht als „Benoter“ denken, sondern als Screening- & Reflexions-Assistenz am Anfang: Sie hilft, Risiken/Unklarheiten sichtbar zu machen und gute Rückfragen fürs Coaching zu generieren. Human judgement bleibt zentral.
Spannende Nachfrage. Ganz wichtig: Wir haben LLM benutzt, um die Qualität vorhandener Entwürfe zu analysieren, nicht, um Entwürfe zu generieren.
Gerne! Die Plattform schaue ich mir gerne einmal an. Danke für den Tipp.
Bitteschön, viel Spaß beim Lesen. Gerne Feedback.
Die Ergebnisse im Detail gibt’s direkt online im Paper, erschienen bei Computers and Education: AI : “How reliable are large language models in analyzing the quality of written lesson plans? A mixed-methods study from a teacher internship program” www.sciencedirect.com/science/arti...
Take-home: LLMs können Unterrichtsplanungen vorstrukturieren und Mentoring entlasten, aber professionelle Urteile über Qualität brauchen weiterhin menschliche Expertise, insbesondere bei Kontext und didaktischer Begründung.
Für Praktikumsprogramme: Standardisierte Rubrics + LLM können Feedback skalieren, aber nur mit Qualitätskontrolle: kurze Kalibrierung, Beispiele für “gute Antworten”, und klare Regel: LLM liefert Vorschläge, Mentor*innen entscheiden.
Einsetzbar mit klaren Prompts wie:
“Markiere 3 Stärken/3 Risiken im Plan bezogen auf Lernziele, Aufgaben, Diagnose, Differenzierung. Gib Rückfragen statt Urteile.”
So wird das Modell zum Reflexionsanstoß, nicht zur Bewertungsmaschine.
Empfehlung für die Lehrerbildung: LLM-Output als dritte Stimme im Triadengespräch nutzen (Studentin–Mentorin–Tool). Mentoring bleibt entscheidend: Mentor:in prüft, priorisiert, kontextualisiert.
Risiko: Das Tool klingt oft überzeugend, auch wenn es danebenliegt. Besonders kritisch wird’s bei kontextsensitiven Punkten der Unterrichtsplanung (z. B. Passung zur Lerngruppe, Plausibilität von Diagnosen, Konsequenz der Sequenzierung). Daher: nie ohne professionelles Gegenlesen.
Für z.B. Mentor:innen im Praktikum kann ein LLM hilfreich sein als
1. schneller Erstcheck (z. B. Zielklarheit, Aufgabenpassung),
2. Ideengeber für Nachfragen,
3. Strukturhilfe fürs Feedbackgespräch.
Es spart Zeit – wenn man es als Assistenz und nicht als Urteil nutzt.
Und hier die Ergebnisse im Detail: Wir haben LLM-Codings systematisch gegen einen Human-Expert-Standard geprüft. Ergebnis: je nach Dimension schwankende Übereinstimmung. Die Botschaft für Forschung & Praxis: LLM-Feedback ist eher “screening & prompting” als “final grading”.
Zur Studie: Wir prüfen, wie zuverlässig LLMs die Qualität schriftl Unterrichtsplanungen gegen einen Human-Expert-Standard codiert. Ergebnis:viel Potenzial fürs Screening & Feedback, aber nicht stabil genug für “Automatik-Bewertung”. Die Stude gibts hier: www.sciencedirect.com/science/arti... #BlueLZ
Ich wünsche der Bluesky Community frohe Weihnachten. Damit es nicht langweilig wird, präsentiere ich im nächsten Skeet unsere neueste Studie, in der wir untersucht haben, wie LLMs Ausbildner:innen+Studis bei der Analyse und Bewertung schriftlicher Unterrichtsentwürfe unterstützen können. #BlueLZ
Demokratiebildung als Querschnittsaufgabe der Lehrer:innenbildung
Dieser Band greift die Bedeutung der Professionalisierung von Lehrpersonen für die Demokratiebildung auf. Er präsentiert innovative Konzepte und Praxisformate zur Stärkung dieser Querschnittsaufgabe.
👉 www.wochenschau-verlag.de/Demokratiebi...
#Demokratiebildung #Demokratiepädagogik
Guter Punkt, ich glaube aber, dass wir nicht nur im Kontinuum zwischen mündlichen und schriftlichen Prüfungsformaten denken dürfen. Das Kontinuum ist größer und vor allem müssen wir an den Hochschulen über strukturelle Änderungen nachdenken: www.tandfonline.com/doi/full/10....
Angesichts des Frustrationspotenzials auf beiden Seiten müssten das besser heute als morgen geschehen. Aber es stimmt, Hochschullehre ist wahrlich kein Ort für schnelle Entscheidung und prüfungsbezogene Innovation.
Ich fühle hier mit, versuche aber mit einer (zugegebenermaßen) gewagten These zu antworten: Ich glaube nicht, dass LLM an dieser Stelle das Problem sind - es ist die klassische Hausarbeit, die in der Gegenwart und insbesondere in der Lehrer:innenbildung kein adäquates Prüfungsformat mehr ist.
Das wäre dann wirklich in aller Kürze, würde aber den differenzierten Ergebnissen des SMK wohl nicht gerecht. Dann ist man halt schnell bei Schlagzeilen wie „Großteil der Lehrer in Sachsen macht Überstunden“ (www.saechsische.de/politik/regi...) Schwierig.
Danke für die tolle Übersicht. Ich bin versucht, noch die Zeile „Ergebnisse (kurz)“ zu ergänzen, weil das natürlich bei jeder Aus- und Weiterbildungsgelegenheit die erste Nachfrage wäre - weiß aber auch, dass man dass nicht in einem Dreizeiler zusammenfassen kann. Grüße aus Leipzig!
We’re running a study now with preservice teachers. Early takeaways: participants rated the chats highly dialogic, moderately authentic, and the talk was roughly balanced between teacher and avatar. Paper is forthcoming