Ärztinnen und Ärzte in Führung: Besseres Prompting für den medizinischen Alltag

4 Juni, 2025 - 07:31
Prof. Dr. med. Sonja Güthoff, MBA
Prof. Dr. Sonja Güthoff
Prof. Dr. med. Sonja Güthoff, MBA ist Ärztin, Führungskräfte-Trainerin, Professorin für Health Care an der AKAD University sowie Stress- und Burnout-Coach.

Künstliche Intelligenz (KI) hält immer mehr Einzug in unseren Alltag und kann uns auch in der Klinik, Praxis oder Ambulanz unterstützen. Ein Baustein in vielen modernen Sprach-KI-Systemen sind Large Language Models (LLMs). Erfahren Sie in diesem Artikel, wie LLMs funktionieren und wie wir auch im medizinischen Kontext über bessere Nutzerfragen, dem sogenannten „Prompting“, präzisere und verlässlichere Ergebnisse erhalten können.

LLMs sind KI-Modelle wie GPT-4 von Open AI (in ChatGPT), Claude 3.5 Sonnet von Anthropic und Gemini von Google. Die Integration von LLMs wie z. B. GPT-4 im medizinischen Bereich stellt einen bedeutenden Fortschritt dar, der das Potenzial hat, die Gesundheitsversorgung in vielerlei Hinsicht zu verbessern, einschließlich Diagnostik, Patientenkommunikation und medizinische Ausbildung (Meng X et al. The application of large language models in medicine: A scoping review. iScience. 2024;27(5):109713). Diese KI-gestützten Systeme können klinische Arbeitsabläufe rationalisieren, bei der klinischen Entscheidungsfindung helfen und letztlich die Ergebnisse für die Patientinnen und Patienten verbessern (Aydin S et al. Large language models in patient education: a scoping review of applications in medicine. Front Med (Lausanne). 2024;11:1477898).

Ziel dieses Artikels ist es, zunächst grundlegende Kenntnisse über LLMs zu vermitteln und anschließend ein Prompting Framework vorzustellen, mit dem Ärztinnen und Ärzte in Führung im medizinischen Alltag präzisere, verlässlichere Ergebnisse aus einem LLM erzielen können.

Wie funktionieren Large Language Models?

LLMs sind KI-Systeme, die darauf trainiert wurden, aus riesigen Textmengen Sprachmuster abzuleiten und auf Basis dieser Muster neue Texte zu generieren – wichtig ist an dieser Stelle bereits zu wissen, dass LLMs keine Datenbanken sind, sondern im Kern eine „Wahrscheinlichkeits-Maschine“.

Ein LLM lernt, welches Wort statistisch am wahrscheinlichsten auf ein vorhergehendes Wort oder eine Wortsequenz folgt. Ähnlich wie die Autovervollständigung auf unserem Smartphone vergleicht das Modell dabei Milliarden von Textbeispielen. Während des Vortrainings werden die internen Parameter (Gewichte in Milliarden von Verbindungen) so angepasst, dass die Wahrscheinlichkeit, das korrekte nächste Wort vorherzusagen, maximiert wird. Dieses Vorgehen ermöglicht dem LLM, Wortfolgen zu bilden, die inhaltlich und grammatikalisch kohärent erscheinen.

26.05.2025, Psychiatrische Universitätsklinik zürich
Zürich
26.05.2025, Deutsche Rentenversicherung Bayern Süd - Klinik Höhenried gGmbH
Bernried am Starnberger See

Bevor ein LLM einen Text bearbeitet, zerlegt es Sätze in sogenannte Tokens. Ein Token kann ein vollständiges Wort, ein Wortteil oder sogar nur ein Satzzeichen sein. Beispiel: „Aneurysma“ könnte in „A“, „neur“, „ys“, „ma“ aufgeteilt werden. Diese Zerlegung hilft dem Modell, auch unbekannte oder zusammengesetzte Wörter zu verarbeiten, indem es Ähnlichkeiten zwischen Wortteilen erkennt.

Moderne LLMs basieren auf der Transformer-Architektur, deren zentrales Element das sogenannte Self-Attention-Verfahren ist. Bei Self-Attention bewertet jeder Token (Wort oder Wortteil) die Relevanz aller anderen Tokens im Satz. Beispiel: In „Die Ärztin verschrieb das neue Medikament, weil sie…“ erkennt Self-Attention, dass „sie“ sich auf „Ärztin“ bezieht, auch wenn dazwischen mehrere Wörter stehen. Auf diese Weise kann das Modell Kontextinformationen über weite Distanzen erfassen (z. B. Pronomen-Bezüge oder medizinische Fachtermini mit mehreren Komponenten).

Das LLM durchforstet zunächst öffentlich verfügbare Texte (z. B. Wikipedia, PubMed-Abstracts) und lernt allgemein, wie Sprache aufgebaut ist und welche Wortfolgen sinnvoll sind. Dieses Lernen erfolgt ohne spezielle medizinische Ausrichtung. Anschließend wird das Modell gezielt auf medizinische Fachtexte (z. B. PubMed-Artikel) „nachgeschliffen“, damit es medizinische Terminologie und Fachzusammenhänge sicher beherrscht. Auf diese Weise lernt das LLM, nicht nur allgemeines Alltagsdeutsch, sondern auch komplexe medizinische Formulierungen richtig zu verwenden. Dieses Fine-Tuning ist essentiell, damit das Modell in Klinik- und Forschungskontexten zuverlässig agiert (vergleiche auch Omiye J. A. et al. Large Language Models in Medicine: The Potentials and Pitfalls : A Narrative Review. Ann Intern Med. 2024;177(2):210-220).

Halluzinationen verstehen und vermeiden

Bei einer Nutzerfrage („Prompt“) zerlegt das LLM den Text wieder in Tokens, verarbeitet diese durch die trainierten Transformer-Schichten und berechnet Wahrscheinlichkeiten für mögliche Antworten. Anschließend generiert es Wort für Wort einen Antworttext, der statistisch am besten zu den gelernten Mustern passt. Für uns Ärztinnen und Ärzte ist es natürlich wichtig, dass die Aussagen, die von der KI getroffen werden, medizinisch korrekt sind und mit valider wissenschaftlicher Literatur belegt werden. Allerdings kommt es immer wieder zu sogenannten „Halluzination“ des LLMs.

In diesem Zusammenhang bedeutet eine Halluzination, dass ein Sprachmodell Aussagen generiert, die zwar grammatikalisch korrekt und oft fachsprachlich gut verpackt sind, aber inhaltlich nicht der Realität entsprechen. Es ist keine bewusste Lüge, sondern ein unbeabsichtigtes Erzeugen von unrichtigen Informationen. Auch wenn ein Modell beim Fine-Tuning mit verifizierten Texten (z. B. aus PubMed) „nachtrainiert“ wurde, kennt es nicht automatisch jeden einzelnen Fakt. Gerade wenn die Frage zu spezifisch oder zu neu ist, greift das Modell auf nahe liegende Formulierungen zurück, ohne sie wirklich zu belegen. Es „halluziniert“ dann, weil es versucht, die Aufgabe bestmöglich auf Basis des gelernten Sprachgebrauchs zu lösen. Im Gegensatz zu einer spezialisierten Datenbank hat ein LLM keine eingebaute Komponente, die Fakten gegenprüft. Es hat kein Modul, das etwa nachschaut, ob eine zitierte Studie wirklich existiert oder ob ein Wert klinisch validiert ist. Daher kann es vorkommen, dass ein Modell Autorennamen, Publikationsjahre oder PMID-Nummern erfindet, wenn es denkt, dass solche Angaben zu einer „glaubwürdigen“ Antwort gehören.

Daher muss man zum einen erwarten, dass Studienzitate, Artikel- oder Leitlinienangaben und auch sogenannte klinische Fakten falsch sein können. Zum anderen können Halluzinationen folgendermaßen reduziert werden:

  • Im Prompt explizite Quellenprüfung verlangen: Formulieren Sie den Prompt so, dass das Modell angehalten wird, namentlich nur solche Studien zu nennen, die auch wirklich existieren, und dass eine Faktenüberprüfung (Fact-Checking) durchgeführt werden muss. Ein Prompt könnte z. B. beinhalten „Verwende ausschließlich aktive PubMed-PMIDs, die nachweislich existieren. Überprüfe jeweils, ob der Artikel bzw. die Studie existiert und ob der Titel, die Autorinnen und Autoren und die Angaben zum Fachjournal richtig sind. Wenn eine Quelle unsicher ist, schreibe ‘Quelle muss verifiziert werden.’“
  • Nachträgliche eigenständige Verifikation: Unabhängig vom Prompt sollten Anwendende jede Referenz inklusiv der genannten Aussagen, die das Modell nennt, manuell z. B. in PubMed oder Google Scholar kontrollieren und nur die korrekten Einträge verwenden.
  • LLM-basierte Informations-/Recherche-Plattformen verwenden: Gerade, wenn Sie medizinisch-wissenschaftliche Literatur verwenden möchten, können Sie auf Anwendungen zurückgreifen, die auf LLMs aufsetzen wie z. B. Perplexity oder Consensus. Diese LLM-basierten Recherche-Plattformen sind für ihre verlässlichere Literaturverwendung bekannt, besonders, wenn Sie entsprechend gut prompten.

Merke:

Ein LLM ist keine Datenbank, sondern im Kern eine „Wahrscheinlichkeits-Maschine“, die durch ständiges Analysieren von Wortfolgen lernt, logische und fachlich korrekte Texte zu erzeugen.

Die Tokenisierung zerlegt Texte in kleinere Bausteine (Token), damit selbst unbekannte Begriffe verständlich bleiben.

Die Self-Attention im Transformer ermöglicht es, Kontext über Wortgrenzen hinweg zu erfassen (z. B. Pronomen-Bezüge, Fachbegriffs-Zusammensetzungen).

Durch Feinabstimmung auf medizinische Texte (z. B. PubMed) wird das LLM in die Lage versetzt, medizinisches Fachwissen wiederzugeben.

Halluzinationen eines LLM sind falsche oder erfundene Informationen, die entstehen, weil das Modell reine Wahrscheinlichkeitsrechnungen verwendet und keine aktive Faktenkontrolle besitzt. Daher müssen alle Aussagen und auch Referenzen manuell überprüft werden.

Vergleiche auch Omiye J. A. et al. Large Language Models in Medicine: The Potentials and Pitfalls : A Narrative Review. Ann Intern Med. 2024 Feb;177(2):210-220.

Besseres Prompting nach dem RISE Framework

Die Eingabe zur Nutzung eines LLM wird „Prompt“ genannt. Um das Potenzial eines LLMs optimal auszuschöpfen, bessere Ergebnisse zu erhalten und gleichzeitig Aufwand, Fehler und Frustration zu reduzieren, ist es ratsam, einen guten Prompt zu formulieren. Dazu haben sich Frameworks etabliert. Hier soll das sogenannte RISE Framework vorgestellt werden, das sich im ärztlichen Alltag bewährt hat. Denken Sie bitte auch daran, dass für alles, wo noch Datenlücken bestehen (wie zum Beispiel genderspezifische oder ethnologische Unterschiede bei Krankheitsbildern) ein Bias in den Trainingsdaten vorliegt (van Assen M. Implications of Bias in Artificial Intelligence: Considerations for Cardiovascular Imaging. Curr Atheroscler Rep. 2024; 26(4):91-102). Bitte ergänzen Sie daher diese Aspekte auch in Ihrem Prompt.

Das RISE Framework (Akronym für: Rolle, Intention, Stil, Erwartung) hilft, LLMs (z. B. GPT-4 in ChatGPT) gezielt einzusetzen, indem es vier zentrale Bausteine vorgibt. Für Ärztinnen und Ärzte in Führung erleichtert die RISE Struktur z. B. das Erstellen von Texten für SOPs oder Fortbildungsunterlagen. Im Folgenden werden die vier Komponenten erklärt, jeweils anhand eines Beispiels aus der Gefäßchirurgie.

1. Rolle

Frage: In welcher Funktion soll das Modell antworten?

  • Zweck: Die Rollenangabe versetzt das Modell in einen spezifischen „Expertisemodus“. Dadurch bezieht es alle relevanten Aspekte aus der Perspektive z. B. einer Leitenden Gefäßchirurgin ein.
  • Beispiel:
    „Du bist die Leitende Gefäßchirurgin eines zertifizierten Gefäßzentrums, der auch genderspezifische und ethnologische Unterschiede in der Medizin wichtig sind. Du koordinierst das Aortenteam und leitest die Schulung neuer Mitarbeitender (Operationspflege, Ärztinnen und Ärzte in Weiterbildung, Fachärztinnen und Fachärzte aus den Fachbereichen Gefäßchirurgie, Radiologie und Anästhesie) in der endovaskulären Versorgung von Typ-B-Aortendissektionen.“

2. Intention

Frage: Was genau soll das Modell liefern?

  • Zweck: Die Intention definiert die konkrete Aufgabe und stellt sicher, dass alle relevanten Punkte abgedeckt werden.
  • Beispiel:
    „Erstelle eine strukturierte Gliederung für eine PowerPoint-Präsentation, die neue Mitarbeitende in das endovaskuläre Management von Typ-B-Aortendissektionen einführt. Die Präsentation soll folgende Themen abdecken:
  1. Klassifikation und Indikationsstellung bei Typ-B-Dissektionen
  2. Präoperative Bildgebung (CT, TEE) und Risk Score
  3. … (entsprechend weiter ausformulieren)

3. Stil

Frage: In welcher Tonalität und Form soll geantwortet werden?

  • Zweck: Der Stil definiert, wie komplex oder didaktisch aufbereitet die Inhalte sein müssen. Für eine Schulung ist ein verständlich-präziser Ton erforderlich, der auch weniger erfahrene Teammitglieder abholt.
  • Beispiel:
    „Verfasse die Gliederung und Erläuterungen in einem didaktisch abgestimmten, sachlich-professionellen Stil, geeignet für eine Schulung im OP-Kontext. Verwende kurze, klare Bullet-Points, erkläre seltene Fachbegriffe in Klammern und halte den Ton so, dass auch Ärztinnen und Ärzte in Weiterbildung sowie OP-Pflegeteams ohne tiefgehende Vorerfahrung folgen können.“

23.05.2025, Tim Glagla "Der Chefarzt-Headhunter"
Braunschweig
23.05.2025, CuraMed Akutklinik Allgäu
Isny im Allgäu

4. Erwartung

Frage: In welchem Format, Umfang und mit welchen Zusatzangaben soll das Ergebnis erfolgen?

  • Zweck: Die Erwartungsdefinition steuert Form, Länge und Struktur. So entsteht eine fertige, direkt nutzbare Schulungs-PowerPoint mit Quellenverweisen.
  • Beispiel:

1. PowerPoint-Gliederung (7–9 Folien):

  • Folie 1: Titel, Schulungsziel, Verantwortliche Leitung
  • Folie 2: Klassifikation & OP-Indikation einer Typ-B-Dissektion
  • Folie 3 – 8:... (entsprechend ausformulieren)
  • Folie 9: Take-Home Messages (max. 5 Stichpunkte)

2. Erläuternder Begleittext (ca. 200 Wörter):

  • Kurzhinweise für den Vortrag: Was soll jeweils betont werden? Welche Bilder/Diagramme bieten sich an?

3.    Quellenangaben:

  • Am Ende jeder Folienbeschreibung: relevante AWMF-S2-Leitlinie Typ B Aortendissektion (Stand 2021) und geeignete PubMed-PMIDs. Verwende ausschließlich aktive PubMed-PMIDs, die nachweislich existieren. Überprüfe jeweils, ob der Artikel bzw. die Studie existiert und ob der Titel, die Autorinnen und Autoren und die Angaben zum Fachjournal richtig sind. Wenn eine Quelle unsicher ist, schreibe ‘Quelle muss verifiziert werden´.

Toolbox Führung:

Das RISE Framework kann eine gute Vorlage sein, um sich im (Arbeits-)Alltag von einem LLM unterstützen zu lassen. Dabei wird die Aufgabenstellung nach folgendem System formuliert:

  • Rolle: Die präzise Rollenbeschreibung („Leitende Gefäßchirurgin, Aortenteamkoordination“) stellt sicher, dass das Modell die Antworten präzise auf den richtigen Kontext ausrichtet.
  • Intention: Die klare Aufgabenstellung („PowerPoint-Gliederung für Schulung Typ-B-Dissektionen“) fokussiert auf das Ergebnis.
  • Stil: Der vorgegebene Stil gewährleistet die inhaltliche Tiefe und den Sprachstil der Antwort bzw. der Aufgabenbearbeitung („Ärztinnen und Ärzte in Weiterbildung sowie OP-Pflegeteam ohne tiefgehende Vorerfahrung“).
  • Erwartung: Durch die klare Vorgabe von Umfang, ggf. Inhaltsstichpunkten und Quellenanforderungen entsteht ein möglichst praxisnahes und valides Ergebnis.

Cave! Ein LLM stellt immer nur ein Hilfsmittel dar. Alle Inhalte und vor allem auch Quellenangaben müssen von den Fachpersonen überprüft und angepasst werden. Besonders wichtig ist auch, dass keine Patientendaten in LLMs eingegeben werden. Denn gemäß Artikel 9 der Europäischen Datenschutz-Grundverordnung (DSGVO) sind Patientendaten als „besondere Kategorie“ von personenbezogenen Daten besonders geschützt. Zudem muss mit der Klinik-IT oder der IT-beauftragten Person im ambulanten Bereich geklärt sein, welche KI-Systeme und somit auch LLMs (wie z. B. GPT-4 in ChatGPT) genutzt werden dürfen.

Wenn uns die Ausformulierung eines RISE Frameworks für spezifische Aufgabenstellungen zu lang erscheint, können wir auch einen kleinen Trick anwenden. Wir können dem LLM den Auftrag geben, nach kurzer Instruktion zum Kontext uns einen Prompt im Stile eines RISE Frameworks mit Rolle, Intention, Stil und Erwartung zu formulieren. Diesen können wir dann entsprechend anpassen oder auch weitere Anweisung geben, wie der Prompt vom LLM selbst angepasst werden soll, bis wir zufrieden sind. Danach geben wir den Auftrag, den Text als Prompt zu nutzen bzw. kopieren den von uns angepassten Text als Prompt in die Eingabemaske. Da das Prompten ein iterativer Prozess ist, kann das Ergebnis also durch wiederholte Durchgänge verbessert werden.

Tipp:

Wir können auch dem LLM den Auftrag geben, für uns einen Prompt z. B. im Stile eines RISE Frameworks zu erstellen. Dazu geben wir nur ein paar wenige Informationen zum Kontext und lassen dann das jeweilige Ergebnis spezifisch ggf. in mehreren Runden anpassen, bis wir zufrieden sind bzw. nur wenig selbst umschreiben brauchen.

Die Autorin:

Prof. Dr. med. Sonja Güthoff, MBA Prof. Dr. med. Sonja Güthoff, MBA ist Ärztin, Führungskräfte-Trainerin, Professorin für Gesundheitsmanagement, Medical Leadership und Digital Health an der AKAD Hochschule Stuttgart, Stress- und Burnout-Coach sowie unter anderem TÜV zertifizierte AI Trainerin. Auf ärztestellen.de gibt sie regelmäßig Tipps zu Führungs-Themen. Als Leiterin des Instituts für ein gesundes Arbeitsleben im Gesundheitswesen (INSTGAG) begleitet sie Ärztinnen und Ärzte, Pflegefachkräfte und andere Zusammenarbeitende im Gesundheitswesen dabei, sich und andere besser zu führen. Kontaktieren Sie Sonja Güthoff gerne unter info@sonjaguethoff.de.

Sie möchten mehr zur Möglichkeit erfahren, einen MBA im Bereich Medical Leadership zu absolvieren? An der AKAD Hochschule Stuttgart können Sie flexibel im Fernstudium den akkreditierten und staatlich anerkannten MBA Medical Leadership nur für Ärztinnen und Ärzte studieren.

Mehr Informationen gibt es auf www.akad.de. Bei Angabe des Rabatt-Codes AKADAERZTESTELLEN erhalten Sie zudem einen Rabatt von 20 Prozent auf die Studiengebühren.

Umfrage:

Welche Rolle spielt künstliche Intelligenz in Ihrem Alltag? Bitte nehmen Sie kurz an dieser vollständig anonymisierten Online-Umfrage: „Künstliche Intelligenz in der Medizin: Innovationen, Herausforderungen und Akzeptanz“ von Prof. Dr. Sonja Güthoff teil. Ziel ist es, unter Ärztinnen und Ärzten, Pflegefachpersonen, Medizinstudierenden und anderen Menschen aus dem Gesundheitswesen die Nutzung von KI, deren Umfang und die damit verbundene Akzeptanz zu eruieren.

Das könnte Sie auch interessieren: