Best Practices: LLM-Auswahl & Vorlagen-Design¶

Dieser Leitfaden basiert auf empirischen Tests von 69 LLMs auf 5 Inferenz-Knoten und deckt die Eignung fuer Planner-, Judge- und Experten-Rollen ab.

LLM-Auswahl fuer Pipeline-Rollen¶

Planner (Aufgabenzerlegung)¶

Der Planner muss strikt valides JSON ausgeben -- kein Prosa, keine Markdown-Fences, keine Denkbloecke. Das schliesst ueberraschend viele Modelle aus.

Stufe	Empfohlene Modelle	Latenz	Hinweise
Beste	`phi4:14b`	27-36s	Schnellster zuverlaessiger Planner. Konsistente JSON-Ausgabe.
Beste	`hermes3:8b`	16s	Ultra-schnell, gut fuer einfache Zerlegungen
Gut	`gpt-oss:20b`	38s	Zuverlaessig, breit verfuegbar
Gut	`devstral-small-2:24b`	45s	Stark bei code-bezogener Planung
Gut	`nemotron-cascade-2:30b`	~200s	Ausgezeichnete Qualitaet, aber langsam
Vermeiden	`qwen3.5:35b`	FAIL	Thinking-Modus erzeugt `<think>`-Bloecke statt JSON
Vermeiden	`deepseek-r1:32b`	Nur P	Chain-of-Thought stoert die JSON-Ausgabe
Vermeiden	`starcoder2:15b`	FAIL	Code-Completion-Modell ohne Instruction Following

Zentrale Erkenntnis: Modelle mit "Thinking"- oder "Reasoning"-Modi (qwen3.5, deepseek-r1) neigen dazu, ihre Ausgabe in <think>-Tags zu verpacken, was das JSON-Parsing bricht. Im Planner-Prompt den Thinking-Modus deaktivieren oder Nicht-Reasoning-Modelle verwenden.

Judge / Merger (Antwortsynthese & Bewertung)¶

Der Judge muss mehrere Experten-Antworten synthetisieren UND strukturierte Ausgabe liefern (Scores, Provenienz-Tags). Dafuer ist starkes Instruction Following erforderlich.

Stufe	Empfohlene Modelle	Latenz	Hinweise
Beste	`phi4:14b`	1,7-4,2s	Extrem schnelle Judge-Antworten
Beste	`qwen3-coder:30b`	1,7s	Schnelle, code-bewusste Synthese
Gut	`Qwen3-Coder-Next` (80B)	2,6s	Hoechste Qualitaet, aber gross
Gut	`devstral-small-2:24b`	2,5s	Gut fuer code-fokussierte Synthese
Gut	`glm-4.7-flash`	15s	Starke allgemeine Synthese
Vermeiden	`gpt-oss:20b` in der Pipeline	--	Funktioniert isoliert, wird aber von Ollama-TTL zwischen Experten-Aufrufen entladen
Vermeiden	`qwen3.5:35b`	FAIL	Selbes Thinking-Modus-Problem wie beim Planner

Kritischer Befund: gpt-oss:20b besteht isolierte Judge-Tests (4,7s, valides JSON), schlaegt aber in der MoE-Pipeline fehl, weil Ollama es zwischen den Experten-Inferenz-Aufrufen entlaedt. Loesung: Sticky Sessions oder einen dedizierten Judge-Knoten verwenden.

Experten-Modelle¶

Experten sind toleranter -- sie produzieren Freitext-Antworten, kein strukturiertes JSON. Nahezu jedes Instruction-Following-Modell funktioniert als Experte.

Domaene	Empfohlen	Begruendung
Code Review	`devstral-small-2:24b`	SWE-bench 68 %, code-fokussiert
Code-Generierung	`qwen3-coder:30b`	370 Sprachen, starkes Tool Calling
Reasoning	`deepseek-r1:32b`	Bestes Chain-of-Thought auf Consumer-GPUs
Sicherheitsanalyse	`devstral-small-2:24b`	CWEval-faehig, OWASP-Abdeckung
Recherche	`gemma4:31b`	Starkes Allgemeinwissen
Mathematik	`phi4:14b` + MCP-Tools	MCP uebernimmt die Berechnung, LLM extrahiert Parameter
Recht	`gpt-oss:20b`	Deutsches Rechtswissen, Gesetze-im-Internet-Tools

Vorlagen-Komposition¶

T1/T2-Stufen-Strategie¶

T1 (Primaer, bis 20B): Schnelle Ersteinschaetzung. Modelle mit Antwortzeiten unter 30 Sekunden. Verwende phi4:14b, hermes3:8b, gpt-oss:20b.
T2 (Fallback, ueber 20B): Tiefgehende Analyse. Wird nur aktiviert, wenn T1 CONFIDENCE: low meldet. Verwende devstral-small-2:24b, qwen3-coder:30b, deepseek-r1:32b.

Knotenzuweisung¶

Gepinnt (model@node): Fuer Produktiv-Vorlagen. Garantiert VRAM-Verfuegbarkeit.
Floating (model allein): Fuer elastische/niedrig priorisierte Workloads. Das System findet automatisch den besten verfuegbaren Knoten.

Regel: Planner und Judge auf schnelle Knoten (RTX) pinnen. T2-Experten floaten.

Dienst-Schalter¶

Jede Vorlage kann Pipeline-Komponenten deaktivieren:

Schalter	Standard	Wann deaktivieren
`enable_cache`	true	Testen, Debugging (frische Antworten benoetigt)
`enable_graphrag`	true	Datenschutzsensible Anfragen (keine Wissenspersistenz)
`enable_web_research`	true	Air-Gap-Umgebungen, geschwindigkeitskritische Aufgaben

Compliance-Badge¶

Vorlagen werden automatisch klassifiziert:

Local Only (gruen): Alle Modelle auf lokaler Infrastruktur
Mixed (gelb): Einige Modelle auf externen APIs
External (rot): Ueberwiegend externe APIs

Der CISO sieht auf einen Blick, ob Daten das Netzwerk verlassen.

System-Prompt-Engineering¶

Planner-Prompts¶

Empfohlen:

Explizit ausschliesslich JSON-Ausgabe verlangen
Gueltige Kategorien auflisten
Formatbeispiele bereitstellen
PRECISION_TOOLS-Block fuer MCP-Routing einbinden

Vermeiden:

Freitext-Erklaerungen erlauben
Thinking/Reasoning-Anweisungen verwenden
Markdown-Formatierung anfordern

Judge-Prompts¶

Empfohlen:

Anweisen, Code-Bloecke wortwortlich zu uebernehmen
Provenienz-Tags [REF:entity] verlangen
Verifizierungsschritte fordern
Angeben lassen, welcher Experte welche Erkenntnis beigesteuert hat

Vermeiden:

Zusammenfassung von Code erlauben
Sicherheitsbefunde ueberspringen lassen

Experten-Prompts¶

Empfohlen:

Die Domaenengrenze des Experten klar definieren
Strukturierte Ausgabe verlangen (CONFIDENCE, GAPS, REFERRAL)
Domaenenspezifische Methodik einbeziehen (OWASP fuer Sicherheit usw.)
Mit Sprachdurchsetzung abschliessen

Vermeiden:

Domaenen mischen (Sicherheitsexperte soll NICHT den Stil kommentieren)
Dem Experten erlauben abzulehnen ("Ich kann dabei nicht helfen")

CC-Profil-Best-Practices¶

Profiltyp	Tool-Modell	Thinking	Max Tokens	Einsatzzweck
Fast	`gemma4:31b`	aus	4.096	Schnelle Aenderungen, einfache Fragen
Balanced	`Qwen3-Coder-Next`	an	8.192 / 16K Reasoning	Tagesgeschaeft Entwicklung
Deep	`Qwen3-Coder-Next`	an	8.192 / 32K Reasoning	Architektur, Sicherheitsaudits

Wichtig: Die Einstellung tool_choice: required zwingt das Modell, stets Tools zu verwenden, wenn diese verfuegbar sind. Das ist entscheidend fuer die Claude-Code-Integration -- ohne diese Einstellung generiert das Modell moeglicherweise Prosa statt Datei-Edits auszufuehren.