Experten-Vorlagen & Profile: Vollstaendiger Leitfaden¶

Dies ist der umfassende Leitfaden zum Vorlagen- und Profilsystem von MoE Sovereign. Er behandelt die drei Verarbeitungsmodi, das Design von Experten-Vorlagen, Claude-Code-Profile, die Integration interaktiver Chat-Oberflaechen und saemtliche verfuegbaren Stellschrauben.

1. Verarbeitungsmodi: Native vs. Reasoning vs. Orchestrated¶

Jede Anfrage an MoE Sovereign wird in einem von drei Modi verarbeitet. Der Modus wird durch das CC-Profil (fuer Claude Code) oder durch die als Modell gewaehlte Experten-Vorlage (fuer OpenAI-kompatible Agenten) festgelegt.

Native-Modus (`moe_mode: native`)¶

Ein einzelnes LLM bearbeitet die Anfrage direkt. Kein Planner, keine Experten, kein Merger.

Die Anfrage wird an einen einzigen Inferenz-Endpunkt weitergeleitet
Das LLM verarbeitet Tool Calls (Datei-Edits, Bash) nativ
Kein Pipeline-Overhead

Wann einsetzen: Schnelle Aenderungen, einfache Bugfixes, interaktives Coding, Autovervollstaendigung, triviale Fragen.

Wann vermeiden: Domainen-uebergreifende Synthese, Rechercheaufgaben, alles was Domaenen-Isolation oder Wissensakkumulation erfordert.

MoE-Reasoning-Modus (`moe_mode: moe_reasoning`)¶

Ein einzelnes LLM mit aktiviertem Thinking Node. Das Modell fuehrt eine Chain-of-Thought-Analyse durch, bevor es die Antwort generiert.

Gestreamte <think>-Bloecke zeigen den Denkprozess in Echtzeit
Die Denkspur ist im Thinking-Panel von Open WebUI und in der Claude-Code-Ausgabe sichtbar
Kein paralleles Experten-Routing -- ein Modell erledigt alles, aber mit strukturierter Deliberation

Wann einsetzen: Architekturentscheidungen, komplexes Debugging, Code-Reviews, bei denen der Denkprozess sichtbar sein soll.

Wann vermeiden: Einfache Aenderungen (Overkill), tiefgehende Recherchen (nicht genug Domaenenabdeckung).

MoE-Orchestrated-Modus (`moe_mode: moe_orchestrated`)¶

Die vollstaendige MoE-Pipeline wird aktiviert:

Planner-LLM zerlegt die Anfrage in 1-4 Teilaufgaben
Experten-LLMs bearbeiten Teilaufgaben parallel (domaenen-isoliert)
MCP Precision Tools uebernehmen deterministische Berechnungen (Mathematik, Regex, Subnetze usw.)
GraphRAG (Neo4j) injiziert akkumuliertes Wissen aus frueheren Anfragen
SearXNG-Webrecherche liefert aktuelle Informationen bei Bedarf
Merger/Judge-LLM synthetisiert alle Ergebnisse zu einer einheitlichen Antwort
Critic Node prueft sicherheitskritische Domaenen (Medizin, Recht) auf Fakten

Wann einsetzen: Sicherheitsaudits, Rechercheaufgaben, domaenen-uebergreifende Synthese, wissensgestuetzte Analysen -- ueberall wo Qualitaet wichtiger ist als Geschwindigkeit.

Wann vermeiden: Interaktives Coding, bei dem Antwortzeiten unter einer Sekunde erwartet werden.

Vergleichstabelle¶

Aspekt	Native	Reasoning	Orchestrated
Latenz	5-30s	30-120s	2-10 Min
Token-Kosten	1x	1,5x	3-5x
Ausgabequalitaet	Gut	Besser	Am besten
Wissensakkumulation	Nein	Nein	Ja (GraphRAG)
Domaenen-Routing	Nein	Nein	Ja (15 Kategorien)
MCP Precision Tools	Nein	Nein	Ja (23 Tools)
Kumulativer Effekt	Nein	Nein	Ja (9,3x Beschleunigung ueber Zeit)
Denkbloecke	Nein	Ja	Optional
Parallele Experten-Ausfuehrung	Nein	Nein	Ja
Critic / Faktencheck	Nein	Nein	Ja (Medizin, Recht)

Der kumulative Effekt

Im Orchestrated-Modus speichert GraphRAG Synthese-Ergebnisse als SYNTHESIS_INSIGHT-Relationen. Kuenftige Anfragen in derselben Domaene profitieren von diesem akkumulierten Wissen. Ueber 5 Epochen zeigen Benchmarks eine 9,3-fache Latenzreduktion bei gleichzeitiger Qualitaetssteigerung um 56 %. Siehe Claude Code Profile fuer die vollstaendigen Benchmark-Daten.

2. Design von Experten-Vorlagen¶

Eine Experten-Vorlage definiert die vollstaendige Konfiguration fuer einen orchestrierten MoE-Pipeline-Durchlauf: welche LLMs zum Einsatz kommen, wie Aufgaben zerlegt werden, welche Tools aktiviert sind und wie Ergebnisse synthetisiert werden.

Vorlagenstruktur¶

{
  "id": "tmpl-xxxxx",
  "name": "template-name",
  "description": "Menschenlesbare Beschreibung des Vorlagenzwecks",
  "planner_prompt": "MoE orchestrator. Decompose the request into 1-4 subtasks...",
  "planner_model": "phi4:14b@N07-GT",
  "judge_prompt": "Synthesize all inputs into one complete response...",
  "judge_model": "phi4:14b@N04-RTX",
  "experts": {
    "code_reviewer": {
      "system_prompt": "Senior SWE: correctness, security (OWASP Top 10)...",
      "models": [
        {"model": "gpt-oss:20b", "endpoint": "N09-M60", "role": "primary"},
        {"model": "devstral-small-2:24b", "endpoint": "N04-RTX", "role": "fallback"}
      ]
    },
    "technical_support": {
      "system_prompt": "Senior IT/DevOps. Immediately executable solutions...",
      "models": [
        {"model": "phi4:14b", "endpoint": "N07-GT", "role": "primary"},
        {"model": "qwen3:32b", "endpoint": "N04-RTX", "role": "fallback"}
      ]
    }
  },
  "enable_cache": true,
  "enable_graphrag": true,
  "enable_web_research": true,
  "cost_factor": 1.0
}

Feldreferenz¶

Feld	Typ	Beschreibung
`id`	string	Automatisch generierte eindeutige Vorlagen-ID (`tmpl-xxxxxxxx`)
`name`	string	Menschenlesbarer Name, erscheint in `/v1/models`
`description`	string	Wird in der Admin-UI und in Modelllisten angezeigt
`planner_prompt`	string	System-Prompt fuer das Planner-LLM
`planner_model`	string	Modell und optionaler Knoten fuer die Planung (`model@node` oder `model`)
`judge_prompt`	string	System-Prompt fuer das Judge/Merger-LLM
`judge_model`	string	Modell und optionaler Knoten fuer die Synthese
`experts`	object	Zuordnung von Kategoriename zu Experten-Konfiguration
`experts.*.system_prompt`	string	Domaenenspezifischer System-Prompt fuer den Experten
`experts.*.models`	array	Geordnete Liste von Modellzuweisungen (primary, fallback)
`enable_cache`	bool	L1/L2-Antwort- und Plan-Caching aktivieren
`enable_graphrag`	bool	Neo4j-Wissensgraph-Anreicherung aktivieren
`enable_web_research`	bool	SearXNG-Websuche fuer aktuelle Informationen aktivieren
`cost_factor`	float	Multiplikator fuer die Token-Budget-Abrechnung

T1/T2-Stufen-Strategie¶

Jeder Experte in einer Vorlage kann zwei Modell-Stufen haben:

T1 (Primaer): Schnelle Modelle an oder unter der Stufengrenze (Standard: 20 Milliarden Parameter). Diese antworten in unter 30 Sekunden und bearbeiten den Grossteil der Anfragen.
T2 (Fallback): Groessere, leistungsfaehigere Modelle oberhalb von 20B. Werden nur aktiviert, wenn das T1-Modell CONFIDENCE: low (unter Schwellenwert 0,65) meldet.

Die Stufengrenze ist konfigurierbar ueber EXPERT_TIER_BOUNDARY_B (in Milliarden Parametern). Der Standardwert von 20B bedeutet:

Modelle wie phi4:14b, hermes3:8b, gpt-oss:20b sind T1
Modelle wie devstral-small-2:24b, qwen3-coder:30b, deepseek-r1:32b sind T2

Designprinzip: T1 bearbeitet ca. 80 % der Anfragen schnell. T2 wird nur bei Bedarf an Tiefe aktiviert -- das haelt die durchschnittliche Latenz niedrig bei gleichzeitig hoher Qualitaet fuer schwierige Probleme.

Gepinnte vs. Floating-Zuweisung¶

Modelle koennen auf zwei Arten zugewiesen werden:

Gepinnt (model@node):

{"model": "phi4:14b", "endpoint": "N07-GT", "role": "primary"}

Das Modell laeuft immer auf dem angegebenen GPU-Knoten. Das garantiert VRAM-Verfuegbarkeit und eliminiert Cold-Start-Latenz (das Modell bleibt geladen). Gepinnte Zuweisungen eignen sich fuer Produktiv-Vorlagen mit vorhersagbarer Performance.

Floating (model allein):

{"model": "devstral-small-2:24b", "role": "fallback"}

Das System waehlt automatisch den besten verfuegbaren Knoten mit ausreichend VRAM. Das bietet Elastizitaet -- das Modell kann auf dem jeweils am wenigsten ausgelasteten Knoten laufen. Floating-Zuweisungen eignen sich fuer T2-Fallback-Modelle und Workloads mit niedriger Prioritaet.

Faustregel: Planner und Judge auf schnelle Knoten pinnen (RTX-Klasse-GPUs). T2-Experten-Modelle floaten lassen fuer Elastizitaet.

Leitfaden zur LLM-Auswahl¶

Basierend auf empirischen Tests von 69 LLMs auf 5 Inferenz-Knoten:

Beste Planner-Modelle¶

Modell	Latenz	Begruendung
`phi4:14b`	27-37s	Zuverlaessigste JSON-Ausgabe. Konsistent und schnell.
`hermes3:8b`	16s	Ultra-schnell fuer einfache Zerlegungen
`gpt-oss:20b`	38s	Zuverlaessig, breit verfuegbar
`devstral-small-2:24b`	45s	Stark bei code-bezogener Planung

Beste Judge/Merger-Modelle¶

Modell	Latenz	Begruendung
`phi4:14b`	1,7-4,2s	Extrem schnelle Synthese
`qwen3-coder:30b`	1,7s	Schnell, code-bewusst, starkes Instruction Following
`Qwen3-Coder-Next` (80B)	2,6s	Hoechste Qualitaet, benoetigt aber viel VRAM
`devstral-small-2:24b`	2,5s	Gut fuer code-fokussierte Synthese

Modelle, die in Pipeline-Rollen vermieden werden sollten¶

Modell	Problem
`qwen3.5:35b`	Thinking-Modus erzeugt `<think>`-Bloecke statt JSON -- bricht Planner- und Judge-Parsing
`deepseek-r1:32b`	Chain-of-Thought stoert die JSON-Ausgabe -- nur als Experte verwendbar
`starcoder2:15b`	Code-Completion-Modell ohne Instruction-Following-Faehigkeit
`gpt-oss:20b` (als Judge)	Besteht isolierte Tests, wird aber von Ollama-TTL zwischen Experten-Aufrufen entladen

Thinking-Modelle brechen JSON

Modelle mit "Thinking"- oder "Reasoning"-Modi (qwen3.5, deepseek-r1) neigen dazu, ihre Ausgabe in <think>-Tags zu verpacken, was das JSON-Parsing der Planner- und Judge-Rollen bricht. Entweder Nicht-Reasoning-Modelle fuer diese Rollen verwenden oder Thinking explizit im System-Prompt deaktivieren.

Best Practices fuer System-Prompts¶

Planner-Prompts¶

Empfohlen:

Explizit ausschliesslich JSON-Ausgabe verlangen
Alle gueltigen Kategorien im Prompt auflisten
Ein Formatbeispiel mit dem exakten JSON-Schema bereitstellen
Den PRECISION_TOOLS-Block fuer MCP-Routing einbinden

Vermeiden:

Freitext-Erklaerungen neben JSON erlauben
Thinking/Reasoning-Anweisungen verwenden
Markdown-Formatierung anfordern

Judge/Merger-Prompts¶

Empfohlen:

Anweisen, Code-Bloecke wortwortlich zu uebernehmen
Provenienz-Tags ([REF:entity]) verlangen, die angeben, welcher Experte welche Erkenntnis beigesteuert hat
Verifizierungsschritte fuer numerische Werte fordern
Explizite Prioritaet definieren: MCP > Graph > Experten mit hoher Konfidenz > Web > mittel > niedrig/Cache

Vermeiden:

Zusammenfassung von Code-Bloecken erlauben
Sicherheitsbefunde ueberspringen lassen

Experten-Prompts¶

Empfohlen:

Die Domaenengrenze des Experten klar definieren
Strukturierte Ausgabe-Marker verlangen: CONFIDENCE, GAPS, REFERRAL
Domaenenspezifische Methodik einbeziehen (OWASP fuer Sicherheit, S3/AWMF fuer Medizin usw.)
Mit Sprachdurchsetzung abschliessen

Vermeiden:

Domaenen mischen (ein Sicherheitsexperte soll nicht den Code-Stil kommentieren)
Dem Experten erlauben, mit "Ich kann dabei nicht helfen" abzulehnen

Dienst-Schalter¶

Jede Vorlage kann Pipeline-Komponenten einzeln aktivieren oder deaktivieren:

Schalter	Standard	Auswirkung bei Deaktivierung
`enable_cache`	`true`	Jede Anfrage durchlaeuft die vollstaendige Pipeline -- keine Cache-Treffer. Nuetzlich zum Testen oder wenn frische Antworten erforderlich sind.
`enable_graphrag`	`true`	Keine Wissensgraph-Anreicherung. Fruehere Synthese-Ergebnisse werden nicht injiziert. Fuer datenschutzsensible Anfragen ohne Wissenspersistenz.
`enable_web_research`	`true`	Keine SearXNG-Websuche. Antworten stuetzen sich ausschliesslich auf Modellwissen und GraphRAG. Fuer Air-Gap-Umgebungen oder geschwindigkeitskritische Aufgaben.

Compliance-Badges¶

Vorlagen werden automatisch nach dem Ausfuehrungsort ihrer Modelle klassifiziert:

Badge	Bedeutung
Local Only (gruen)	Alle Modelle laufen auf lokaler Infrastruktur. Keine Daten verlassen das Netzwerk.
Mixed (gelb)	Einige Modelle nutzen externe APIs. Daten koennen fuer diese Aufrufe das Netzwerk verlassen.
External (rot)	Ueberwiegend externe API-Modelle. Die meisten Daten verlassen das Netzwerk.

Das Compliance-Badge ist in der Admin-UI sichtbar und hilft CISOs, die Datenresidenz auf einen Blick einzuschaetzen.

3. Claude Code Profile¶

Claude-Code-Profile (CC-Profile) steuern, wie MoE Sovereign Anfragen von Claude Code CLI, der VS-Code-Extension und anderen Anthropic-API-Clients verarbeitet. Jedes Profil bildet auf einen bestimmten Verarbeitungsmodus ab.

Profilfelder¶

Feld	Beschreibung	Beispiel
`name`	Anzeigename in Clients	`cc-ref-native`
`moe_mode`	Verarbeitungsmodus	`native`, `moe_reasoning`, `moe_orchestrated`
`tool_model`	LLM fuer Tool-Ausfuehrung	`gemma4:31b`
`tool_endpoint`	Inferenz-Server-Knoten	`N04-RTX`
`expert_template_id`	Experten-Vorlage fuer Orchestrated-Modus	`tmpl-d2300eb6`
`tool_max_tokens`	Max. Ausgabe-Tokens fuer Tool Calls	`4096`
`reasoning_max_tokens`	Max. Tokens fuer Denkbloecke	`16384`
`tool_choice`	Tool-Auswahlverhalten	`auto`, `required`, `any`
`stream_think`	Ob Denkbloecke gestreamt werden	`true` / `false`

Drei Referenzprofil-Familien¶

Referenzprofile (Basis)¶

Profil	Modus	Latenz	Einsatzzweck
`cc-ref-native`	`native`	5-30s	Schnelle Aenderungen, einfache Fixes, interaktives Coding
`cc-ref-reasoning`	`moe_reasoning`	30-120s	Architekturentscheidungen, komplexes Debugging
`cc-ref-orchestrated`	`moe_orchestrated`	2-10 Min	Tiefgehende Recherche, Sicherheitsaudits, domaenen-uebergreifende Synthese

Referenzprofile verwenden konservative Einstellungen und eignen sich fuer die meisten Anwender direkt nach der Installation.

Innovator-Profile (Power User)¶

Alle drei Innovator-Profile nutzen den moe_orchestrated-Modus mit dedizierten Experten-Vorlagen, die auf unterschiedliche Qualitaets-/Geschwindigkeits- Kompromisse abgestimmt sind:

Profil	Tool-Modell	Thinking	Max Tokens	Ziel-Latenz
`cc-innovator-fast`	`gemma4:31b`	Aus	4.096	30-90s
`cc-innovator-balanced`	`Qwen3-Coder-Next`	An	8.192 / 16K Reasoning	2-5 Min
`cc-innovator-deep`	`Qwen3-Coder-Next`	An	8.192 / 32K Reasoning	5-15 Min

Wesentliche Unterschiede:

Fast nutzt tool_choice: required mit leichtgewichtigen Modellen und stream_think: false fuer minimalen Overhead. Ideal fuer schnelle Iterationszyklen.
Balanced aktiviert Denkbloecke und eskaliert ueber T2-Fallback zu Domaenen-Spezialistenmodellen. Guter Standard fuer den Alltagsbetrieb.
Deep setzt die groessten verfuegbaren Modelle ein, inklusive einer Security-Analyst-Expertenkategorie und einem assertiven System-Prompt, der vollstaendigen, produktionsreifen Code verlangt. Ideal fuer Sicherheitsaudits und Architektur-Reviews.

Benutzerdefinierte Profile erstellen¶

In der Admin-UI zu CC Profile navigieren
Create Profile klicken
Die Profilfelder ausfuellen (siehe Tabelle oben)
Eine Experten-Vorlage fuer den Orchestrated-Modus zuweisen
Profil speichern

Benutzer koennen auch persoenliche Profile im User Portal unter My Templates > CC Profiles erstellen. Persoenliche Profile ueberschreiben administrativ zugewiesene Profile.

Profile an API-Keys binden¶

Admin-UI > Users > Benutzer auswaehlen > API Keys
Im CC Profile-Dropdown den Ziel-Key auswaehlen
Alle mit diesem Key getaetigten Anfragen nutzen nun das gebundene Profil

So kann ein einzelner Benutzer mehrere API-Keys besitzen, jeden an ein anderes Profil gebunden, und zwischen Workflows durch Wechsel des exportierten Keys umschalten.

5-Epochen-Benchmark-Ergebnisse¶

Ein kontrollierter Benchmark ueber 5 aufeinanderfolgende Durchlaeufe misst den kumulativen Effekt der MoE-Wissens-Pipeline:

Epoche	Durchschn. Score	Durchschn. Latenz	Latenz vs. Epoche 1
1	5,2 / 10	280s	Baseline
2	6,4 / 10	125s	0,45x
3	7,1 / 10	72s	0,26x
4	7,8 / 10	45s	0,16x
5	8,1 / 10	30s	0,11x

Ab Epoche 5 liefert das System 9,3-mal schnellere Antworten als in Epoche 1 bei gleichzeitiger Qualitaetssteigerung um 56 %. Drei Mechanismen treiben diesen Effekt:

GraphRAG-Kontextanreicherung -- fruehere Synthese-Ergebnisse werden als SYNTHESIS_INSIGHT-Relationen gespeichert und in kuenftige Experten-Prompts injiziert
L2-Plan-Cache -- identische Aufgabenzerlegungen treffen den Valkey SHA-256-Plan-Cache und ueberspringen das Planner-LLM vollstaendig
Modell-Waerme -- Sticky Sessions halten haeufig genutzte Modelle im VRAM geladen und eliminieren Cold-Start-Overhead

4. Interaktiver Chat (Open WebUI, AnythingLLM)¶

Experten-Vorlagen sind nicht auf Coding-Agenten beschraenkt. Sie funktionieren ebenso mit interaktiven Chat-Oberflaechen wie Open WebUI und AnythingLLM.

Funktionsweise¶

Jede in MoE Sovereign konfigurierte Experten-Vorlage erscheint als "Modell" in der /v1/models-Endpunkt-Antwort. Chat-Oberflaechen, die OpenAI-kompatible Backends unterstuetzen, koennen diese Modelle direkt auswaehlen.

# Alle verfuegbaren Modelle (Vorlagen) auflisten
curl https://your-moe-instance.example.com/v1/models \
  -H "Authorization: Bearer moe-sk-xxxxxxxx..." | jq '.data[].id'

Empfohlene Vorlagen nach Einsatzzweck¶

Einsatzzweck	Empfohlene Vorlage	Begruendung
Schnelle Fragen	`8b-fast` oder Native-Vorlage	Minimale Latenz, gut fuer einfache Fragen
Code-Unterstuetzung	`30b-balanced`	Starke Code-Modelle, akzeptable Latenz
Tiefgehende Recherche	`70b-deep` oder `cc-expert-deep`	Vollstaendige Pipeline mit den groessten Modellen
Kreatives Schreiben	Vorlage mit `creative_writer`-Experte	Stilistisch abgestimmte Modelle
Datenanalyse	Vorlage mit `data_analyst` + MCP-Tools	MCP liefert exakte Berechnungen

Der kumulative Effekt in Chat-Sitzungen¶

In interaktiven Sitzungen mit orchestrierten Vorlagen reichert jeder Austausch den GraphRAG-Wissensgraphen an. Das bedeutet:

Erste Frage in einer neuen Domaene: vollstaendige Pipeline, hoechste Latenz
Folgefragen in derselben Domaene: GraphRAG injiziert frueheren Kontext, reduziert Latenz und verbessert Relevanz
Rueckkehr zu einem Thema Tage spaeter: akkumuliertes Wissen ist weiterhin verfuegbar und bietet Kontinuitaet ueber Sitzungen hinweg

Dieser kumulative Effekt ist besonders wertvoll fuer laufende Projekte, Recherchethemen oder Domaenen, die wiederholt abgefragt werden.

Tipps zur Sitzungsverwaltung¶

Breit beginnen, dann einengen. Die erste Frage in einer Domaene befuellt den Wissensgraphen. Nachfolgende spezifische Fragen profitieren von diesem Kontext.
Dieselbe Vorlage fuer zusammenhaengende Fragen innerhalb eines Projekts verwenden, um GraphRAG-Kontinuitaet sicherzustellen.
Auf Native-Modus wechseln fuer schnelle Nachfragen, die nicht die vollstaendige Pipeline benoetigen (z.B. "Formatiere das als Tabelle").
Das Thinking-Panel in Open WebUI nutzen, um genau zu sehen, welche Experten konsultiert, welche MCP-Tools ausgefuehrt und welcher GraphRAG-Kontext injiziert wurde.

5. Stellschrauben und Kompromisse¶

Jede Konfigurationsentscheidung in MoE Sovereign ist ein Kompromiss. Dieser Abschnitt erlaeutert die Funktion jeder Stellschraube und hilft bei informierten Entscheidungen.

Cache-Schalter (`enable_cache`)¶

Steuert die L1- (ChromaDB) und L2-Caching-Schichten (Valkey).

Status	Verhalten
Aktiviert (Standard)	L1-Treffer = sofortige Antwort (keine Pipeline). L2-Plan-Cache-Treffer = Planner ueberspringen, nur Experten ausfuehren.
Deaktiviert	Jede Anfrage durchlaeuft die vollstaendige Pipeline von Grund auf.

Auswirkung: L1-Cache-Treffer reduzieren die Latenz auf nahezu Null fuer wiederholte oder semantisch aehnliche Anfragen. Deaktivierung ist nuetzlich zum Testen, Debuggen oder wenn garantiert frische Antworten benoetigt werden.

GraphRAG-Schalter (`enable_graphrag`)¶

Steuert die Neo4j-Wissensgraph-Anreicherung.

Status	Verhalten
Aktiviert (Standard)	Fruehere Synthese-Ergebnisse werden gespeichert und in kuenftige Anfragen injiziert. Wissen akkumuliert ueber die Zeit.
Deaktiviert	Keine Wissenspersistenz. Jede Anfrage ist unabhaengig.

Auswirkung: Aktiviertes GraphRAG treibt den kumulativen Effekt (9,3x Beschleunigung ueber 5 Epochen). Deaktivierung ist angemessen fuer datenschutzsensible Anfragen ohne Wissenspersistenz oder fuer isolierte Einzelanfragen.

Webrecherche-Schalter (`enable_web_research`)¶

Steuert die SearXNG-Websuch-Integration.

Status	Verhalten
Aktiviert (Standard)	Der Planner kann Teilaufgaben mit `"web": true` markieren, was eine SearXNG-Suche ausloest. Ergebnisse werden in den Merger injiziert.
Deaktiviert	Keine Websuche. Antworten stuetzen sich ausschliesslich auf Modell-Trainingsdaten und GraphRAG-Kontext.

Auswirkung: Aktivierte Webrecherche verbessert die Aktualitaet fuer laufende Ereignisse, neueste Dokumentation und sich schnell aendernde Domaenen. Deaktivierung reduziert die Latenz (kein Such-Roundtrip) und ist erforderlich fuer Air-Gap-Deployments.

T1/T2-Stufengrenze (`EXPERT_TIER_BOUNDARY_B`)¶

Der Parametergroessen-Schwellenwert (in Milliarden), der T1 (schnell) von T2 (tiefgehend) trennt. Standard: 20B.

Grenze	T1-Modelle (schnell)	T2-Modelle (tiefgehend)
20B (Standard)	`phi4:14b`, `hermes3:8b`, `gpt-oss:20b`	`devstral-small-2:24b`, `qwen3-coder:30b`, `deepseek-r1:32b`
14B (aggressiv)	nur `hermes3:8b`	Alles ueber 14B
30B (konservativ)	Die meisten Modelle inkl. 24B	Nur Modelle ab 32B

Kompromiss: Eine niedrigere Grenze fuehrt dazu, dass mehr Anfragen an T2 eskaliert werden (hoehere Qualitaet, hoehere Latenz). Eine hoehere Grenze haelt mehr Anfragen auf T1 (schneller, aber potenziell niedrigere Qualitaet fuer schwierige Probleme).

Gepinntes vs. Floating-Deployment¶

Strategie	Vorteile	Nachteile
Gepinnt (`model@node`)	Vorhersagbare Latenz, keine Cold Starts, garantiertes VRAM	Keine Elastizitaet, Knotenausfall = Experte nicht verfuegbar
Floating (`model` allein)	Elastisch, automatischer Lastausgleich ueber Knoten	Cold-Start-Latenz wenn Modell nicht geladen, weniger vorhersagbar

Best Practice: Planner und Judge pinnen (sie laufen bei jeder Anfrage und benoetigen konsistent niedrige Latenz). T2-Fallback-Experten floaten lassen (sie laufen selten und profitieren von Elastizitaet).

VRAM-Planung pro Vorlage¶

Um den gesamten VRAM-Bedarf einer Vorlage zu berechnen, die VRAM-Anforderungen aller gleichzeitig geladenen Modelle summieren:

Gesamt-VRAM = Planner + Judge + (Anzahl paralleler Experten x groesstes Experten-Modell)

Ungefaehrer VRAM-Bedarf pro Modellgroesse:

Modellgroesse	VRAM (Q4-quantisiert)	VRAM (FP16)
7-8B	~5 GB	~16 GB
14B	~9 GB	~28 GB
20-24B	~14 GB	~48 GB
30-32B	~20 GB	~64 GB
70B	~40 GB	~140 GB

Beispiel: Eine Vorlage mit phi4:14b (Planner, 9 GB) + phi4:14b (Judge, geteilt, 0 zusaetzlich) + 3 parallelen Experten mit gpt-oss:20b (3 x 14 GB = 42 GB) benoetigt ungefaehr 51 GB Gesamt-VRAM ueber alle Knoten.

Geteilte Modelle sparen VRAM

Wenn Planner und Judge dasselbe Modell auf demselben Knoten verwenden, wird das Modell einmal geladen. Ebenso wird VRAM geteilt, wenn mehrere Experten dasselbe Modell auf demselben Knoten nutzen. Vorlagen sollten Modelle wo moeglich wiederverwenden.

Entscheidungsmatrix¶

Prioritaet	Empfohlene Einstellungen
Minimale Latenz	Native-Modus, Cache aktiviert, kein GraphRAG, keine Webrecherche
Maximale Qualitaet	Orchestrated-Modus, alle Schalter aktiviert, T2-Grenze bei 14B
Datenschutz / Air-Gap	Beliebiger Modus, GraphRAG deaktiviert, Webrecherche deaktiviert
Kosteneffizienz	Native fuer einfache Aufgaben, Orchestrated nur fuer komplexe. Cache aktiviert.
Wissensaufbau	Orchestrated-Modus, GraphRAG aktiviert, Cache aktiviert
Vorhersagbare Performance	Alle Modelle gepinnt, Cache aktiviert
Maximale Elastizitaet	Alle Modelle floating, Cache aktiviert

Experten-Vorlagen & Profile: Vollstaendiger Leitfaden¶

1. Verarbeitungsmodi: Native vs. Reasoning vs. Orchestrated¶

Native-Modus (moe_mode: native)¶

MoE-Reasoning-Modus (moe_mode: moe_reasoning)¶

MoE-Orchestrated-Modus (moe_mode: moe_orchestrated)¶

Vergleichstabelle¶

2. Design von Experten-Vorlagen¶

Vorlagenstruktur¶

Feldreferenz¶

T1/T2-Stufen-Strategie¶

Gepinnte vs. Floating-Zuweisung¶

Leitfaden zur LLM-Auswahl¶

Beste Planner-Modelle¶

Beste Judge/Merger-Modelle¶

Modelle, die in Pipeline-Rollen vermieden werden sollten¶

Best Practices fuer System-Prompts¶

Planner-Prompts¶

Judge/Merger-Prompts¶

Experten-Prompts¶

Dienst-Schalter¶

Compliance-Badges¶

3. Claude Code Profile¶

Profilfelder¶

Drei Referenzprofil-Familien¶

Referenzprofile (Basis)¶

Innovator-Profile (Power User)¶

Benutzerdefinierte Profile erstellen¶

Profile an API-Keys binden¶

5-Epochen-Benchmark-Ergebnisse¶

4. Interaktiver Chat (Open WebUI, AnythingLLM)¶

Funktionsweise¶

Empfohlene Vorlagen nach Einsatzzweck¶

Der kumulative Effekt in Chat-Sitzungen¶

Tipps zur Sitzungsverwaltung¶

5. Stellschrauben und Kompromisse¶

Cache-Schalter (enable_cache)¶

GraphRAG-Schalter (enable_graphrag)¶

Webrecherche-Schalter (enable_web_research)¶

T1/T2-Stufengrenze (EXPERT_TIER_BOUNDARY_B)¶

Gepinntes vs. Floating-Deployment¶

VRAM-Planung pro Vorlage¶

Entscheidungsmatrix¶

Native-Modus (`moe_mode: native`)¶

MoE-Reasoning-Modus (`moe_mode: moe_reasoning`)¶

MoE-Orchestrated-Modus (`moe_mode: moe_orchestrated`)¶

Cache-Schalter (`enable_cache`)¶

GraphRAG-Schalter (`enable_graphrag`)¶

Webrecherche-Schalter (`enable_web_research`)¶

T1/T2-Stufengrenze (`EXPERT_TIER_BOUNDARY_B`)¶