Experten-Vorlagen & Profile: Vollstaendiger Leitfaden¶
Dies ist der umfassende Leitfaden zum Vorlagen- und Profilsystem von MoE Sovereign. Er behandelt die drei Verarbeitungsmodi, das Design von Experten-Vorlagen, Claude-Code-Profile, die Integration interaktiver Chat-Oberflaechen und saemtliche verfuegbaren Stellschrauben.
1. Verarbeitungsmodi: Native vs. Reasoning vs. Orchestrated¶
Jede Anfrage an MoE Sovereign wird in einem von drei Modi verarbeitet. Der Modus wird durch das CC-Profil (fuer Claude Code) oder durch die als Modell gewaehlte Experten-Vorlage (fuer OpenAI-kompatible Agenten) festgelegt.
Native-Modus (moe_mode: native)¶
Ein einzelnes LLM bearbeitet die Anfrage direkt. Kein Planner, keine Experten, kein Merger.
- Die Anfrage wird an einen einzigen Inferenz-Endpunkt weitergeleitet
- Das LLM verarbeitet Tool Calls (Datei-Edits, Bash) nativ
- Kein Pipeline-Overhead
Wann einsetzen: Schnelle Aenderungen, einfache Bugfixes, interaktives Coding, Autovervollstaendigung, triviale Fragen.
Wann vermeiden: Domainen-uebergreifende Synthese, Rechercheaufgaben, alles was Domaenen-Isolation oder Wissensakkumulation erfordert.
MoE-Reasoning-Modus (moe_mode: moe_reasoning)¶
Ein einzelnes LLM mit aktiviertem Thinking Node. Das Modell fuehrt eine Chain-of-Thought-Analyse durch, bevor es die Antwort generiert.
- Gestreamte
<think>-Bloecke zeigen den Denkprozess in Echtzeit - Die Denkspur ist im Thinking-Panel von Open WebUI und in der Claude-Code-Ausgabe sichtbar
- Kein paralleles Experten-Routing -- ein Modell erledigt alles, aber mit strukturierter Deliberation
Wann einsetzen: Architekturentscheidungen, komplexes Debugging, Code-Reviews, bei denen der Denkprozess sichtbar sein soll.
Wann vermeiden: Einfache Aenderungen (Overkill), tiefgehende Recherchen (nicht genug Domaenenabdeckung).
MoE-Orchestrated-Modus (moe_mode: moe_orchestrated)¶
Die vollstaendige MoE-Pipeline wird aktiviert:
- Planner-LLM zerlegt die Anfrage in 1-4 Teilaufgaben
- Experten-LLMs bearbeiten Teilaufgaben parallel (domaenen-isoliert)
- MCP Precision Tools uebernehmen deterministische Berechnungen (Mathematik, Regex, Subnetze usw.)
- GraphRAG (Neo4j) injiziert akkumuliertes Wissen aus frueheren Anfragen
- SearXNG-Webrecherche liefert aktuelle Informationen bei Bedarf
- Merger/Judge-LLM synthetisiert alle Ergebnisse zu einer einheitlichen Antwort
- Critic Node prueft sicherheitskritische Domaenen (Medizin, Recht) auf Fakten
Wann einsetzen: Sicherheitsaudits, Rechercheaufgaben, domaenen-uebergreifende Synthese, wissensgestuetzte Analysen -- ueberall wo Qualitaet wichtiger ist als Geschwindigkeit.
Wann vermeiden: Interaktives Coding, bei dem Antwortzeiten unter einer Sekunde erwartet werden.
Vergleichstabelle¶
| Aspekt | Native | Reasoning | Orchestrated |
|---|---|---|---|
| Latenz | 5-30s | 30-120s | 2-10 Min |
| Token-Kosten | 1x | 1,5x | 3-5x |
| Ausgabequalitaet | Gut | Besser | Am besten |
| Wissensakkumulation | Nein | Nein | Ja (GraphRAG) |
| Domaenen-Routing | Nein | Nein | Ja (15 Kategorien) |
| MCP Precision Tools | Nein | Nein | Ja (23 Tools) |
| Kumulativer Effekt | Nein | Nein | Ja (9,3x Beschleunigung ueber Zeit) |
| Denkbloecke | Nein | Ja | Optional |
| Parallele Experten-Ausfuehrung | Nein | Nein | Ja |
| Critic / Faktencheck | Nein | Nein | Ja (Medizin, Recht) |
Der kumulative Effekt
Im Orchestrated-Modus speichert GraphRAG Synthese-Ergebnisse als
SYNTHESIS_INSIGHT-Relationen. Kuenftige Anfragen in derselben Domaene
profitieren von diesem akkumulierten Wissen. Ueber 5 Epochen zeigen
Benchmarks eine 9,3-fache Latenzreduktion bei gleichzeitiger
Qualitaetssteigerung um 56 %.
Siehe Claude Code Profile
fuer die vollstaendigen Benchmark-Daten.
2. Design von Experten-Vorlagen¶
Eine Experten-Vorlage definiert die vollstaendige Konfiguration fuer einen orchestrierten MoE-Pipeline-Durchlauf: welche LLMs zum Einsatz kommen, wie Aufgaben zerlegt werden, welche Tools aktiviert sind und wie Ergebnisse synthetisiert werden.
Vorlagenstruktur¶
{
"id": "tmpl-xxxxx",
"name": "template-name",
"description": "Menschenlesbare Beschreibung des Vorlagenzwecks",
"planner_prompt": "MoE orchestrator. Decompose the request into 1-4 subtasks...",
"planner_model": "phi4:14b@N07-GT",
"judge_prompt": "Synthesize all inputs into one complete response...",
"judge_model": "phi4:14b@N04-RTX",
"experts": {
"code_reviewer": {
"system_prompt": "Senior SWE: correctness, security (OWASP Top 10)...",
"models": [
{"model": "gpt-oss:20b", "endpoint": "N09-M60", "role": "primary"},
{"model": "devstral-small-2:24b", "endpoint": "N04-RTX", "role": "fallback"}
]
},
"technical_support": {
"system_prompt": "Senior IT/DevOps. Immediately executable solutions...",
"models": [
{"model": "phi4:14b", "endpoint": "N07-GT", "role": "primary"},
{"model": "qwen3:32b", "endpoint": "N04-RTX", "role": "fallback"}
]
}
},
"enable_cache": true,
"enable_graphrag": true,
"enable_web_research": true,
"cost_factor": 1.0
}
Feldreferenz¶
| Feld | Typ | Beschreibung |
|---|---|---|
id |
string | Automatisch generierte eindeutige Vorlagen-ID (tmpl-xxxxxxxx) |
name |
string | Menschenlesbarer Name, erscheint in /v1/models |
description |
string | Wird in der Admin-UI und in Modelllisten angezeigt |
planner_prompt |
string | System-Prompt fuer das Planner-LLM |
planner_model |
string | Modell und optionaler Knoten fuer die Planung (model@node oder model) |
judge_prompt |
string | System-Prompt fuer das Judge/Merger-LLM |
judge_model |
string | Modell und optionaler Knoten fuer die Synthese |
experts |
object | Zuordnung von Kategoriename zu Experten-Konfiguration |
experts.*.system_prompt |
string | Domaenenspezifischer System-Prompt fuer den Experten |
experts.*.models |
array | Geordnete Liste von Modellzuweisungen (primary, fallback) |
enable_cache |
bool | L1/L2-Antwort- und Plan-Caching aktivieren |
enable_graphrag |
bool | Neo4j-Wissensgraph-Anreicherung aktivieren |
enable_web_research |
bool | SearXNG-Websuche fuer aktuelle Informationen aktivieren |
cost_factor |
float | Multiplikator fuer die Token-Budget-Abrechnung |
T1/T2-Stufen-Strategie¶
Jeder Experte in einer Vorlage kann zwei Modell-Stufen haben:
- T1 (Primaer): Schnelle Modelle an oder unter der Stufengrenze (Standard: 20 Milliarden Parameter). Diese antworten in unter 30 Sekunden und bearbeiten den Grossteil der Anfragen.
- T2 (Fallback): Groessere, leistungsfaehigere Modelle oberhalb von 20B.
Werden nur aktiviert, wenn das T1-Modell
CONFIDENCE: low(unter Schwellenwert 0,65) meldet.
Die Stufengrenze ist konfigurierbar ueber EXPERT_TIER_BOUNDARY_B (in
Milliarden Parametern). Der Standardwert von 20B bedeutet:
- Modelle wie
phi4:14b,hermes3:8b,gpt-oss:20bsind T1 - Modelle wie
devstral-small-2:24b,qwen3-coder:30b,deepseek-r1:32bsind T2
Designprinzip: T1 bearbeitet ca. 80 % der Anfragen schnell. T2 wird nur bei Bedarf an Tiefe aktiviert -- das haelt die durchschnittliche Latenz niedrig bei gleichzeitig hoher Qualitaet fuer schwierige Probleme.
Gepinnte vs. Floating-Zuweisung¶
Modelle koennen auf zwei Arten zugewiesen werden:
Gepinnt (model@node):
Floating (model allein):
Faustregel: Planner und Judge auf schnelle Knoten pinnen (RTX-Klasse-GPUs). T2-Experten-Modelle floaten lassen fuer Elastizitaet.
Leitfaden zur LLM-Auswahl¶
Basierend auf empirischen Tests von 69 LLMs auf 5 Inferenz-Knoten:
Beste Planner-Modelle¶
| Modell | Latenz | Begruendung |
|---|---|---|
phi4:14b |
27-37s | Zuverlaessigste JSON-Ausgabe. Konsistent und schnell. |
hermes3:8b |
16s | Ultra-schnell fuer einfache Zerlegungen |
gpt-oss:20b |
38s | Zuverlaessig, breit verfuegbar |
devstral-small-2:24b |
45s | Stark bei code-bezogener Planung |
Beste Judge/Merger-Modelle¶
| Modell | Latenz | Begruendung |
|---|---|---|
phi4:14b |
1,7-4,2s | Extrem schnelle Synthese |
qwen3-coder:30b |
1,7s | Schnell, code-bewusst, starkes Instruction Following |
Qwen3-Coder-Next (80B) |
2,6s | Hoechste Qualitaet, benoetigt aber viel VRAM |
devstral-small-2:24b |
2,5s | Gut fuer code-fokussierte Synthese |
Modelle, die in Pipeline-Rollen vermieden werden sollten¶
| Modell | Problem |
|---|---|
qwen3.5:35b |
Thinking-Modus erzeugt <think>-Bloecke statt JSON -- bricht Planner- und Judge-Parsing |
deepseek-r1:32b |
Chain-of-Thought stoert die JSON-Ausgabe -- nur als Experte verwendbar |
starcoder2:15b |
Code-Completion-Modell ohne Instruction-Following-Faehigkeit |
gpt-oss:20b (als Judge) |
Besteht isolierte Tests, wird aber von Ollama-TTL zwischen Experten-Aufrufen entladen |
Thinking-Modelle brechen JSON
Modelle mit "Thinking"- oder "Reasoning"-Modi (qwen3.5, deepseek-r1)
neigen dazu, ihre Ausgabe in <think>-Tags zu verpacken, was das
JSON-Parsing der Planner- und Judge-Rollen bricht. Entweder
Nicht-Reasoning-Modelle fuer diese Rollen verwenden oder Thinking
explizit im System-Prompt deaktivieren.
Best Practices fuer System-Prompts¶
Planner-Prompts¶
Empfohlen:
- Explizit ausschliesslich JSON-Ausgabe verlangen
- Alle gueltigen Kategorien im Prompt auflisten
- Ein Formatbeispiel mit dem exakten JSON-Schema bereitstellen
- Den
PRECISION_TOOLS-Block fuer MCP-Routing einbinden
Vermeiden:
- Freitext-Erklaerungen neben JSON erlauben
- Thinking/Reasoning-Anweisungen verwenden
- Markdown-Formatierung anfordern
Judge/Merger-Prompts¶
Empfohlen:
- Anweisen, Code-Bloecke wortwortlich zu uebernehmen
- Provenienz-Tags (
[REF:entity]) verlangen, die angeben, welcher Experte welche Erkenntnis beigesteuert hat - Verifizierungsschritte fuer numerische Werte fordern
- Explizite Prioritaet definieren: MCP > Graph > Experten mit hoher Konfidenz > Web > mittel > niedrig/Cache
Vermeiden:
- Zusammenfassung von Code-Bloecken erlauben
- Sicherheitsbefunde ueberspringen lassen
Experten-Prompts¶
Empfohlen:
- Die Domaenengrenze des Experten klar definieren
- Strukturierte Ausgabe-Marker verlangen:
CONFIDENCE,GAPS,REFERRAL - Domaenenspezifische Methodik einbeziehen (OWASP fuer Sicherheit, S3/AWMF fuer Medizin usw.)
- Mit Sprachdurchsetzung abschliessen
Vermeiden:
- Domaenen mischen (ein Sicherheitsexperte soll nicht den Code-Stil kommentieren)
- Dem Experten erlauben, mit "Ich kann dabei nicht helfen" abzulehnen
Dienst-Schalter¶
Jede Vorlage kann Pipeline-Komponenten einzeln aktivieren oder deaktivieren:
| Schalter | Standard | Auswirkung bei Deaktivierung |
|---|---|---|
enable_cache |
true |
Jede Anfrage durchlaeuft die vollstaendige Pipeline -- keine Cache-Treffer. Nuetzlich zum Testen oder wenn frische Antworten erforderlich sind. |
enable_graphrag |
true |
Keine Wissensgraph-Anreicherung. Fruehere Synthese-Ergebnisse werden nicht injiziert. Fuer datenschutzsensible Anfragen ohne Wissenspersistenz. |
enable_web_research |
true |
Keine SearXNG-Websuche. Antworten stuetzen sich ausschliesslich auf Modellwissen und GraphRAG. Fuer Air-Gap-Umgebungen oder geschwindigkeitskritische Aufgaben. |
Compliance-Badges¶
Vorlagen werden automatisch nach dem Ausfuehrungsort ihrer Modelle klassifiziert:
| Badge | Bedeutung |
|---|---|
| Local Only (gruen) | Alle Modelle laufen auf lokaler Infrastruktur. Keine Daten verlassen das Netzwerk. |
| Mixed (gelb) | Einige Modelle nutzen externe APIs. Daten koennen fuer diese Aufrufe das Netzwerk verlassen. |
| External (rot) | Ueberwiegend externe API-Modelle. Die meisten Daten verlassen das Netzwerk. |
Das Compliance-Badge ist in der Admin-UI sichtbar und hilft CISOs, die Datenresidenz auf einen Blick einzuschaetzen.
3. Claude Code Profile¶
Claude-Code-Profile (CC-Profile) steuern, wie MoE Sovereign Anfragen von Claude Code CLI, der VS-Code-Extension und anderen Anthropic-API-Clients verarbeitet. Jedes Profil bildet auf einen bestimmten Verarbeitungsmodus ab.
Profilfelder¶
| Feld | Beschreibung | Beispiel |
|---|---|---|
name |
Anzeigename in Clients | cc-ref-native |
moe_mode |
Verarbeitungsmodus | native, moe_reasoning, moe_orchestrated |
tool_model |
LLM fuer Tool-Ausfuehrung | gemma4:31b |
tool_endpoint |
Inferenz-Server-Knoten | N04-RTX |
expert_template_id |
Experten-Vorlage fuer Orchestrated-Modus | tmpl-d2300eb6 |
tool_max_tokens |
Max. Ausgabe-Tokens fuer Tool Calls | 4096 |
reasoning_max_tokens |
Max. Tokens fuer Denkbloecke | 16384 |
tool_choice |
Tool-Auswahlverhalten | auto, required, any |
stream_think |
Ob Denkbloecke gestreamt werden | true / false |
Drei Referenzprofil-Familien¶
Referenzprofile (Basis)¶
| Profil | Modus | Latenz | Einsatzzweck |
|---|---|---|---|
cc-ref-native |
native |
5-30s | Schnelle Aenderungen, einfache Fixes, interaktives Coding |
cc-ref-reasoning |
moe_reasoning |
30-120s | Architekturentscheidungen, komplexes Debugging |
cc-ref-orchestrated |
moe_orchestrated |
2-10 Min | Tiefgehende Recherche, Sicherheitsaudits, domaenen-uebergreifende Synthese |
Referenzprofile verwenden konservative Einstellungen und eignen sich fuer die meisten Anwender direkt nach der Installation.
Innovator-Profile (Power User)¶
Alle drei Innovator-Profile nutzen den moe_orchestrated-Modus mit dedizierten
Experten-Vorlagen, die auf unterschiedliche Qualitaets-/Geschwindigkeits-
Kompromisse abgestimmt sind:
| Profil | Tool-Modell | Thinking | Max Tokens | Ziel-Latenz |
|---|---|---|---|---|
cc-innovator-fast |
gemma4:31b |
Aus | 4.096 | 30-90s |
cc-innovator-balanced |
Qwen3-Coder-Next |
An | 8.192 / 16K Reasoning | 2-5 Min |
cc-innovator-deep |
Qwen3-Coder-Next |
An | 8.192 / 32K Reasoning | 5-15 Min |
Wesentliche Unterschiede:
- Fast nutzt
tool_choice: requiredmit leichtgewichtigen Modellen undstream_think: falsefuer minimalen Overhead. Ideal fuer schnelle Iterationszyklen. - Balanced aktiviert Denkbloecke und eskaliert ueber T2-Fallback zu Domaenen-Spezialistenmodellen. Guter Standard fuer den Alltagsbetrieb.
- Deep setzt die groessten verfuegbaren Modelle ein, inklusive einer Security-Analyst-Expertenkategorie und einem assertiven System-Prompt, der vollstaendigen, produktionsreifen Code verlangt. Ideal fuer Sicherheitsaudits und Architektur-Reviews.
Benutzerdefinierte Profile erstellen¶
- In der Admin-UI zu CC Profile navigieren
- Create Profile klicken
- Die Profilfelder ausfuellen (siehe Tabelle oben)
- Eine Experten-Vorlage fuer den Orchestrated-Modus zuweisen
- Profil speichern
Benutzer koennen auch persoenliche Profile im User Portal unter My Templates > CC Profiles erstellen. Persoenliche Profile ueberschreiben administrativ zugewiesene Profile.
Profile an API-Keys binden¶
- Admin-UI > Users > Benutzer auswaehlen > API Keys
- Im CC Profile-Dropdown den Ziel-Key auswaehlen
- Alle mit diesem Key getaetigten Anfragen nutzen nun das gebundene Profil
So kann ein einzelner Benutzer mehrere API-Keys besitzen, jeden an ein anderes Profil gebunden, und zwischen Workflows durch Wechsel des exportierten Keys umschalten.
5-Epochen-Benchmark-Ergebnisse¶
Ein kontrollierter Benchmark ueber 5 aufeinanderfolgende Durchlaeufe misst den kumulativen Effekt der MoE-Wissens-Pipeline:
| Epoche | Durchschn. Score | Durchschn. Latenz | Latenz vs. Epoche 1 |
|---|---|---|---|
| 1 | 5,2 / 10 | 280s | Baseline |
| 2 | 6,4 / 10 | 125s | 0,45x |
| 3 | 7,1 / 10 | 72s | 0,26x |
| 4 | 7,8 / 10 | 45s | 0,16x |
| 5 | 8,1 / 10 | 30s | 0,11x |
Ab Epoche 5 liefert das System 9,3-mal schnellere Antworten als in Epoche 1 bei gleichzeitiger Qualitaetssteigerung um 56 %. Drei Mechanismen treiben diesen Effekt:
- GraphRAG-Kontextanreicherung -- fruehere Synthese-Ergebnisse werden
als
SYNTHESIS_INSIGHT-Relationen gespeichert und in kuenftige Experten-Prompts injiziert - L2-Plan-Cache -- identische Aufgabenzerlegungen treffen den Valkey SHA-256-Plan-Cache und ueberspringen das Planner-LLM vollstaendig
- Modell-Waerme -- Sticky Sessions halten haeufig genutzte Modelle im VRAM geladen und eliminieren Cold-Start-Overhead
4. Interaktiver Chat (Open WebUI, AnythingLLM)¶
Experten-Vorlagen sind nicht auf Coding-Agenten beschraenkt. Sie funktionieren ebenso mit interaktiven Chat-Oberflaechen wie Open WebUI und AnythingLLM.
Funktionsweise¶
Jede in MoE Sovereign konfigurierte Experten-Vorlage erscheint als "Modell"
in der /v1/models-Endpunkt-Antwort. Chat-Oberflaechen, die
OpenAI-kompatible Backends unterstuetzen, koennen diese Modelle direkt
auswaehlen.
# Alle verfuegbaren Modelle (Vorlagen) auflisten
curl https://your-moe-instance.example.com/v1/models \
-H "Authorization: Bearer moe-sk-xxxxxxxx..." | jq '.data[].id'
Empfohlene Vorlagen nach Einsatzzweck¶
| Einsatzzweck | Empfohlene Vorlage | Begruendung |
|---|---|---|
| Schnelle Fragen | 8b-fast oder Native-Vorlage |
Minimale Latenz, gut fuer einfache Fragen |
| Code-Unterstuetzung | 30b-balanced |
Starke Code-Modelle, akzeptable Latenz |
| Tiefgehende Recherche | 70b-deep oder cc-expert-deep |
Vollstaendige Pipeline mit den groessten Modellen |
| Kreatives Schreiben | Vorlage mit creative_writer-Experte |
Stilistisch abgestimmte Modelle |
| Datenanalyse | Vorlage mit data_analyst + MCP-Tools |
MCP liefert exakte Berechnungen |
Der kumulative Effekt in Chat-Sitzungen¶
In interaktiven Sitzungen mit orchestrierten Vorlagen reichert jeder Austausch den GraphRAG-Wissensgraphen an. Das bedeutet:
- Erste Frage in einer neuen Domaene: vollstaendige Pipeline, hoechste Latenz
- Folgefragen in derselben Domaene: GraphRAG injiziert frueheren Kontext, reduziert Latenz und verbessert Relevanz
- Rueckkehr zu einem Thema Tage spaeter: akkumuliertes Wissen ist weiterhin verfuegbar und bietet Kontinuitaet ueber Sitzungen hinweg
Dieser kumulative Effekt ist besonders wertvoll fuer laufende Projekte, Recherchethemen oder Domaenen, die wiederholt abgefragt werden.
Tipps zur Sitzungsverwaltung¶
- Breit beginnen, dann einengen. Die erste Frage in einer Domaene befuellt den Wissensgraphen. Nachfolgende spezifische Fragen profitieren von diesem Kontext.
- Dieselbe Vorlage fuer zusammenhaengende Fragen innerhalb eines Projekts verwenden, um GraphRAG-Kontinuitaet sicherzustellen.
- Auf Native-Modus wechseln fuer schnelle Nachfragen, die nicht die vollstaendige Pipeline benoetigen (z.B. "Formatiere das als Tabelle").
- Das Thinking-Panel in Open WebUI nutzen, um genau zu sehen, welche Experten konsultiert, welche MCP-Tools ausgefuehrt und welcher GraphRAG-Kontext injiziert wurde.
5. Stellschrauben und Kompromisse¶
Jede Konfigurationsentscheidung in MoE Sovereign ist ein Kompromiss. Dieser Abschnitt erlaeutert die Funktion jeder Stellschraube und hilft bei informierten Entscheidungen.
Cache-Schalter (enable_cache)¶
Steuert die L1- (ChromaDB) und L2-Caching-Schichten (Valkey).
| Status | Verhalten |
|---|---|
| Aktiviert (Standard) | L1-Treffer = sofortige Antwort (keine Pipeline). L2-Plan-Cache-Treffer = Planner ueberspringen, nur Experten ausfuehren. |
| Deaktiviert | Jede Anfrage durchlaeuft die vollstaendige Pipeline von Grund auf. |
Auswirkung: L1-Cache-Treffer reduzieren die Latenz auf nahezu Null fuer wiederholte oder semantisch aehnliche Anfragen. Deaktivierung ist nuetzlich zum Testen, Debuggen oder wenn garantiert frische Antworten benoetigt werden.
GraphRAG-Schalter (enable_graphrag)¶
Steuert die Neo4j-Wissensgraph-Anreicherung.
| Status | Verhalten |
|---|---|
| Aktiviert (Standard) | Fruehere Synthese-Ergebnisse werden gespeichert und in kuenftige Anfragen injiziert. Wissen akkumuliert ueber die Zeit. |
| Deaktiviert | Keine Wissenspersistenz. Jede Anfrage ist unabhaengig. |
Auswirkung: Aktiviertes GraphRAG treibt den kumulativen Effekt (9,3x Beschleunigung ueber 5 Epochen). Deaktivierung ist angemessen fuer datenschutzsensible Anfragen ohne Wissenspersistenz oder fuer isolierte Einzelanfragen.
Webrecherche-Schalter (enable_web_research)¶
Steuert die SearXNG-Websuch-Integration.
| Status | Verhalten |
|---|---|
| Aktiviert (Standard) | Der Planner kann Teilaufgaben mit "web": true markieren, was eine SearXNG-Suche ausloest. Ergebnisse werden in den Merger injiziert. |
| Deaktiviert | Keine Websuche. Antworten stuetzen sich ausschliesslich auf Modell-Trainingsdaten und GraphRAG-Kontext. |
Auswirkung: Aktivierte Webrecherche verbessert die Aktualitaet fuer laufende Ereignisse, neueste Dokumentation und sich schnell aendernde Domaenen. Deaktivierung reduziert die Latenz (kein Such-Roundtrip) und ist erforderlich fuer Air-Gap-Deployments.
T1/T2-Stufengrenze (EXPERT_TIER_BOUNDARY_B)¶
Der Parametergroessen-Schwellenwert (in Milliarden), der T1 (schnell) von T2 (tiefgehend) trennt. Standard: 20B.
| Grenze | T1-Modelle (schnell) | T2-Modelle (tiefgehend) |
|---|---|---|
| 20B (Standard) | phi4:14b, hermes3:8b, gpt-oss:20b |
devstral-small-2:24b, qwen3-coder:30b, deepseek-r1:32b |
| 14B (aggressiv) | nur hermes3:8b |
Alles ueber 14B |
| 30B (konservativ) | Die meisten Modelle inkl. 24B | Nur Modelle ab 32B |
Kompromiss: Eine niedrigere Grenze fuehrt dazu, dass mehr Anfragen an T2 eskaliert werden (hoehere Qualitaet, hoehere Latenz). Eine hoehere Grenze haelt mehr Anfragen auf T1 (schneller, aber potenziell niedrigere Qualitaet fuer schwierige Probleme).
Gepinntes vs. Floating-Deployment¶
| Strategie | Vorteile | Nachteile |
|---|---|---|
Gepinnt (model@node) |
Vorhersagbare Latenz, keine Cold Starts, garantiertes VRAM | Keine Elastizitaet, Knotenausfall = Experte nicht verfuegbar |
Floating (model allein) |
Elastisch, automatischer Lastausgleich ueber Knoten | Cold-Start-Latenz wenn Modell nicht geladen, weniger vorhersagbar |
Best Practice: Planner und Judge pinnen (sie laufen bei jeder Anfrage und benoetigen konsistent niedrige Latenz). T2-Fallback-Experten floaten lassen (sie laufen selten und profitieren von Elastizitaet).
VRAM-Planung pro Vorlage¶
Um den gesamten VRAM-Bedarf einer Vorlage zu berechnen, die VRAM-Anforderungen aller gleichzeitig geladenen Modelle summieren:
Ungefaehrer VRAM-Bedarf pro Modellgroesse:
| Modellgroesse | VRAM (Q4-quantisiert) | VRAM (FP16) |
|---|---|---|
| 7-8B | ~5 GB | ~16 GB |
| 14B | ~9 GB | ~28 GB |
| 20-24B | ~14 GB | ~48 GB |
| 30-32B | ~20 GB | ~64 GB |
| 70B | ~40 GB | ~140 GB |
Beispiel: Eine Vorlage mit phi4:14b (Planner, 9 GB) + phi4:14b
(Judge, geteilt, 0 zusaetzlich) + 3 parallelen Experten mit gpt-oss:20b
(3 x 14 GB = 42 GB) benoetigt ungefaehr 51 GB Gesamt-VRAM ueber
alle Knoten.
Geteilte Modelle sparen VRAM
Wenn Planner und Judge dasselbe Modell auf demselben Knoten verwenden, wird das Modell einmal geladen. Ebenso wird VRAM geteilt, wenn mehrere Experten dasselbe Modell auf demselben Knoten nutzen. Vorlagen sollten Modelle wo moeglich wiederverwenden.
Entscheidungsmatrix¶
| Prioritaet | Empfohlene Einstellungen |
|---|---|
| Minimale Latenz | Native-Modus, Cache aktiviert, kein GraphRAG, keine Webrecherche |
| Maximale Qualitaet | Orchestrated-Modus, alle Schalter aktiviert, T2-Grenze bei 14B |
| Datenschutz / Air-Gap | Beliebiger Modus, GraphRAG deaktiviert, Webrecherche deaktiviert |
| Kosteneffizienz | Native fuer einfache Aufgaben, Orchestrated nur fuer komplexe. Cache aktiviert. |
| Wissensaufbau | Orchestrated-Modus, GraphRAG aktiviert, Cache aktiviert |
| Vorhersagbare Performance | Alle Modelle gepinnt, Cache aktiviert |
| Maximale Elastizitaet | Alle Modelle floating, Cache aktiviert |