Hardware¶
GPU Node Overview¶
| Node | CPU | RAM | GPUs | VRAM | Runtime | Notes |
|---|---|---|---|---|---|---|
| N1 | AMD Ryzen 5 5600G | 64 GB DDR4 | 3× RTX 2060 12 GB 2× RTX 3060 12 GB |
60 GB | Ollama (Docker CE) | Consumer GPUs |
| N2 | Intel Core i5-4590 | 32 GB DDR3 | 1× Tesla M10 (4× 8 GB) | 32 GB | Ollama (Docker CE) | Legacy Enterprise |
| N3 | AMD Athlon II X2 270 | 16 GB DDR3 | 1× Tesla M10 (4× 8 GB) | 32 GB | Ollama (Docker CE) | Ultra-Legacy CPU |
| N4 | AMD EPYC Embedded 3151 | 128 GB DDR4 ECC | 3× Tesla M10 (96 GB) | 96 GB | Ollama (Docker CE) | HPC Server (4U) |
| N5 | AMD EPYC Embedded 3151 | 128 GB DDR4 ECC | 3× Tesla M10 (96 GB) | 96 GB | Ollama (Docker CE) | HPC Server (4U) |
| N6 | AMD EPYC Embedded 3151 | 128 GB DDR4 ECC | 7× Tesla K80 (168 GB) | 168 GB | Ollama37 (Docker CE) | Kepler CC3.7 |
| EXP | Dell Wyse Thin Client | minimal | Tesla M10 (32 GB) via eGPU | 32 GB | Ollama (Docker CE) | MiniPCI → PCIe x16 |
Total VRAM: ~516 GB
Network Topology¶
graph TD
Orchestrator["🖥️ Orchestrator\nFastAPI · Valkey · ChromaDB\nKafka · Neo4j\nPrometheus · Grafana"]
subgraph Consumer-Hardware
N1["N1\nAMD Ryzen 5 5600G\n5× GPU (60 GB)\nOllama"]
end
subgraph Legacy-Enterprise
N2["N2\nIntel i5-4590\n32 GB VRAM\nOllama"]
N3["N3\nAMD Athlon II\n32 GB VRAM\nOllama"]
end
subgraph HPC-Servers
N4["N4\nEPYC 3151\n3× GPU (96 GB)\nOllama"]
N5["N5\nEPYC 3151\n3× GPU (96 GB)\nOllama"]
N6["N6\nEPYC 3151\n7× GPU (168 GB)\nOllama37"]
end
Reverse["Reverse Proxy\n(nginx/caddy)"] --> Orchestrator
Orchestrator <-->|Ollama API| N1
Orchestrator <-->|Ollama API| N2
Orchestrator <-->|Ollama API| N3
Orchestrator <-->|Ollama API| N4
Orchestrator <-->|Ollama API| N5
Orchestrator <-->|Ollama37 API| N6
Ollama37 – Kepler Fork (PoC)¶
Node N6 uses the Ollama37 fork, which reactivates Tesla K80 GPUs (Kepler architecture, Compute Capability 3.7) that are unsupported by standard Ollama.
| Standard Ollama | Ollama37 | |
|---|---|---|
| Minimum Compute Capability | 5.0 (Maxwell) | 3.7 (Kepler) |
| Tesla K80 | ❌ not supported | ⚗️ functional (Ollama37 fork) |
| Tesla M10 | ✅ | ✅ |
| Consumer GPUs (RTX etc.) | ✅ | ✅ |
| API compatibility | Standard | Identical |
Machbarkeitsstudie — nicht als Produktionsaussage verstehen
Die Aktivierung der Tesla K80 durch den Ollama37-Fork ist ein Proof of Concept. Es wurde gezeigt, dass 7× Tesla K80 = 168 GB VRAM für LLM-Inferenz mit 7B-Modellen funktionieren. Ob das für Produktionsworkloads wirtschaftlich oder latenz-technisch vertretbar ist, lässt sich erst nach dem ausstehenden Hardware-Latenzvergleich (K80 vs. RTX vs. H100) beurteilen — siehe Ausstehend: Hardware-Latenzvergleich.
VRAM Summary¶
| GPU Type | Nodes | VRAM per GPU | Total GPUs | Total VRAM |
|---|---|---|---|---|
| RTX 2060 12 GB | N1 | 12 GB | 3 | 36 GB |
| RTX 3060 12 GB | N1 | 12 GB | 2 | 24 GB |
| Tesla M10 (4× 8 GB) | N2, N3, N4, N5 | 32 GB | 8 | 256 GB |
| Tesla K80 (2× 12 GB) | N6 | 24 GB | 7 | 168 GB |
| Tesla M10 (eGPU) | EXP | 32 GB | 1 | 32 GB |
| Total | ~516 GB |
Operating System & Runtime¶
All nodes run on:
flowchart LR
OS["Debian 13 (Bookworm)"]
OS --> D[Docker CE - current]
OS --> NCT[NVIDIA Container Toolkit]
OS --> CU[CUDA 12.x]
OS --> OL["Ollama (or Ollama37 for N6)"]
Experiment: Thin Client eGPU (EXP)¶
The EXP node demonstrates absolute hardware minimalism:
- Base: Dell Wyse Thin Client (< €20 used)
- Extension: MiniPCI-Express → PCIe x16 riser + 3D-printed enclosure
- GPU: Tesla M10 (4× 8 GB = 32 GB VRAM)
- Result:
gpt-oss:20bat 15 tokens/s ✅
PoC-Fazit: Das Experiment zeigt, dass LLM-Inferenz auch auf €50-Hardware prinzipiell funktioniert. Die Latenz ist für produktive Nutzung nicht untersucht worden — das Ziel war ausschließlich der Nachweis der technischen Machbarkeit.
Ausstehend: Hardware-Latenzvergleich¶
Ein vollständiger Latenzvergleich über die gesamte GPU-Leistungsspanne ist in Planung und wird die Grundlage für konkrete Hardware-Empfehlungen liefern:
| Hardware-Klasse | VRAM | Beispiel | Inferenz-Modus | Status |
|---|---|---|---|---|
| CPU-only | — | x86 / ARM | llama.cpp CPU | ausstehend |
| Embedded / Low-end | 4–6 GB | GT 1060, RPi-GPU | 7B quantisiert | ausstehend |
| Legacy Enterprise | 8–32 GB | Tesla M10, M60 | 7–14B Q4 | gemessen (PoC) |
| Legacy HPC | 12–24 GB/GPU | Tesla K80 (Ollama37) | 7B Q4 | gemessen (PoC) |
| Consumer | 12–24 GB | RTX 3060–4090 | 7–32B Q4 | gemessen |
| Semi-Pro / Workstation | 24–48 GB | RTX 6000 Ada, A5000 | 32–70B | ausstehend |
| Enterprise | 40–80 GB | A100, H100, H200 | 70–120B FP16 | AIHUB gemessen |
Methodik (geplant):
- Lokale Hardware (RTX / Tesla M10 / M60 / K80): Ollama mit gemessenen Token/s und End-to-End-Latenzen für 7B, 14B und 30B Modelle
- Google Colab mit H100-Karten: Ollama mit 120B LLM, gleiche Testfälle
- Zielmetrik: Token/s (Durchsatz), Time-to-first-token (TTFT), Latenz pro Benchmark-Testfall
- Ergebnis: einheitliche Vergleichstabelle, die die wirtschaftliche Break-Even-Grenze zwischen Legacy-Hardware und Consumer/Enterprise-GPUs sichtbar macht