- RTX 5070 (~590 €) — 12 GB GDDR7, 672 GB/s. Reicht für 7B–13B-Modelle in Q4-Quantisierung bei ~100 tok/s. Beste Preis-Leistung im Budget-Segment.
- RTX 5060 Ti 16GB (~490 €) — 16 GB, aber nur ~448 GB/s. Mehr VRAM, deutlich langsamer. Nur sinnvoll, wenn 14B-Modelle wichtiger sind als Geschwindigkeit.
Quick-Reference-Tabelle
Alle aktuell relevanten Optionen auf einen Blick — sortierbar per Klick auf die Spaltenüberschriften.
| Hardware ⇅ | VRAM / RAM ⇅ | Bandbreite ⇅ | 8B Q4 tok/s ⇅ | 70B Q4 tok/s ⇅ | ca. Preis € ⇅ | Tier ⇅ |
|---|---|---|---|---|---|---|
| RTX 5090 | 32 GB | 1.792 GB/s | 186 | —Passt nicht in 32 GB | 3.600 | High-End |
| RTX 5080 | 16 GB | 960 GB/s | ~140 | — | 1.300 | Mittelklasse |
| RTX 5070 Ti | 16 GB | 896 GB/s | ~130 | — | 957 | Mittelklasse |
| RTX 5070 | 12 GB | 672 GB/s | ~100 | — | 590 | Budget |
| RTX 5060 Ti 16GB | 16 GB | ~448 GB/s | ~70 | — | 490 | Budget |
| RTX 4090 Produktion eingestellt | 24 GB | 1.008 GB/s | 131 | —Nur mit CPU-Offload | 2.300 | High-End |
| RTX 3090 Nur gebraucht | 24 GB | 936 GB/s | ~104 | — | 700–1.100 | Budget |
| RX 7900 XTX AMD, ROCm/Linux | 24 GB | 960 GB/s | ~100 | — | 949–1.100 | Mittelklasse |
| Mac Mini M4 Pro 48–64 GB Unified | 64 GB | 273 GB/s | 40–55 | ~8–12 | ab 1.500 | Mittelklasse |
| MacBook Pro M5 Max 128 GB Unified | 128 GB | 614 GB/s | 80–100 | 18–25 | ab 4.100 | High-End |
| Mac Studio M4 Max 128 GB Unified | 128 GB | 546 GB/s | 80–100 | 18–25 | ab 2.800 | High-End |
| Mac Studio M3 Ultra 192 GB Unified | 192 GB | 819 GB/s | ~100 | ~30 | ab 4.200 | High-End |
| Ryzen AI Max+ 395 Mini-PC, 128 GB Unified | 128 GB | ~256 GB/s | ~60 | 20–30 | ab 800 | Mittelklasse |
| NVIDIA DGX Spark | 128 GB | 273 GB/s | ~80 | ~5 | 3.700 | High-End |
| Tinybox Red v2 6× RX 7900 XTX | 144 GB | ~5.760 GB/s | — | ~60–80 | 13.800 | Prosumer |
Was bekommt man für sein Geld?
Fünf Budget-Stufen — von der Einsteiger-GPU bis zum Profi-Setup. Die Empfehlungen gelten für März 2026.
Einstieg
Empfehlung
RTX 5070 für maximale Geschwindigkeit bei 7–8B-Modellen. Wer 14B-Modelle braucht, greift zur 5060 Ti 16GB.
Goldener Mittelweg
- RTX 3090 (gebraucht) (~700–900 €) — 24 GB GDDR6X, 936 GB/s. Der „Value King“ für lokale KI: meister VRAM pro Euro, hohe Bandbreite. Risiko: gebrauchte Hardware ohne Garantie.
- RTX 5070 Ti (~957 €) — 16 GB GDDR7, 896 GB/s. Neue Hardware mit zukunftssicherem GDDR7, aber nur 16 GB VRAM.
- RX 7900 XTX (~949 €) — 24 GB, 960 GB/s. Konkurrenzfähig zu NVIDIA — aber nur unter Linux mit ROCm zuverlässig.
Empfehlung
RTX 3090 gebraucht, wenn 24 GB VRAM Priorität haben. RTX 5070 Ti für neue Hardware. AMD nur für erfahrene Linux-Nutzer.
Ernsthaft lokal
- Mac Mini M4 Pro (64 GB) (~2.400 €) — 64 GB Unified Memory, 273 GB/s. Kann 70B-Modelle in Q4 laden. Leise, stromsparend, hervorragendes Preis-Leistungs-Verhältnis für große Modelle.
- Mac Studio M4 Max (128 GB) (ab ~2.800 €) — 128 GB, 546 GB/s. Lädt 70B bequem, 18–25 tok/s bei Q4.
- Ryzen AI Max+ 395 Mini-PC (ab ~800 €) — 128 GB Unified Memory. Laut AMD 2,2× schneller als RTX 4090 bei 70B-Modellen. Preisbrecher für große Modelle.
Empfehlung
Für 70B-Modelle: Ryzen AI Max+ 395 als Preis-Leistungs-Sieger oder Mac Studio M4 Max für das reifere Ökosystem (MLX/Metal). Für Modelle bis 32B: RTX 5080 oder 5070 Ti.
Maximum Consumer
- RTX 5090 (~3.600 €) — 32 GB GDDR7, 1.792 GB/s. Schnellste Consumer-GPU überhaupt: 186 tok/s bei 8B, 61 tok/s bei 32B. Aber nur 32 GB VRAM — 70B passt nicht rein.
- NVIDIA DGX Spark (~3.700 €) — 128 GB, Grace Blackwell Chip. Kompaktestes Gerät für 100B+-Modelle. Token-Generierung aber langsam wegen LPDDR5X-Bandbreite.
- Mac Studio M3 Ultra (192 GB) (ab ~4.200 €) — 192 GB, 819 GB/s. Kann 405B in Q4 laden. Schnellste Consumer-Plattform für große Modelle.
Empfehlung
RTX 5090 für maximale Geschwindigkeit bei Modellen bis 32B. Mac Studio M3 Ultra für 70B+ ohne Kompromisse. DGX Spark für CUDA-Ökosystem und Modelle über 100B.
Prosumer & Server
- Tinybox Red v2 (~13.800 €) — 6× RX 7900 XTX, 144 GB gesamt. Multi-GPU-Cluster für Training und große Modelle. Läuft auf tinygrad/ROCm.
- Tinybox Green v2 (~23.000 €) — 4× RTX 5090, 128 GB, ~7,2 TB/s aggregierte Bandbreite. Höchste Bandbreite im Consumer-Bereich.
- A100 80GB (gebraucht) (~8.000–15.000 €) — 80 GB HBM2e, 2.000 GB/s. Braucht Server-Infrastruktur, passive Kühlung. Nur für dedizierte Inference-Server.
Empfehlung
Tinybox Red v2 als günstigstes Multi-GPU-System. H100/MI300X sind Enterprise-Hardware und für Zuhause nicht praktikabel — Cloud-Rental ist hier rationaler.
NVIDIA-GPUs im Detail
NVIDIA dominiert das Ökosystem für lokale LLM-Inferenz — dank CUDA, dem breitesten Software-Support und der höchsten Rohbandbreite pro Karte.
RTX 50-Serie (Blackwell, 2025)
Die aktuelle Generation bringt GDDR7-Speicher mit deutlich höherer Bandbreite. Die RTX 5090 (32 GB, 1.792 GB/s) ist die schnellste Consumer-GPU für Inferenz, kostet aber aktuell ~3.600 € bei eingeschränkter Verfügbarkeit (MSRP: ~2.160 €).
Die RTX 5070 Ti (16 GB, 896 GB/s, ~957 €) bietet das beste Preis-Leistungs-Verhältnis bei neuer Hardware im 16-GB-Segment. Die RTX 5070 (12 GB, 672 GB/s, ~590 €) ist der Einstiegstipp.
| Modell | VRAM | Bandbreite | TDP | Preis € | 8B Q4 tok/s | 32B Q4 tok/s |
|---|---|---|---|---|---|---|
| RTX 5090 | 32 GB GDDR7 | 1.792 GB/s | 575 W | ~3.600 | 186 | 61 |
| RTX 5080 | 16 GB GDDR7 | 960 GB/s | 360 W | ~1.300 | ~140 | — |
| RTX 5070 Ti | 16 GB GDDR7 | 896 GB/s | 300 W | ~957 | ~130 | — |
| RTX 5070 | 12 GB GDDR7 | 672 GB/s | 250 W | ~590 | ~100 | — |
| RTX 5060 Ti 16GB | 16 GB GDDR7 | ~448 GB/s | ~165 W | ~490 | ~70 | — |
RTX 40-Serie & 3090 (Vorgänger)
Die RTX 4090 (24 GB, 1.008 GB/s) war der Goldstandard — Produktion wurde aber im Oktober 2024 eingestellt. Restbestände kosten ~2.300 €, gebraucht ~2.180 €. Bei diesen Preisen ist die RTX 5090 die bessere Wahl.
Die RTX 3090 (24 GB, 936 GB/s) bleibt gebraucht für ~700–1.100 € der unangefochtene Preis-Leistungs-König: 24 GB VRAM bei fast RTX-4090-Bandbreite zu einem Bruchteil des Preises. Risiken: keine Garantie, unbekannte thermische Historie.
Andere 40er-Karten (4080 Super, 4070 Ti Super, 4060 Ti 16GB) sind in März 2026 überpreist — die 50er-Pendants bieten mehr Leistung für gleiches oder weniger Geld.
| Modell | VRAM | Bandbreite | Preis € | 8B Q4 tok/s | Status |
|---|---|---|---|---|---|
| RTX 4090 | 24 GB GDDR6X | 1.008 GB/s | ~2.300 | 131 | Überpreist |
| RTX 3090 (gebraucht) | 24 GB GDDR6X | 936 GB/s | 700–1.100 | ~104 | Value King |
| RTX 4080 Super | 16 GB GDDR6X | 736 GB/s | ~1.359 | ~95 | Nicht empfohlen |
| RTX 4060 Ti 16GB | 16 GB GDDR6 | 288 GB/s | ~400 | ~50 | Zu langsam |
Apple Silicon im Detail
Apples Unified-Memory-Architektur hat einen entscheidenden Vorteil: CPU und GPU teilen sich denselben Speicherpool. Ein Mac mit 128 GB RAM kann ein 70B-Modell komplett laden — keine diskrete GPU kann das.
Wichtig: Es gibt keinen M4 Ultra — Apple hat diese Chipvariante übersprungen. Der Mac Studio 2025 nutzt M4 Max oder M3 Ultra. Die M5-Generation (M5 Pro/Max) ist seit März 2026 im MacBook Pro verfügbar, M5 Ultra wird für Mitte 2026 erwartet.
Auf Apple Silicon liefert MLX (Apples ML-Framework) 30–80% höheren Durchsatz als llama.cpp. LM Studio bietet MLX als wählbares Backend — der einfachste Weg zu maximaler Performance auf dem Mac.
| Konfiguration | Unified Memory | Bandbreite | 8B Q4 tok/s | 70B Q4 tok/s | ca. Preis € |
|---|---|---|---|---|---|
| Mac Mini M4 (Basis) | 16–24 GB | 120 GB/s | ~25–35 | — | ab 799 |
| Mac Mini M4 Pro | 24–64 GB | 273 GB/s | 40–55 | ~8–12 | ab 1.500 |
| MacBook Pro M5 Pro | bis 64 GB | 307 GB/s | ~50–65 | ~10–15 | ab 2.300 |
| MacBook Pro M5 Max | bis 128 GB | 614 GB/s | 80–100 | 18–25 | ab 4.100 |
| Mac Studio M4 Max | bis 128 GB | 546 GB/s | 80–100 | 18–25 | ab 2.800 |
| Mac Studio M3 Ultra | bis 192 GB | 819 GB/s | ~100 | ~30 | ab 4.200 |
Wann Apple Silicon?
Wenn große Modelle (70B+) wichtig sind und man leise, stromsparende Hardware will. Die Geschwindigkeit pro Token liegt unter NVIDIA-GPUs gleicher Preisklasse — aber der riesige Speicherpool macht Modelle möglich, die auf keiner einzelnen Consumer-GPU laufen.
AMD-GPUs & APUs
AMD bietet mit der RX 7900 XTX eine konkurrenzfähige diskrete GPU und mit dem Ryzen AI Max+ 395 einen überraschend starken Unified-Memory-Chip.
RX 7900 XTX (RDNA 3)
24 GB GDDR6 bei 960 GB/s — auf dem Papier identisch zur RTX 5080. Der Preis (~949–1.100 €) ist kompetitiv. Aber: ROCm-Support funktioniert zuverlässig nur unter Linux. Windows-Support ist deutlich weniger stabil. AMD hat 2026 keine RDNA-4-Karte mit 24+ GB veröffentlicht — die 7900 XTX bleibt AMDs einzige ernstzunehmende Option für LLM-Inferenz.
Ryzen AI Max+ 395 (Strix Halo)
Der Überraschungskandidat: Ein Desktop-APU mit bis zu 128 GB Unified Memory, 40 RDNA-3.5-Compute-Units (iGPU auf RX-7700-XT-Niveau) und 50 TOPS NPU. Verfügbar in Mini-PCs von Framework, Minisforum und ASUS ab ~800 €.
AMD behauptet, der Chip sei bei Llama 3.3 70B 2,2× schneller als eine RTX 4090 — weil die 4090 das Modell nicht in ihre 24 GB laden kann und auf CPU-Offload angewiesen ist. Community-Benchmarks bestätigen 20–30 tok/s bei 70B-Modellen und 60+ tok/s bei 8B.
Einschätzung Ryzen AI Max+
Einer der spannendsten Neuzugänge für Home-Inferenz. 128 GB Unified Memory für unter 2.000 € schlägt jede diskrete GPU bei großen Modellen. Die iGPU übernimmt die Arbeit — der integrierte NPU ist für LLMs aktuell irrelevant.
Spezialisierte Inferenz-Hardware
Jenseits von GPUs und Macs: Dedizierte KI-Beschleuniger, Cluster-Lösungen und warum die meisten davon für Endnutzer (noch) nicht relevant sind.
NVIDIA DGX Spark
Das wichtigste neue Consumer-KI-Gerät des Jahres 2025: Ein Grace-Blackwell-Superchip im Format kleiner als ein Mac Mini (150 × 150 × 50 mm), seit Oktober 2025 für 3.999 USD (~3.700 €) bei NVIDIA und Partnern (ASUS, Dell, Lenovo) erhältlich.
128 GB LPDDR5X Unified Memory ermöglichen Modelle bis ~200B Parameter. Der Haken: LPDDR5X liefert nur 273 GB/s Bandbreite — die Token-Generierung bei 70B liegt bei nur ~5 tok/s. Prompt-Verarbeitung (Prefill) ist dagegen stark. Der DGX Spark glänzt bei Kapazität, nicht bei Geschwindigkeit — und bietet vollen CUDA-Support.
Tinybox (tiny corp)
Von George Hotz gegründete (inzwischen ohne ihn weiterführte) Firma, die Multi-GPU-Cluster als fertige Systeme verkauft. Der Tinybox Red v2 (6× RX 7900 XTX, 144 GB, ~13.800 €) und Tinybox Green v2 (4× RTX 5090, 128 GB, ~23.000 €) sind verfügbar und liefern innerhalb einer Woche. Eher für Training als für Single-User-Inferenz optimiert.
Hailo-10H / Raspberry Pi AI HAT+ 2
Der zugänglichste dedizierte Inferenz-Beschleuniger: 40 TOPS INT4, 8 GB LPDDR4X, als HAT für den Raspberry Pi 5 für 130 USD erhältlich (seit Januar 2026). Kann kleine Modelle (Qwen2 1.5B: ~9,5 tok/s) lokal betreiben — ideal für Always-On-Chatbots oder Sprachassistenten auf dem Pi. Für ernsthafte LLM-Arbeit zu klein.
Laptop-NPUs: Intel, Qualcomm, AMD
Alle aktuellen „Copilot+ PCs“ haben NPUs (45–50 TOPS). Die ernüchternde Realität für LLM-Inferenz:
- Intel Lunar Lake NPU: ~18 tok/s bei Llama 2 7B. Die iGPU ist meist schneller.
- Qualcomm Snapdragon X Elite NPU: ~2,6 tok/s bei llama.cpp — die CPU schafft ~26 tok/s. Die NPU ist hier faktisch nutzlos für LLMs.
- AMD Ryzen AI 300 NPU: Die iGPU schlägt auch hier die NPU. Aber: Die iGPU ist bis zu 27% schneller als Intels Lunar Lake.
Fazit: NPUs sind für vorinstallierte Copilot-Features gebaut, nicht für offene LLM-Inferenz. Kaufentscheidungen sollten sich an CPU/GPU-Leistung orientieren, nicht an der NPU.
Nicht für Zuhause: Groq, Cerebras & Co.
Groq LPU und Cerebras CS-3 sind die schnellsten LLM-Inferenz-Chips der Welt — aber reine Cloud/Enterprise-Produkte ohne jede Consumer-Verfügbarkeit. Zugang gibt es nur über deren Cloud-APIs. FPGAs für LLMs sind ein Forschungsthema, kein Consumer-Produkt.
Welches Modell passt auf welche Hardware?
VRAM ist der entscheidende Flaschenhals. Diese Matrix zeigt, wie viel Speicher aktuelle Modelle bei verschiedenen Quantisierungsstufen benötigen.
| Modellgröße | FP16 | Q8_0 | Q5_K_M | Q4_K_M | Q2_K |
|---|---|---|---|---|---|
| 7–8B Llama 3.1, Qwen3, Mistral | 14–16 GB | 7–9 GB | 5–6 GB | 4,5–5,5 GB | 2,5–3 GB |
| 13–14B Qwen3, Phi-4 | 26–28 GB | 13–14 GB | 9,5–10,5 GB | 8–9 GB | 4–5 GB |
| 27–34B Gemma 3 27B, DeepSeek 33B | 54–68 GB | 27–34 GB | 19–24 GB | 15–20 GB | 8–10 GB |
| 70–72B Llama 3.3, Qwen 2.5 | 140–144 GB | 70–72 GB | 50–55 GB | 40–46 GB | 22–25 GB |
| 405B Llama 3.1 405B | ~810 GB | ~405 GB | ~290 GB | ~230 GB | ~120 GB |
Zusätzlich zum Modell selbst muss der KV-Cache im Speicher Platz finden. Bei 4K Kontextlänge ist das minimal (1–3 GB bei 8B-Modellen). Bei 128K Kontext kann der KV-Cache allein über 40 GB beanspruchen — Flash Attention und quantisierter KV-Cache (Q4/Q8) reduzieren das um das 2–4-fache.
Praxisempfehlungen
| VRAM | Was passt | Beispiel-Hardware |
|---|---|---|
| 8–12 GB | 7–8B in Q4–Q8 | RTX 5060/5070 |
| 16 GB | 8B in Q8, 14B in Q4 | RTX 5070 Ti, 5080 |
| 24 GB | 8–14B bequem, 32B knapp in Q3 | RTX 4090, 3090, RX 7900 XTX |
| 32 GB | 32B in Q4 bequem | RTX 5090 |
| 48–64 GB | 70B in Q3–Q4 | Mac Mini M4 Pro, 2× RTX 3090 |
| 128 GB | 70B bequem, 405B in Q2 | Mac Studio M4 Max, Ryzen AI Max+, DGX Spark |
| 192+ GB | 405B in Q4 | Mac Studio M3 Ultra |
Quantisierung erklärt
Quantisierung reduziert die Präzision der Modellgewichte — weniger VRAM, schnellere Inferenz, aber potentieller Qualitätsverlust. Die gute Nachricht: Bei 4 Bit ist der Verlust erstaunlich gering.
GGUF-Formate im Vergleich
GGUF ist das Standardformat für llama.cpp und Ollama. Die gängigsten Varianten im Vergleich (gemessen an Llama 3.1 8B Instruct, Perplexity auf WikiText-2):
| Format | Perplexity | Größe vs. FP16 | Qualitätsverlust |
|---|---|---|---|
| FP16 | 7,32 (Baseline) | 100% | — |
| Q8_0 | 7,33 | 53% | Unmerklich |
| Q6_K | 7,35 | 41% | Unmerklich |
| Q5_K_M | ~7,40 | ~37% | Minimal |
| Q4_K_M | ~7,55 | ~30% | Gering |
| Q3_K_M | 7,96 | 25% | Spürbar |
| Q2_K | >9,0 | ~18% | Deutlich |
Wichtigste Erkenntnis: Q4_K_M zeigt auf Downstream-Benchmarks (GSM8K, HellaSwag, MMLU, TruthfulQA) nur ~0,4% Gesamtverlust gegenüber FP16. Der Cliff-Effekt tritt erst ab Q3 ein. Größere Modelle vertragen Quantisierung besser als kleinere — ein 70B in Q4 behält mehr Fähigkeit als ein 7B in Q4.
Empfehlungen nach Anwendungsfall
| Anwendung | Empfohlene Quantisierung | Begründung |
|---|---|---|
| Alltagschat, kreatives Schreiben | Q4_K_M | Kein merklicher Qualitätsunterschied, 2× schneller als Q8 |
| Coding-Assistenz | Q5_K_M oder Q6_K | Logik/Mathe empfindlicher; 15% mehr VRAM lohnen sich |
| Mathematisches Reasoning | Q8_0 oder Q6_K | Messbare GSM8K-Degradation bei Q4 |
| VRAM knapp | Q4_K_M (Minimum) | Unter Q4 wird Qualitätsverlust hörbar |
| Maximale Qualität | Q8_0 | Perplexity innerhalb 0,1% von FP16 |
Community-Konsens (Stand März 2026)
Q4_K_M für alltägliche Nutzung, Q5_K_M für aufgabenkritische Anwendungen, Q8_0 wenn VRAM keine Rolle spielt. Unter Q4 nur im Notfall.
Software-Stack für lokale Inferenz
Die richtige Software kann den Durchsatz um 30–80% verändern. Hier sind die wichtigsten Tools und wann man sie einsetzt.
llama.cpp
Die Basis für fast alles. C/C++ mit CUDA, Metal, Vulkan, ROCm. Höchste Rohleistung für Einzelnutzer (10–20% schneller als Ollama). Kein GUI, kein Model-Management — reines CLI-Tool.
Ollama
Go-Wrapper um llama.cpp mit Model-Management, REST-API und Daemon. Ein Befehl zum Installieren und Starten von Modellen. OpenAI-kompatible API. 5–20% langsamer als raw llama.cpp, aber dramatisch einfacher.
LM Studio
Polierte Desktop-App mit Hugging-Face-Browser, Chat-UI und lokalem API-Server. Unterstützt MLX als Backend auf macOS (30–50% schneller als GGUF). Beste Option für Einsteiger und Apple-Silicon-Nutzer.
Jan
Open-Source-Desktop-App ohne Telemetrie. Schlanker als LM Studio, fokussiert auf Privatsphäre. Kein MLX-Support (Stand März 2026). Ideal für datenschutzbewusste Nutzer.
vLLM
Produktionsstandard für Multi-User-Serving: PagedAttention, Continuous Batching, Tensor-Parallelismus. Bei 64 gleichzeitigen Nutzern 35× schneller als llama.cpp. Overkill für Einzelnutzer.
ExLlamaV2
NVIDIA-exklusiv mit eigenem EXL2-Format (flexible Bit-Breiten wie 4,25-Bit). Schneller als llama.cpp bei Prompt-Verarbeitung. Eigenes Quantisierungsökosystem — nicht kompatibel mit GGUF.
Entscheidungshilfe
| Szenario | Empfehlung |
|---|---|
| Einzelnutzer, max. Speed, NVIDIA | ExLlamaV2 oder llama.cpp |
| Einzelnutzer, einfache Nutzung | Ollama (CLI) oder LM Studio (GUI) |
| Apple Silicon, max. Speed | LM Studio (MLX-Backend) oder mlx-lm |
| Mehrere Nutzer gleichzeitig | vLLM |
| Maximale Privatsphäre | Jan (Desktop) oder llama.cpp (Server) |
| Prototyping & Entwicklung | Ollama |
Methodik & Quellen
Benchmark-Daten stammen primär von hardware-corner.net (Januar 2026, llama-bench, Ubuntu 24.04, CUDA 12.8, Q4_K_XL), ergänzt durch DatabaseMart Ollama-Benchmarks, Red Hat vLLM-Vergleiche und Community-Messungen aus r/LocalLLaMA.
Preise beziehen sich auf den deutschen Markt (Amazon.de, Geizhals, eBay) im März 2026. GPU-Preise ändern sich täglich — die Angaben sind Richtwerte, keine garantierten Preise.
Apple-Silicon-Benchmarks sind aus Community-Quellen (MacRumors, InsiderLLM, LinkedIn-Posts) aggregiert. MLX vs. llama.cpp-Unterschiede sind signifikant — die angegebenen tok/s beziehen sich auf das jeweils schnellere Framework.
Quantisierungsdaten basieren auf der Studie „Which Quantization Should I Use?“ (arxiv 2601.14277, Januar 2025) und r/LocalLLaMA-Konsens.
Hinweis zur Vergleichbarkeit: Benchmarks aus verschiedenen Quellen nutzen unterschiedliche Modelle, Kontextlängen und Software-Versionen. Die Zahlen sind richtungsweisend, aber nicht direkt zwischen Quellen vergleichbar.
Ausgewählte Quellen:
- hardware-corner.net — GPU LLM Benchmarks (Januar 2026)
- bestvaluegpu.com — GPU-Preistracker EU (März 2026)
- Apple Newsroom — M5 Pro/Max Specs (März 2026)
- arxiv 2601.14277 — Quantization Evaluation (Januar 2025)
- Red Hat Developer Blog — Ollama vs. vLLM Benchmarks (August 2025)
- Tom’s Hardware — RTX 50-Serie, Tinybox, DGX Spark Reviews
- NVIDIA Developer Forums — DGX Spark Performance (Oktober 2025)
- AMD Developer Resources — Ryzen AI Max+ LLM Performance
- cnx-software.com — Raspberry Pi AI HAT+ 2 Review (Januar 2026)