Überblick

Quick-Reference-Tabelle

Alle aktuell relevanten Optionen auf einen Blick — sortierbar per Klick auf die Spaltenüberschriften.

Hardware VRAM / RAM Bandbreite 8B Q4 tok/s 70B Q4 tok/s ca. Preis € Tier
RTX 5090 32 GB 1.792 GB/s 186 Passt nicht in 32 GB 3.600 High-End
RTX 5080 16 GB 960 GB/s ~140 1.300 Mittelklasse
RTX 5070 Ti 16 GB 896 GB/s ~130 957 Mittelklasse
RTX 5070 12 GB 672 GB/s ~100 590 Budget
RTX 5060 Ti 16GB 16 GB ~448 GB/s ~70 490 Budget
RTX 4090 Produktion eingestellt 24 GB 1.008 GB/s 131 Nur mit CPU-Offload 2.300 High-End
RTX 3090 Nur gebraucht 24 GB 936 GB/s ~104 700–1.100 Budget
RX 7900 XTX AMD, ROCm/Linux 24 GB 960 GB/s ~100 949–1.100 Mittelklasse
Mac Mini M4 Pro 48–64 GB Unified 64 GB 273 GB/s 40–55 ~8–12 ab 1.500 Mittelklasse
MacBook Pro M5 Max 128 GB Unified 128 GB 614 GB/s 80–100 18–25 ab 4.100 High-End
Mac Studio M4 Max 128 GB Unified 128 GB 546 GB/s 80–100 18–25 ab 2.800 High-End
Mac Studio M3 Ultra 192 GB Unified 192 GB 819 GB/s ~100 ~30 ab 4.200 High-End
Ryzen AI Max+ 395 Mini-PC, 128 GB Unified 128 GB ~256 GB/s ~60 20–30 ab 800 Mittelklasse
NVIDIA DGX Spark 128 GB 273 GB/s ~80 ~5 3.700 High-End
Tinybox Red v2 6× RX 7900 XTX 144 GB ~5.760 GB/s ~60–80 13.800 Prosumer
Kaufberatung

Was bekommt man für sein Geld?

Fünf Budget-Stufen — von der Einsteiger-GPU bis zum Profi-Setup. Die Empfehlungen gelten für März 2026.

Unter 600 €

Einstieg

  • RTX 5070 (~590 €) — 12 GB GDDR7, 672 GB/s. Reicht für 7B–13B-Modelle in Q4-Quantisierung bei ~100 tok/s. Beste Preis-Leistung im Budget-Segment.
  • RTX 5060 Ti 16GB (~490 €) — 16 GB, aber nur ~448 GB/s. Mehr VRAM, deutlich langsamer. Nur sinnvoll, wenn 14B-Modelle wichtiger sind als Geschwindigkeit.

Empfehlung

RTX 5070 für maximale Geschwindigkeit bei 7–8B-Modellen. Wer 14B-Modelle braucht, greift zur 5060 Ti 16GB.

600 – 1.200 €

Goldener Mittelweg

  • RTX 3090 (gebraucht) (~700–900 €) — 24 GB GDDR6X, 936 GB/s. Der „Value King“ für lokale KI: meister VRAM pro Euro, hohe Bandbreite. Risiko: gebrauchte Hardware ohne Garantie.
  • RTX 5070 Ti (~957 €) — 16 GB GDDR7, 896 GB/s. Neue Hardware mit zukunftssicherem GDDR7, aber nur 16 GB VRAM.
  • RX 7900 XTX (~949 €) — 24 GB, 960 GB/s. Konkurrenzfähig zu NVIDIA — aber nur unter Linux mit ROCm zuverlässig.

Empfehlung

RTX 3090 gebraucht, wenn 24 GB VRAM Priorität haben. RTX 5070 Ti für neue Hardware. AMD nur für erfahrene Linux-Nutzer.

1.200 – 3.000 €

Ernsthaft lokal

  • Mac Mini M4 Pro (64 GB) (~2.400 €) — 64 GB Unified Memory, 273 GB/s. Kann 70B-Modelle in Q4 laden. Leise, stromsparend, hervorragendes Preis-Leistungs-Verhältnis für große Modelle.
  • Mac Studio M4 Max (128 GB) (ab ~2.800 €) — 128 GB, 546 GB/s. Lädt 70B bequem, 18–25 tok/s bei Q4.
  • Ryzen AI Max+ 395 Mini-PC (ab ~800 €) — 128 GB Unified Memory. Laut AMD 2,2× schneller als RTX 4090 bei 70B-Modellen. Preisbrecher für große Modelle.

Empfehlung

Für 70B-Modelle: Ryzen AI Max+ 395 als Preis-Leistungs-Sieger oder Mac Studio M4 Max für das reifere Ökosystem (MLX/Metal). Für Modelle bis 32B: RTX 5080 oder 5070 Ti.

3.000 – 5.000 €

Maximum Consumer

  • RTX 5090 (~3.600 €) — 32 GB GDDR7, 1.792 GB/s. Schnellste Consumer-GPU überhaupt: 186 tok/s bei 8B, 61 tok/s bei 32B. Aber nur 32 GB VRAM — 70B passt nicht rein.
  • NVIDIA DGX Spark (~3.700 €) — 128 GB, Grace Blackwell Chip. Kompaktestes Gerät für 100B+-Modelle. Token-Generierung aber langsam wegen LPDDR5X-Bandbreite.
  • Mac Studio M3 Ultra (192 GB) (ab ~4.200 €) — 192 GB, 819 GB/s. Kann 405B in Q4 laden. Schnellste Consumer-Plattform für große Modelle.

Empfehlung

RTX 5090 für maximale Geschwindigkeit bei Modellen bis 32B. Mac Studio M3 Ultra für 70B+ ohne Kompromisse. DGX Spark für CUDA-Ökosystem und Modelle über 100B.

Über 5.000 €

Prosumer & Server

  • Tinybox Red v2 (~13.800 €) — 6× RX 7900 XTX, 144 GB gesamt. Multi-GPU-Cluster für Training und große Modelle. Läuft auf tinygrad/ROCm.
  • Tinybox Green v2 (~23.000 €) — 4× RTX 5090, 128 GB, ~7,2 TB/s aggregierte Bandbreite. Höchste Bandbreite im Consumer-Bereich.
  • A100 80GB (gebraucht) (~8.000–15.000 €) — 80 GB HBM2e, 2.000 GB/s. Braucht Server-Infrastruktur, passive Kühlung. Nur für dedizierte Inference-Server.

Empfehlung

Tinybox Red v2 als günstigstes Multi-GPU-System. H100/MI300X sind Enterprise-Hardware und für Zuhause nicht praktikabel — Cloud-Rental ist hier rationaler.

Diskrete GPUs

NVIDIA-GPUs im Detail

NVIDIA dominiert das Ökosystem für lokale LLM-Inferenz — dank CUDA, dem breitesten Software-Support und der höchsten Rohbandbreite pro Karte.

RTX 50-Serie (Blackwell, 2025)

Die aktuelle Generation bringt GDDR7-Speicher mit deutlich höherer Bandbreite. Die RTX 5090 (32 GB, 1.792 GB/s) ist die schnellste Consumer-GPU für Inferenz, kostet aber aktuell ~3.600 € bei eingeschränkter Verfügbarkeit (MSRP: ~2.160 €).

Die RTX 5070 Ti (16 GB, 896 GB/s, ~957 €) bietet das beste Preis-Leistungs-Verhältnis bei neuer Hardware im 16-GB-Segment. Die RTX 5070 (12 GB, 672 GB/s, ~590 €) ist der Einstiegstipp.

ModellVRAMBandbreiteTDPPreis €8B Q4 tok/s32B Q4 tok/s
RTX 509032 GB GDDR71.792 GB/s575 W~3.60018661
RTX 508016 GB GDDR7960 GB/s360 W~1.300~140
RTX 5070 Ti16 GB GDDR7896 GB/s300 W~957~130
RTX 507012 GB GDDR7672 GB/s250 W~590~100
RTX 5060 Ti 16GB16 GB GDDR7~448 GB/s~165 W~490~70

RTX 40-Serie & 3090 (Vorgänger)

Die RTX 4090 (24 GB, 1.008 GB/s) war der Goldstandard — Produktion wurde aber im Oktober 2024 eingestellt. Restbestände kosten ~2.300 €, gebraucht ~2.180 €. Bei diesen Preisen ist die RTX 5090 die bessere Wahl.

Die RTX 3090 (24 GB, 936 GB/s) bleibt gebraucht für ~700–1.100 € der unangefochtene Preis-Leistungs-König: 24 GB VRAM bei fast RTX-4090-Bandbreite zu einem Bruchteil des Preises. Risiken: keine Garantie, unbekannte thermische Historie.

Andere 40er-Karten (4080 Super, 4070 Ti Super, 4060 Ti 16GB) sind in März 2026 überpreist — die 50er-Pendants bieten mehr Leistung für gleiches oder weniger Geld.

ModellVRAMBandbreitePreis €8B Q4 tok/sStatus
RTX 409024 GB GDDR6X1.008 GB/s~2.300131Überpreist
RTX 3090 (gebraucht)24 GB GDDR6X936 GB/s700–1.100~104Value King
RTX 4080 Super16 GB GDDR6X736 GB/s~1.359~95Nicht empfohlen
RTX 4060 Ti 16GB16 GB GDDR6288 GB/s~400~50Zu langsam
Unified Memory

Apple Silicon im Detail

Apples Unified-Memory-Architektur hat einen entscheidenden Vorteil: CPU und GPU teilen sich denselben Speicherpool. Ein Mac mit 128 GB RAM kann ein 70B-Modell komplett laden — keine diskrete GPU kann das.

Wichtig: Es gibt keinen M4 Ultra — Apple hat diese Chipvariante übersprungen. Der Mac Studio 2025 nutzt M4 Max oder M3 Ultra. Die M5-Generation (M5 Pro/Max) ist seit März 2026 im MacBook Pro verfügbar, M5 Ultra wird für Mitte 2026 erwartet.

Auf Apple Silicon liefert MLX (Apples ML-Framework) 30–80% höheren Durchsatz als llama.cpp. LM Studio bietet MLX als wählbares Backend — der einfachste Weg zu maximaler Performance auf dem Mac.

KonfigurationUnified MemoryBandbreite8B Q4 tok/s70B Q4 tok/sca. Preis €
Mac Mini M4 (Basis)16–24 GB120 GB/s~25–35ab 799
Mac Mini M4 Pro24–64 GB273 GB/s40–55~8–12ab 1.500
MacBook Pro M5 Probis 64 GB307 GB/s~50–65~10–15ab 2.300
MacBook Pro M5 Maxbis 128 GB614 GB/s80–10018–25ab 4.100
Mac Studio M4 Maxbis 128 GB546 GB/s80–10018–25ab 2.800
Mac Studio M3 Ultrabis 192 GB819 GB/s~100~30ab 4.200

Wann Apple Silicon?

Wenn große Modelle (70B+) wichtig sind und man leise, stromsparende Hardware will. Die Geschwindigkeit pro Token liegt unter NVIDIA-GPUs gleicher Preisklasse — aber der riesige Speicherpool macht Modelle möglich, die auf keiner einzelnen Consumer-GPU laufen.

Alternative

AMD-GPUs & APUs

AMD bietet mit der RX 7900 XTX eine konkurrenzfähige diskrete GPU und mit dem Ryzen AI Max+ 395 einen überraschend starken Unified-Memory-Chip.

RX 7900 XTX (RDNA 3)

24 GB GDDR6 bei 960 GB/s — auf dem Papier identisch zur RTX 5080. Der Preis (~949–1.100 €) ist kompetitiv. Aber: ROCm-Support funktioniert zuverlässig nur unter Linux. Windows-Support ist deutlich weniger stabil. AMD hat 2026 keine RDNA-4-Karte mit 24+ GB veröffentlicht — die 7900 XTX bleibt AMDs einzige ernstzunehmende Option für LLM-Inferenz.

Ryzen AI Max+ 395 (Strix Halo)

Der Überraschungskandidat: Ein Desktop-APU mit bis zu 128 GB Unified Memory, 40 RDNA-3.5-Compute-Units (iGPU auf RX-7700-XT-Niveau) und 50 TOPS NPU. Verfügbar in Mini-PCs von Framework, Minisforum und ASUS ab ~800 €.

AMD behauptet, der Chip sei bei Llama 3.3 70B 2,2× schneller als eine RTX 4090 — weil die 4090 das Modell nicht in ihre 24 GB laden kann und auf CPU-Offload angewiesen ist. Community-Benchmarks bestätigen 20–30 tok/s bei 70B-Modellen und 60+ tok/s bei 8B.

Einschätzung Ryzen AI Max+

Einer der spannendsten Neuzugänge für Home-Inferenz. 128 GB Unified Memory für unter 2.000 € schlägt jede diskrete GPU bei großen Modellen. Die iGPU übernimmt die Arbeit — der integrierte NPU ist für LLMs aktuell irrelevant.

Spezialhardware

Spezialisierte Inferenz-Hardware

Jenseits von GPUs und Macs: Dedizierte KI-Beschleuniger, Cluster-Lösungen und warum die meisten davon für Endnutzer (noch) nicht relevant sind.

NVIDIA DGX Spark

Das wichtigste neue Consumer-KI-Gerät des Jahres 2025: Ein Grace-Blackwell-Superchip im Format kleiner als ein Mac Mini (150 × 150 × 50 mm), seit Oktober 2025 für 3.999 USD (~3.700 €) bei NVIDIA und Partnern (ASUS, Dell, Lenovo) erhältlich.

128 GB LPDDR5X Unified Memory ermöglichen Modelle bis ~200B Parameter. Der Haken: LPDDR5X liefert nur 273 GB/s Bandbreite — die Token-Generierung bei 70B liegt bei nur ~5 tok/s. Prompt-Verarbeitung (Prefill) ist dagegen stark. Der DGX Spark glänzt bei Kapazität, nicht bei Geschwindigkeit — und bietet vollen CUDA-Support.

Tinybox (tiny corp)

Von George Hotz gegründete (inzwischen ohne ihn weiterführte) Firma, die Multi-GPU-Cluster als fertige Systeme verkauft. Der Tinybox Red v2 (6× RX 7900 XTX, 144 GB, ~13.800 €) und Tinybox Green v2 (4× RTX 5090, 128 GB, ~23.000 €) sind verfügbar und liefern innerhalb einer Woche. Eher für Training als für Single-User-Inferenz optimiert.

Hailo-10H / Raspberry Pi AI HAT+ 2

Der zugänglichste dedizierte Inferenz-Beschleuniger: 40 TOPS INT4, 8 GB LPDDR4X, als HAT für den Raspberry Pi 5 für 130 USD erhältlich (seit Januar 2026). Kann kleine Modelle (Qwen2 1.5B: ~9,5 tok/s) lokal betreiben — ideal für Always-On-Chatbots oder Sprachassistenten auf dem Pi. Für ernsthafte LLM-Arbeit zu klein.

Laptop-NPUs: Intel, Qualcomm, AMD

Alle aktuellen „Copilot+ PCs“ haben NPUs (45–50 TOPS). Die ernüchternde Realität für LLM-Inferenz:

  • Intel Lunar Lake NPU: ~18 tok/s bei Llama 2 7B. Die iGPU ist meist schneller.
  • Qualcomm Snapdragon X Elite NPU: ~2,6 tok/s bei llama.cpp — die CPU schafft ~26 tok/s. Die NPU ist hier faktisch nutzlos für LLMs.
  • AMD Ryzen AI 300 NPU: Die iGPU schlägt auch hier die NPU. Aber: Die iGPU ist bis zu 27% schneller als Intels Lunar Lake.

Fazit: NPUs sind für vorinstallierte Copilot-Features gebaut, nicht für offene LLM-Inferenz. Kaufentscheidungen sollten sich an CPU/GPU-Leistung orientieren, nicht an der NPU.

Nicht für Zuhause: Groq, Cerebras & Co.

Groq LPU und Cerebras CS-3 sind die schnellsten LLM-Inferenz-Chips der Welt — aber reine Cloud/Enterprise-Produkte ohne jede Consumer-Verfügbarkeit. Zugang gibt es nur über deren Cloud-APIs. FPGAs für LLMs sind ein Forschungsthema, kein Consumer-Produkt.

Kompatibilität

Welches Modell passt auf welche Hardware?

VRAM ist der entscheidende Flaschenhals. Diese Matrix zeigt, wie viel Speicher aktuelle Modelle bei verschiedenen Quantisierungsstufen benötigen.

ModellgrößeFP16Q8_0Q5_K_MQ4_K_MQ2_K
7–8B Llama 3.1, Qwen3, Mistral14–16 GB7–9 GB5–6 GB4,5–5,5 GB2,5–3 GB
13–14B Qwen3, Phi-426–28 GB13–14 GB9,5–10,5 GB8–9 GB4–5 GB
27–34B Gemma 3 27B, DeepSeek 33B54–68 GB27–34 GB19–24 GB15–20 GB8–10 GB
70–72B Llama 3.3, Qwen 2.5140–144 GB70–72 GB50–55 GB40–46 GB22–25 GB
405B Llama 3.1 405B~810 GB~405 GB~290 GB~230 GB~120 GB

Zusätzlich zum Modell selbst muss der KV-Cache im Speicher Platz finden. Bei 4K Kontextlänge ist das minimal (1–3 GB bei 8B-Modellen). Bei 128K Kontext kann der KV-Cache allein über 40 GB beanspruchen — Flash Attention und quantisierter KV-Cache (Q4/Q8) reduzieren das um das 2–4-fache.

Praxisempfehlungen

VRAMWas passtBeispiel-Hardware
8–12 GB7–8B in Q4–Q8RTX 5060/5070
16 GB8B in Q8, 14B in Q4RTX 5070 Ti, 5080
24 GB8–14B bequem, 32B knapp in Q3RTX 4090, 3090, RX 7900 XTX
32 GB32B in Q4 bequemRTX 5090
48–64 GB70B in Q3–Q4Mac Mini M4 Pro, 2× RTX 3090
128 GB70B bequem, 405B in Q2Mac Studio M4 Max, Ryzen AI Max+, DGX Spark
192+ GB405B in Q4Mac Studio M3 Ultra
Grundlagen

Quantisierung erklärt

Quantisierung reduziert die Präzision der Modellgewichte — weniger VRAM, schnellere Inferenz, aber potentieller Qualitätsverlust. Die gute Nachricht: Bei 4 Bit ist der Verlust erstaunlich gering.

GGUF-Formate im Vergleich

GGUF ist das Standardformat für llama.cpp und Ollama. Die gängigsten Varianten im Vergleich (gemessen an Llama 3.1 8B Instruct, Perplexity auf WikiText-2):

FormatPerplexityGröße vs. FP16Qualitätsverlust
FP167,32 (Baseline)100%
Q8_07,3353%Unmerklich
Q6_K7,3541%Unmerklich
Q5_K_M~7,40~37%Minimal
Q4_K_M~7,55~30%Gering
Q3_K_M7,9625%Spürbar
Q2_K>9,0~18%Deutlich

Wichtigste Erkenntnis: Q4_K_M zeigt auf Downstream-Benchmarks (GSM8K, HellaSwag, MMLU, TruthfulQA) nur ~0,4% Gesamtverlust gegenüber FP16. Der Cliff-Effekt tritt erst ab Q3 ein. Größere Modelle vertragen Quantisierung besser als kleinere — ein 70B in Q4 behält mehr Fähigkeit als ein 7B in Q4.

Empfehlungen nach Anwendungsfall

AnwendungEmpfohlene QuantisierungBegründung
Alltagschat, kreatives SchreibenQ4_K_MKein merklicher Qualitätsunterschied, 2× schneller als Q8
Coding-AssistenzQ5_K_M oder Q6_KLogik/Mathe empfindlicher; 15% mehr VRAM lohnen sich
Mathematisches ReasoningQ8_0 oder Q6_KMessbare GSM8K-Degradation bei Q4
VRAM knappQ4_K_M (Minimum)Unter Q4 wird Qualitätsverlust hörbar
Maximale QualitätQ8_0Perplexity innerhalb 0,1% von FP16

Community-Konsens (Stand März 2026)

Q4_K_M für alltägliche Nutzung, Q5_K_M für aufgabenkritische Anwendungen, Q8_0 wenn VRAM keine Rolle spielt. Unter Q4 nur im Notfall.

Software

Software-Stack für lokale Inferenz

Die richtige Software kann den Durchsatz um 30–80% verändern. Hier sind die wichtigsten Tools und wann man sie einsetzt.

llama.cpp

Engine · Max. Performance

Die Basis für fast alles. C/C++ mit CUDA, Metal, Vulkan, ROCm. Höchste Rohleistung für Einzelnutzer (10–20% schneller als Ollama). Kein GUI, kein Model-Management — reines CLI-Tool.

Ollama

CLI/API · Entwickler-Favorit

Go-Wrapper um llama.cpp mit Model-Management, REST-API und Daemon. Ein Befehl zum Installieren und Starten von Modellen. OpenAI-kompatible API. 5–20% langsamer als raw llama.cpp, aber dramatisch einfacher.

LM Studio

GUI · Desktop-App

Polierte Desktop-App mit Hugging-Face-Browser, Chat-UI und lokalem API-Server. Unterstützt MLX als Backend auf macOS (30–50% schneller als GGUF). Beste Option für Einsteiger und Apple-Silicon-Nutzer.

Jan

GUI · Privacy-First

Open-Source-Desktop-App ohne Telemetrie. Schlanker als LM Studio, fokussiert auf Privatsphäre. Kein MLX-Support (Stand März 2026). Ideal für datenschutzbewusste Nutzer.

vLLM

Server · Multi-User

Produktionsstandard für Multi-User-Serving: PagedAttention, Continuous Batching, Tensor-Parallelismus. Bei 64 gleichzeitigen Nutzern 35× schneller als llama.cpp. Overkill für Einzelnutzer.

ExLlamaV2

Engine · NVIDIA-Only

NVIDIA-exklusiv mit eigenem EXL2-Format (flexible Bit-Breiten wie 4,25-Bit). Schneller als llama.cpp bei Prompt-Verarbeitung. Eigenes Quantisierungsökosystem — nicht kompatibel mit GGUF.

Entscheidungshilfe

SzenarioEmpfehlung
Einzelnutzer, max. Speed, NVIDIAExLlamaV2 oder llama.cpp
Einzelnutzer, einfache NutzungOllama (CLI) oder LM Studio (GUI)
Apple Silicon, max. SpeedLM Studio (MLX-Backend) oder mlx-lm
Mehrere Nutzer gleichzeitigvLLM
Maximale PrivatsphäreJan (Desktop) oder llama.cpp (Server)
Prototyping & EntwicklungOllama
Transparenz

Methodik & Quellen

Benchmark-Daten stammen primär von hardware-corner.net (Januar 2026, llama-bench, Ubuntu 24.04, CUDA 12.8, Q4_K_XL), ergänzt durch DatabaseMart Ollama-Benchmarks, Red Hat vLLM-Vergleiche und Community-Messungen aus r/LocalLLaMA.

Preise beziehen sich auf den deutschen Markt (Amazon.de, Geizhals, eBay) im März 2026. GPU-Preise ändern sich täglich — die Angaben sind Richtwerte, keine garantierten Preise.

Apple-Silicon-Benchmarks sind aus Community-Quellen (MacRumors, InsiderLLM, LinkedIn-Posts) aggregiert. MLX vs. llama.cpp-Unterschiede sind signifikant — die angegebenen tok/s beziehen sich auf das jeweils schnellere Framework.

Quantisierungsdaten basieren auf der Studie „Which Quantization Should I Use?“ (arxiv 2601.14277, Januar 2025) und r/LocalLLaMA-Konsens.

Hinweis zur Vergleichbarkeit: Benchmarks aus verschiedenen Quellen nutzen unterschiedliche Modelle, Kontextlängen und Software-Versionen. Die Zahlen sind richtungsweisend, aber nicht direkt zwischen Quellen vergleichbar.

Ausgewählte Quellen:

  • hardware-corner.net — GPU LLM Benchmarks (Januar 2026)
  • bestvaluegpu.com — GPU-Preistracker EU (März 2026)
  • Apple Newsroom — M5 Pro/Max Specs (März 2026)
  • arxiv 2601.14277 — Quantization Evaluation (Januar 2025)
  • Red Hat Developer Blog — Ollama vs. vLLM Benchmarks (August 2025)
  • Tom’s Hardware — RTX 50-Serie, Tinybox, DGX Spark Reviews
  • NVIDIA Developer Forums — DGX Spark Performance (Oktober 2025)
  • AMD Developer Resources — Ryzen AI Max+ LLM Performance
  • cnx-software.com — Raspberry Pi AI HAT+ 2 Review (Januar 2026)