Die Inferenz — Hardware-Guide: KI-Inferenz für Zuhause

Überblick

Quick-Reference-Tabelle

Alle aktuell relevanten Optionen auf einen Blick — sortierbar per Klick auf die Spaltenüberschriften.

Hardware ⇅	VRAM / RAM ⇅	Bandbreite ⇅	8B Q4 tok/s ⇅	70B Q4 tok/s ⇅	ca. Preis € ⇅	Tier ⇅
RTX 5090	32 GB	1.792 GB/s	186	—Passt nicht in 32 GB	3.600	High-End
RTX 5080	16 GB	960 GB/s	~140	—	1.300	Mittelklasse
RTX 5070 Ti	16 GB	896 GB/s	~130	—	957	Mittelklasse
RTX 5070	12 GB	672 GB/s	~100	—	590	Budget
RTX 5060 Ti 16GB	16 GB	~448 GB/s	~70	—	490	Budget
RTX 4090 Produktion eingestellt	24 GB	1.008 GB/s	131	—Nur mit CPU-Offload	2.300	High-End
RTX 3090 Nur gebraucht	24 GB	936 GB/s	~104	—	700–1.100	Budget
RX 7900 XTX AMD, ROCm/Linux	24 GB	960 GB/s	~100	—	949–1.100	Mittelklasse
Mac Mini M4 Pro 48–64 GB Unified	64 GB	273 GB/s	40–55	~8–12	ab 1.500	Mittelklasse
MacBook Pro M5 Max 128 GB Unified	128 GB	614 GB/s	80–100	18–25	ab 4.100	High-End
Mac Studio M4 Max 128 GB Unified	128 GB	546 GB/s	80–100	18–25	ab 2.800	High-End
Mac Studio M3 Ultra 192 GB Unified	192 GB	819 GB/s	~100	~30	ab 4.200	High-End
Ryzen AI Max+ 395 Mini-PC, 128 GB Unified	128 GB	~256 GB/s	~60	20–30	ab 800	Mittelklasse
NVIDIA DGX Spark	128 GB	273 GB/s	~80	~5	3.700	High-End
Tinybox Red v2 6× RX 7900 XTX	144 GB	~5.760 GB/s	—	~60–80	13.800	Prosumer

Kaufberatung

Was bekommt man für sein Geld?

Fünf Budget-Stufen — von der Einsteiger-GPU bis zum Profi-Setup. Die Empfehlungen gelten für März 2026.

Unter 600 €

Einstieg

RTX 5070 (~590 €) — 12 GB GDDR7, 672 GB/s. Reicht für 7B–13B-Modelle in Q4-Quantisierung bei ~100 tok/s. Beste Preis-Leistung im Budget-Segment.
RTX 5060 Ti 16GB (~490 €) — 16 GB, aber nur ~448 GB/s. Mehr VRAM, deutlich langsamer. Nur sinnvoll, wenn 14B-Modelle wichtiger sind als Geschwindigkeit.

Empfehlung

RTX 5070 für maximale Geschwindigkeit bei 7–8B-Modellen. Wer 14B-Modelle braucht, greift zur 5060 Ti 16GB.

600 – 1.200 €

Goldener Mittelweg

RTX 3090 (gebraucht) (~700–900 €) — 24 GB GDDR6X, 936 GB/s. Der „Value King“ für lokale KI: meister VRAM pro Euro, hohe Bandbreite. Risiko: gebrauchte Hardware ohne Garantie.
RTX 5070 Ti (~957 €) — 16 GB GDDR7, 896 GB/s. Neue Hardware mit zukunftssicherem GDDR7, aber nur 16 GB VRAM.
RX 7900 XTX (~949 €) — 24 GB, 960 GB/s. Konkurrenzfähig zu NVIDIA — aber nur unter Linux mit ROCm zuverlässig.

Empfehlung

RTX 3090 gebraucht, wenn 24 GB VRAM Priorität haben. RTX 5070 Ti für neue Hardware. AMD nur für erfahrene Linux-Nutzer.

1.200 – 3.000 €

Ernsthaft lokal

Mac Mini M4 Pro (64 GB) (~2.400 €) — 64 GB Unified Memory, 273 GB/s. Kann 70B-Modelle in Q4 laden. Leise, stromsparend, hervorragendes Preis-Leistungs-Verhältnis für große Modelle.
Mac Studio M4 Max (128 GB) (ab ~2.800 €) — 128 GB, 546 GB/s. Lädt 70B bequem, 18–25 tok/s bei Q4.
Ryzen AI Max+ 395 Mini-PC (ab ~800 €) — 128 GB Unified Memory. Laut AMD 2,2× schneller als RTX 4090 bei 70B-Modellen. Preisbrecher für große Modelle.

Empfehlung

Für 70B-Modelle: Ryzen AI Max+ 395 als Preis-Leistungs-Sieger oder Mac Studio M4 Max für das reifere Ökosystem (MLX/Metal). Für Modelle bis 32B: RTX 5080 oder 5070 Ti.

3.000 – 5.000 €

Maximum Consumer

RTX 5090 (~3.600 €) — 32 GB GDDR7, 1.792 GB/s. Schnellste Consumer-GPU überhaupt: 186 tok/s bei 8B, 61 tok/s bei 32B. Aber nur 32 GB VRAM — 70B passt nicht rein.
NVIDIA DGX Spark (~3.700 €) — 128 GB, Grace Blackwell Chip. Kompaktestes Gerät für 100B+-Modelle. Token-Generierung aber langsam wegen LPDDR5X-Bandbreite.
Mac Studio M3 Ultra (192 GB) (ab ~4.200 €) — 192 GB, 819 GB/s. Kann 405B in Q4 laden. Schnellste Consumer-Plattform für große Modelle.

Empfehlung

RTX 5090 für maximale Geschwindigkeit bei Modellen bis 32B. Mac Studio M3 Ultra für 70B+ ohne Kompromisse. DGX Spark für CUDA-Ökosystem und Modelle über 100B.

Über 5.000 €

Prosumer & Server

Tinybox Red v2 (~13.800 €) — 6× RX 7900 XTX, 144 GB gesamt. Multi-GPU-Cluster für Training und große Modelle. Läuft auf tinygrad/ROCm.
Tinybox Green v2 (~23.000 €) — 4× RTX 5090, 128 GB, ~7,2 TB/s aggregierte Bandbreite. Höchste Bandbreite im Consumer-Bereich.
A100 80GB (gebraucht) (~8.000–15.000 €) — 80 GB HBM2e, 2.000 GB/s. Braucht Server-Infrastruktur, passive Kühlung. Nur für dedizierte Inference-Server.

Empfehlung

Tinybox Red v2 als günstigstes Multi-GPU-System. H100/MI300X sind Enterprise-Hardware und für Zuhause nicht praktikabel — Cloud-Rental ist hier rationaler.

Diskrete GPUs

NVIDIA-GPUs im Detail

NVIDIA dominiert das Ökosystem für lokale LLM-Inferenz — dank CUDA, dem breitesten Software-Support und der höchsten Rohbandbreite pro Karte.

RTX 50-Serie (Blackwell, 2025)

Die aktuelle Generation bringt GDDR7-Speicher mit deutlich höherer Bandbreite. Die RTX 5090 (32 GB, 1.792 GB/s) ist die schnellste Consumer-GPU für Inferenz, kostet aber aktuell ~3.600 € bei eingeschränkter Verfügbarkeit (MSRP: ~2.160 €).

Die RTX 5070 Ti (16 GB, 896 GB/s, ~957 €) bietet das beste Preis-Leistungs-Verhältnis bei neuer Hardware im 16-GB-Segment. Die RTX 5070 (12 GB, 672 GB/s, ~590 €) ist der Einstiegstipp.

Modell	VRAM	Bandbreite	TDP	Preis €	8B Q4 tok/s	32B Q4 tok/s
RTX 5090	32 GB GDDR7	1.792 GB/s	575 W	~3.600	186	61
RTX 5080	16 GB GDDR7	960 GB/s	360 W	~1.300	~140	—
RTX 5070 Ti	16 GB GDDR7	896 GB/s	300 W	~957	~130	—
RTX 5070	12 GB GDDR7	672 GB/s	250 W	~590	~100	—
RTX 5060 Ti 16GB	16 GB GDDR7	~448 GB/s	~165 W	~490	~70	—

RTX 40-Serie & 3090 (Vorgänger)

Die RTX 4090 (24 GB, 1.008 GB/s) war der Goldstandard — Produktion wurde aber im Oktober 2024 eingestellt. Restbestände kosten ~2.300 €, gebraucht ~2.180 €. Bei diesen Preisen ist die RTX 5090 die bessere Wahl.

Die RTX 3090 (24 GB, 936 GB/s) bleibt gebraucht für ~700–1.100 € der unangefochtene Preis-Leistungs-König: 24 GB VRAM bei fast RTX-4090-Bandbreite zu einem Bruchteil des Preises. Risiken: keine Garantie, unbekannte thermische Historie.

Andere 40er-Karten (4080 Super, 4070 Ti Super, 4060 Ti 16GB) sind in März 2026 überpreist — die 50er-Pendants bieten mehr Leistung für gleiches oder weniger Geld.

Modell	VRAM	Bandbreite	Preis €	8B Q4 tok/s	Status
RTX 4090	24 GB GDDR6X	1.008 GB/s	~2.300	131	Überpreist
RTX 3090 (gebraucht)	24 GB GDDR6X	936 GB/s	700–1.100	~104	Value King
RTX 4080 Super	16 GB GDDR6X	736 GB/s	~1.359	~95	Nicht empfohlen
RTX 4060 Ti 16GB	16 GB GDDR6	288 GB/s	~400	~50	Zu langsam

Unified Memory

Apple Silicon im Detail

Apples Unified-Memory-Architektur hat einen entscheidenden Vorteil: CPU und GPU teilen sich denselben Speicherpool. Ein Mac mit 128 GB RAM kann ein 70B-Modell komplett laden — keine diskrete GPU kann das.

Wichtig: Es gibt keinen M4 Ultra — Apple hat diese Chipvariante übersprungen. Der Mac Studio 2025 nutzt M4 Max oder M3 Ultra. Die M5-Generation (M5 Pro/Max) ist seit März 2026 im MacBook Pro verfügbar, M5 Ultra wird für Mitte 2026 erwartet.

Auf Apple Silicon liefert MLX (Apples ML-Framework) 30–80% höheren Durchsatz als llama.cpp. LM Studio bietet MLX als wählbares Backend — der einfachste Weg zu maximaler Performance auf dem Mac.

Konfiguration	Unified Memory	Bandbreite	8B Q4 tok/s	70B Q4 tok/s	ca. Preis €
Mac Mini M4 (Basis)	16–24 GB	120 GB/s	~25–35	—	ab 799
Mac Mini M4 Pro	24–64 GB	273 GB/s	40–55	~8–12	ab 1.500
MacBook Pro M5 Pro	bis 64 GB	307 GB/s	~50–65	~10–15	ab 2.300
MacBook Pro M5 Max	bis 128 GB	614 GB/s	80–100	18–25	ab 4.100
Mac Studio M4 Max	bis 128 GB	546 GB/s	80–100	18–25	ab 2.800
Mac Studio M3 Ultra	bis 192 GB	819 GB/s	~100	~30	ab 4.200

Wann Apple Silicon?

Wenn große Modelle (70B+) wichtig sind und man leise, stromsparende Hardware will. Die Geschwindigkeit pro Token liegt unter NVIDIA-GPUs gleicher Preisklasse — aber der riesige Speicherpool macht Modelle möglich, die auf keiner einzelnen Consumer-GPU laufen.

Alternative

AMD-GPUs & APUs

AMD bietet mit der RX 7900 XTX eine konkurrenzfähige diskrete GPU und mit dem Ryzen AI Max+ 395 einen überraschend starken Unified-Memory-Chip.

RX 7900 XTX (RDNA 3)

24 GB GDDR6 bei 960 GB/s — auf dem Papier identisch zur RTX 5080. Der Preis (~949–1.100 €) ist kompetitiv. Aber: ROCm-Support funktioniert zuverlässig nur unter Linux. Windows-Support ist deutlich weniger stabil. AMD hat 2026 keine RDNA-4-Karte mit 24+ GB veröffentlicht — die 7900 XTX bleibt AMDs einzige ernstzunehmende Option für LLM-Inferenz.

Ryzen AI Max+ 395 (Strix Halo)

Der Überraschungskandidat: Ein Desktop-APU mit bis zu 128 GB Unified Memory, 40 RDNA-3.5-Compute-Units (iGPU auf RX-7700-XT-Niveau) und 50 TOPS NPU. Verfügbar in Mini-PCs von Framework, Minisforum und ASUS ab ~800 €.

AMD behauptet, der Chip sei bei Llama 3.3 70B 2,2× schneller als eine RTX 4090 — weil die 4090 das Modell nicht in ihre 24 GB laden kann und auf CPU-Offload angewiesen ist. Community-Benchmarks bestätigen 20–30 tok/s bei 70B-Modellen und 60+ tok/s bei 8B.

Einschätzung Ryzen AI Max+

Einer der spannendsten Neuzugänge für Home-Inferenz. 128 GB Unified Memory für unter 2.000 € schlägt jede diskrete GPU bei großen Modellen. Die iGPU übernimmt die Arbeit — der integrierte NPU ist für LLMs aktuell irrelevant.

Spezialhardware

Spezialisierte Inferenz-Hardware

Jenseits von GPUs und Macs: Dedizierte KI-Beschleuniger, Cluster-Lösungen und warum die meisten davon für Endnutzer (noch) nicht relevant sind.

NVIDIA DGX Spark

Das wichtigste neue Consumer-KI-Gerät des Jahres 2025: Ein Grace-Blackwell-Superchip im Format kleiner als ein Mac Mini (150 × 150 × 50 mm), seit Oktober 2025 für 3.999 USD (~3.700 €) bei NVIDIA und Partnern (ASUS, Dell, Lenovo) erhältlich.

128 GB LPDDR5X Unified Memory ermöglichen Modelle bis ~200B Parameter. Der Haken: LPDDR5X liefert nur 273 GB/s Bandbreite — die Token-Generierung bei 70B liegt bei nur ~5 tok/s. Prompt-Verarbeitung (Prefill) ist dagegen stark. Der DGX Spark glänzt bei Kapazität, nicht bei Geschwindigkeit — und bietet vollen CUDA-Support.

Tinybox (tiny corp)

Von George Hotz gegründete (inzwischen ohne ihn weiterführte) Firma, die Multi-GPU-Cluster als fertige Systeme verkauft. Der Tinybox Red v2 (6× RX 7900 XTX, 144 GB, ~13.800 €) und Tinybox Green v2 (4× RTX 5090, 128 GB, ~23.000 €) sind verfügbar und liefern innerhalb einer Woche. Eher für Training als für Single-User-Inferenz optimiert.

Hailo-10H / Raspberry Pi AI HAT+ 2

Der zugänglichste dedizierte Inferenz-Beschleuniger: 40 TOPS INT4, 8 GB LPDDR4X, als HAT für den Raspberry Pi 5 für 130 USD erhältlich (seit Januar 2026). Kann kleine Modelle (Qwen2 1.5B: ~9,5 tok/s) lokal betreiben — ideal für Always-On-Chatbots oder Sprachassistenten auf dem Pi. Für ernsthafte LLM-Arbeit zu klein.

Laptop-NPUs: Intel, Qualcomm, AMD

Alle aktuellen „Copilot+ PCs“ haben NPUs (45–50 TOPS). Die ernüchternde Realität für LLM-Inferenz:

Intel Lunar Lake NPU: ~18 tok/s bei Llama 2 7B. Die iGPU ist meist schneller.
Qualcomm Snapdragon X Elite NPU: ~2,6 tok/s bei llama.cpp — die CPU schafft ~26 tok/s. Die NPU ist hier faktisch nutzlos für LLMs.
AMD Ryzen AI 300 NPU: Die iGPU schlägt auch hier die NPU. Aber: Die iGPU ist bis zu 27% schneller als Intels Lunar Lake.

Fazit: NPUs sind für vorinstallierte Copilot-Features gebaut, nicht für offene LLM-Inferenz. Kaufentscheidungen sollten sich an CPU/GPU-Leistung orientieren, nicht an der NPU.

Nicht für Zuhause: Groq, Cerebras & Co.

Groq LPU und Cerebras CS-3 sind die schnellsten LLM-Inferenz-Chips der Welt — aber reine Cloud/Enterprise-Produkte ohne jede Consumer-Verfügbarkeit. Zugang gibt es nur über deren Cloud-APIs. FPGAs für LLMs sind ein Forschungsthema, kein Consumer-Produkt.

Kompatibilität

Welches Modell passt auf welche Hardware?

VRAM ist der entscheidende Flaschenhals. Diese Matrix zeigt, wie viel Speicher aktuelle Modelle bei verschiedenen Quantisierungsstufen benötigen.

Modellgröße	FP16	Q8_0	Q5_K_M	Q4_K_M	Q2_K
7–8B Llama 3.1, Qwen3, Mistral	14–16 GB	7–9 GB	5–6 GB	4,5–5,5 GB	2,5–3 GB
13–14B Qwen3, Phi-4	26–28 GB	13–14 GB	9,5–10,5 GB	8–9 GB	4–5 GB
27–34B Gemma 3 27B, DeepSeek 33B	54–68 GB	27–34 GB	19–24 GB	15–20 GB	8–10 GB
70–72B Llama 3.3, Qwen 2.5	140–144 GB	70–72 GB	50–55 GB	40–46 GB	22–25 GB
405B Llama 3.1 405B	~810 GB	~405 GB	~290 GB	~230 GB	~120 GB

Zusätzlich zum Modell selbst muss der KV-Cache im Speicher Platz finden. Bei 4K Kontextlänge ist das minimal (1–3 GB bei 8B-Modellen). Bei 128K Kontext kann der KV-Cache allein über 40 GB beanspruchen — Flash Attention und quantisierter KV-Cache (Q4/Q8) reduzieren das um das 2–4-fache.

Praxisempfehlungen

VRAM	Was passt	Beispiel-Hardware
8–12 GB	7–8B in Q4–Q8	RTX 5060/5070
16 GB	8B in Q8, 14B in Q4	RTX 5070 Ti, 5080
24 GB	8–14B bequem, 32B knapp in Q3	RTX 4090, 3090, RX 7900 XTX
32 GB	32B in Q4 bequem	RTX 5090
48–64 GB	70B in Q3–Q4	Mac Mini M4 Pro, 2× RTX 3090
128 GB	70B bequem, 405B in Q2	Mac Studio M4 Max, Ryzen AI Max+, DGX Spark
192+ GB	405B in Q4	Mac Studio M3 Ultra

Grundlagen

Quantisierung erklärt

Quantisierung reduziert die Präzision der Modellgewichte — weniger VRAM, schnellere Inferenz, aber potentieller Qualitätsverlust. Die gute Nachricht: Bei 4 Bit ist der Verlust erstaunlich gering.

GGUF-Formate im Vergleich

GGUF ist das Standardformat für llama.cpp und Ollama. Die gängigsten Varianten im Vergleich (gemessen an Llama 3.1 8B Instruct, Perplexity auf WikiText-2):

Format	Perplexity	Größe vs. FP16	Qualitätsverlust
FP16	7,32 (Baseline)	100%	—
Q8_0	7,33	53%	Unmerklich
Q6_K	7,35	41%	Unmerklich
Q5_K_M	~7,40	~37%	Minimal
Q4_K_M	~7,55	~30%	Gering
Q3_K_M	7,96	25%	Spürbar
Q2_K	>9,0	~18%	Deutlich

Wichtigste Erkenntnis: Q4_K_M zeigt auf Downstream-Benchmarks (GSM8K, HellaSwag, MMLU, TruthfulQA) nur ~0,4% Gesamtverlust gegenüber FP16. Der Cliff-Effekt tritt erst ab Q3 ein. Größere Modelle vertragen Quantisierung besser als kleinere — ein 70B in Q4 behält mehr Fähigkeit als ein 7B in Q4.

Empfehlungen nach Anwendungsfall

Anwendung	Empfohlene Quantisierung	Begründung
Alltagschat, kreatives Schreiben	Q4_K_M	Kein merklicher Qualitätsunterschied, 2× schneller als Q8
Coding-Assistenz	Q5_K_M oder Q6_K	Logik/Mathe empfindlicher; 15% mehr VRAM lohnen sich
Mathematisches Reasoning	Q8_0 oder Q6_K	Messbare GSM8K-Degradation bei Q4
VRAM knapp	Q4_K_M (Minimum)	Unter Q4 wird Qualitätsverlust hörbar
Maximale Qualität	Q8_0	Perplexity innerhalb 0,1% von FP16

Community-Konsens (Stand März 2026)

Q4_K_M für alltägliche Nutzung, Q5_K_M für aufgabenkritische Anwendungen, Q8_0 wenn VRAM keine Rolle spielt. Unter Q4 nur im Notfall.

Software

Software-Stack für lokale Inferenz

Die richtige Software kann den Durchsatz um 30–80% verändern. Hier sind die wichtigsten Tools und wann man sie einsetzt.

llama.cpp

Engine · Max. Performance

Die Basis für fast alles. C/C++ mit CUDA, Metal, Vulkan, ROCm. Höchste Rohleistung für Einzelnutzer (10–20% schneller als Ollama). Kein GUI, kein Model-Management — reines CLI-Tool.

Ollama

CLI/API · Entwickler-Favorit

Go-Wrapper um llama.cpp mit Model-Management, REST-API und Daemon. Ein Befehl zum Installieren und Starten von Modellen. OpenAI-kompatible API. 5–20% langsamer als raw llama.cpp, aber dramatisch einfacher.

LM Studio

GUI · Desktop-App

Polierte Desktop-App mit Hugging-Face-Browser, Chat-UI und lokalem API-Server. Unterstützt MLX als Backend auf macOS (30–50% schneller als GGUF). Beste Option für Einsteiger und Apple-Silicon-Nutzer.

Jan

GUI · Privacy-First

Open-Source-Desktop-App ohne Telemetrie. Schlanker als LM Studio, fokussiert auf Privatsphäre. Kein MLX-Support (Stand März 2026). Ideal für datenschutzbewusste Nutzer.

vLLM

Server · Multi-User

Produktionsstandard für Multi-User-Serving: PagedAttention, Continuous Batching, Tensor-Parallelismus. Bei 64 gleichzeitigen Nutzern 35× schneller als llama.cpp. Overkill für Einzelnutzer.

ExLlamaV2

Engine · NVIDIA-Only

NVIDIA-exklusiv mit eigenem EXL2-Format (flexible Bit-Breiten wie 4,25-Bit). Schneller als llama.cpp bei Prompt-Verarbeitung. Eigenes Quantisierungsökosystem — nicht kompatibel mit GGUF.

Entscheidungshilfe

Szenario	Empfehlung
Einzelnutzer, max. Speed, NVIDIA	ExLlamaV2 oder llama.cpp
Einzelnutzer, einfache Nutzung	Ollama (CLI) oder LM Studio (GUI)
Apple Silicon, max. Speed	LM Studio (MLX-Backend) oder mlx-lm
Mehrere Nutzer gleichzeitig	vLLM
Maximale Privatsphäre	Jan (Desktop) oder llama.cpp (Server)
Prototyping & Entwicklung	Ollama

Transparenz

Methodik & Quellen

Benchmark-Daten stammen primär von hardware-corner.net (Januar 2026, llama-bench, Ubuntu 24.04, CUDA 12.8, Q4_K_XL), ergänzt durch DatabaseMart Ollama-Benchmarks, Red Hat vLLM-Vergleiche und Community-Messungen aus r/LocalLLaMA.

Preise beziehen sich auf den deutschen Markt (Amazon.de, Geizhals, eBay) im März 2026. GPU-Preise ändern sich täglich — die Angaben sind Richtwerte, keine garantierten Preise.

Apple-Silicon-Benchmarks sind aus Community-Quellen (MacRumors, InsiderLLM, LinkedIn-Posts) aggregiert. MLX vs. llama.cpp-Unterschiede sind signifikant — die angegebenen tok/s beziehen sich auf das jeweils schnellere Framework.

Quantisierungsdaten basieren auf der Studie „Which Quantization Should I Use?“ (arxiv 2601.14277, Januar 2025) und r/LocalLLaMA-Konsens.

Hinweis zur Vergleichbarkeit: Benchmarks aus verschiedenen Quellen nutzen unterschiedliche Modelle, Kontextlängen und Software-Versionen. Die Zahlen sind richtungsweisend, aber nicht direkt zwischen Quellen vergleichbar.

Ausgewählte Quellen:

hardware-corner.net — GPU LLM Benchmarks (Januar 2026)
bestvaluegpu.com — GPU-Preistracker EU (März 2026)
Apple Newsroom — M5 Pro/Max Specs (März 2026)
arxiv 2601.14277 — Quantization Evaluation (Januar 2025)
Red Hat Developer Blog — Ollama vs. vLLM Benchmarks (August 2025)
Tom’s Hardware — RTX 50-Serie, Tinybox, DGX Spark Reviews
NVIDIA Developer Forums — DGX Spark Performance (Oktober 2025)
AMD Developer Resources — Ryzen AI Max+ LLM Performance
cnx-software.com — Raspberry Pi AI HAT+ 2 Review (Januar 2026)

Inferenz-Hardware für Zuhause

Quick-Reference-Tabelle

Was bekommt man für sein Geld?

Einstieg

Empfehlung

Goldener Mittelweg

Empfehlung

Ernsthaft lokal

Empfehlung

Maximum Consumer

Empfehlung

Prosumer & Server

Empfehlung

NVIDIA-GPUs im Detail

RTX 50-Serie (Blackwell, 2025)

RTX 40-Serie & 3090 (Vorgänger)

Apple Silicon im Detail

Wann Apple Silicon?

AMD-GPUs & APUs

RX 7900 XTX (RDNA 3)

Ryzen AI Max+ 395 (Strix Halo)

Einschätzung Ryzen AI Max+

Spezialisierte Inferenz-Hardware

NVIDIA DGX Spark

Tinybox (tiny corp)

Hailo-10H / Raspberry Pi AI HAT+ 2

Laptop-NPUs: Intel, Qualcomm, AMD

Nicht für Zuhause: Groq, Cerebras & Co.

Welches Modell passt auf welche Hardware?

Praxisempfehlungen

Quantisierung erklärt

GGUF-Formate im Vergleich

Empfehlungen nach Anwendungsfall

Community-Konsens (Stand März 2026)

Software-Stack für lokale Inferenz

llama.cpp

Ollama

LM Studio

Jan

vLLM

ExLlamaV2

Entscheidungshilfe

Methodik & Quellen