Modelle · DeepSeek
DeepSeek V4: Open-Source-Frontier zum Bruchteil des Preises
Die Schlagzeile ist die schiere Größe: V4-Pro ist mit 1,6 Billionen Gesamtparametern (49 Milliarden aktiv pro Token) das größte offene Mixture-of-Experts-Modell, das je publiziert wurde — größer als Moonshots Kimi K2.6 (1,1 Billionen) und mehr als doppelt so groß wie der Vorgänger DeepSeek V3.2 (685 Milliarden). V4-Flash, die schlanke Variante mit 284 Milliarden Parametern und 13 Milliarden aktiv, zielt auf günstige Inferenz und lokale Deployments. Beide Modelle laufen auf einer Kontextlänge von einer Million Token, sind über die DeepSeek-API, OpenRouter, fal.ai und HuggingFace verfügbar und stehen vollständig unter MIT-Lizenz.
Die eigentliche Innovation liegt unter der Haube. DeepSeek V4 nutzt eine hybride Aufmerksamkeitsarchitektur aus „Compressed Sparse Attention“ (CSA) und „Heavily Compressed Attention“ (HCA) — eine Lösung für das Skalierungsproblem, das jedes Long-Context-Modell heimsucht: traditionelle Attention wächst quadratisch mit der Sequenzlänge. CSA und HCA reduzieren diesen Aufwand dramatisch. Bei einer Million Token Kontext braucht V4-Pro nur 27 Prozent der Inference-FLOPs und zehn Prozent des KV-Cache, das V3.2 verbrauchen würde. Hinzu kommen „Manifold-Constrained Hyper-Connections“ für stabilere Signalpropagierung und der Muon-Optimizer für schnellere Konvergenz. MoE-Experten laufen in FP4-Präzision, alles andere in FP8.
Auf den Benchmarks bewegt sich V4-Pro im erweiterten Frontier-Korridor. SWE-Bench Verified: 80,6 Prozent — nur 0,2 Punkte hinter Claude Opus 4.7 (87,6 Prozent in der vollen Konfiguration), aber im direkten Vergleichsrun mit demselben Test-Setup quasi gleichauf. AIME 2026: 99,4 Prozent. MMLU-Pro: 92,8 Prozent. LiveCodeBench: 93,5 Punkte (vor Opus 4.7 mit 88,8). Codeforces-Rating: 3206 — DeepSeek dominiert kompetitives Programmieren. Auf SWE-Bench Pro liegt V4-Pro bei 55,4 Prozent gegen Opus 4.7 mit 64,3 Prozent — die größte Lücke. Reasoning, Mathe und Wissen sind faktisch deckungsgleich; klassische Software-Engineering-Tasks bleiben das Feld, in dem Anthropic und OpenAI noch vorn liegen.
Der Preisschock ist das eigentliche Argument. V4-Pro kostet 1,74 Dollar pro Million Input-Tokens (Cache-Miss), 0,145 Dollar bei Cache-Hit, 3,48 Dollar pro Million Output-Tokens. Claude Opus 4.7 liegt bei 25 Dollar pro Million Output-Tokens. Das ergibt einen Faktor 7,2 — bei 0,2 Punkten Differenz auf SWE-Bench Verified. V4-Flash unterschneidet OpenAIs GPT-5.4 Nano: 0,14 Dollar pro Million Input-Tokens, 0,28 Dollar Output. Das ist günstiger als jede westliche Frontier-API in der Klasse. NVIDIA-CEO Jensen Huang reagierte schnell mit einem Blog-Post: V4 läuft auf Blackwell-GPUs schneller als auf jeder anderen Hardware, und die NVIDIA-Endpoints sind vorab integriert. Eine Verteidigungslinie gegen die offene Frage, ob DeepSeek mit seiner Architektur den Bedarf an westlichen H100-Clustern mittelfristig drückt.
Was das praktisch bedeutet, ist Stoff für die Reportage am Ende dieser Ausgabe. Kurzversion: Closed-Source-Anbieter kommen unter Druck, ihre Preise zu rechtfertigen. Die Lücke ist in vielen Use Cases nicht mehr die Differenz zwischen „funktioniert“ und „funktioniert nicht“, sondern zwischen 80 und 87 Prozent — bei einem Siebtel der Kosten. Wer agentenhafte Workflows mit Millionen von Tool-Calls plant, kann den Bruch in der Wirtschaftlichkeit nicht ignorieren.
- TechCrunch — DeepSeek previews new AI model that 'closes the gap'
- MIT Technology Review — Three reasons why DeepSeek's new model matters
- Simon Willison — DeepSeek V4: almost on the frontier, a fraction of the price
- VentureBeat — DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th the cost
- NVIDIA Blog — Build with DeepSeek V4 Using NVIDIA Blackwell
- DeepSeek API Docs — V4 Preview Release