Der praktische Vergleich der drei grossen KI-Coding-Werkzeuge -- mit echten Workflows, Stärken, Schwächen und Entscheidungshilfen
Klicken zum Vergrößern
Claude Code, Codex, Cursor -- diese drei Namen dominieren die Diskussion rund um KI-gestütztes Programmieren. Aber welches Tool ist das richtige für dich? Christoph Magnussen bringt es auf den Punkt: "Die Frage müsste nicht sein 'Was ist das beste Modell?', sondern 'Was ist das beste Modell für meinen Use Case?'"
In diesem Kurs vergleichen wir die drei grossen Werkzeuge anhand realer Erfahrungen aus der Praxis -- basierend auf Tests, die MetalSole, Christoph Magnussen und Nate B Jones durchgeführt haben.
Nate B Jones hat in seinem Vergleich eine fundamentale Erkenntnis formuliert: OpenAI und Anthropic haben am selben Tag ihre neuesten Coding-Agents veröffentlicht -- aber mit grundverschiedenen Philosophien:
Anthropics Philosophie: Claude Code setzt auf tiefe Integration in dein System. Der Agent arbeitet im Terminal, hat direkten Zugang zu deinen Dateien, kann Programme ausführen, Browser steuern und mit anderen Agents in Teams zusammenarbeiten.
Stärken:
Besonderheit laut Christoph Magnussen: "Das Produkt besteht zu ca. 30% aus der Stärke des Modells. 70% der Produkterfahrung sind verschiedenste Prompts, die im Hintergrund laufen, die ihr gar nicht seht."
OpenAIs Philosophie: Codex setzt auf "hand it off and walk away" -- delegiere die Aufgabe und geh einen Kaffee trinken. Der Agent arbeitet in einer kontrollierten Umgebung und liefert fertige Ergebnisse.
Stärken:
Besonderheit laut MetalSole: Die Codex-App hat eine "Visibility Rule" -- wo du eine Aufgabe startest, dort lebt sie. Cloud-Tasks schweben über allem, die App sitzt unter Cloud aber über der IDE, und die CLI ist eine Black Box.
Anispheres Philosophie: Cursor baut die beste IDE-Erfahrung und lässt dich verschiedene Modelle wählen. Es ist ein Produkt-First-Ansatz mit Fokus auf Benutzerfreundlichkeit.
Stärken:
Besonderheit laut Christoph Magnussen: "Der Head of Design ist ein ehemaliger Mitarbeiter von Notion und hat auch bei Stripe gearbeitet -- und das merkt man dem Produkt an."
MetalSole hat Opus 4.6 und Codex 5.3 in drei Experimenten verglichen:
Test 1: Kreatives Schreiben Beide Modelle wurden mit derselben Schreibaufgabe konfrontiert. Ergebnis: Unterschiedliche Stärken, aber vergleichbare Qualität.
Test 2: Strukturierte Planung (PRD mit 100+ Anforderungen) Hier wurde ein komplexes Product Requirements Document mit über 100 Anforderungen getestet. Die zentrale Erkenntnis: "Jedes Modell lässt still und leise Anforderungen fallen während der Planungsphase." Mit einem zusätzlichen Review-Schritt konnte die Abdeckung von 86% auf 99% gesteigert werden.
Test 3: Autonomer Workflow Ein vollständiger Workflow aus Research, Artikel-Schreiben, Bildgenerierung, MCP-Publishing und HTML-Ausgabe. Ergebnis: "Rohe Intelligenz ist nur ein Teil der Gleichung. Was das Modell tatsächlich erreichen und steuern kann, zählt genauso viel."
In einem weiteren Experiment hat MetalSole dieselbe App neunmal gebaut -- mit verschiedenen Modellen für die Planung. Die überraschende Erkenntnis: Das teuerste Modell für die PRD-Erstellung führte nicht automatisch zur besten App. Was wirklich zählt, ist die Qualität der Spezifikation, nicht die Intelligenz des Planungs-Modells.
MetalSole baute ein Ideation-System mit Claude Codes Agent Teams: ein Freidenker, ein Erder, ein Schiedsrichter und unterstützende Agents, die 90 Minuten an einem realen Problem arbeiteten. Das Ergebnis: "Ich habe jeden Agent selbst entworfen. Ich verstehe die Architektur. Und das Ergebnis hat mich überrascht -- nicht weil es gut war, sondern weil ich nicht nachvollziehen kann, wie sie dorthin gekommen sind."
Die ehrliche Antwort der erfahrenen Nutzer: Alle drei. Cisco, eines der grössten Technologie-Unternehmen der Welt, hat in einer Pressekonferenz bestätigt, dass ihre Entwicklerteams sowohl mit Codex als auch mit Claude Code arbeiten. Die Zukunft gehört nicht einem einzelnen Tool, sondern der Fähigkeit, das richtige Tool für die richtige Aufgabe einzusetzen.
Christoph Magnussen erklärt die drei Zahlungsmodelle:
Warum nicht kostenlose Open-Source-Modelle verwenden? Christoph Magnussen erklärt die Strategie: "Ein lokales Modell für einfache Probleme 24/7 laufen lassen, und die richtig komplizierten Probleme an den teuren Coding-Agent geben." Das wäre eine smarte Firmenstrategie -- aber die Open-Source-Modelle sind derzeit noch nicht auf dem Niveau von Opus 4.6 für komplexe Aufgaben.
MetalSole widmet diesem Thema ein ganzes Video: "Jedes Mal, wenn du einen Prompt tippst, bearbeitest du ihn zürst. Du komprimierst deinen Gedanken auf die Kurzversion -- und der Teil, der wirklich zählt, schafft es nie hinein." Voice-Input-Tools wie SuperWhisper, WisprFlow oder MacWhisper liefern reichhaltigere Prompts.
Statt flüchtige Chat-Konversationen zu führen, arbeite mit Ordnerstrukturen. MetalSole nennt das die "Folder Technique": Der Agent schreibt Dateien in einen Ordner statt in einen Chat. So gehen keine Ergebnisse verloren.
Die wichtigste Erkenntnis aus MetalSoles Benchmarks: Lass den Agent seinen Plan zeigen, bevor er baut. Prüfe, ob alle Anforderungen abgedeckt sind. Ein einfacher Review-Schritt kann die Qualität von 86% auf 99% steigern.
MetalSole zeigt: "Claude Code Skills sind die am meisten unterschätzte Funktion in der KI gerade." Ein Skill ist einfach eine Markdown-Datei, die dem Agent sagt, wie er eine bestimmte Aufgabe erledigen soll. Einmal erstellt, funktioniert er dauerhaft.
Bei langen Arbeitssitzungen sinkt die Qualität der Antworten. Starte regelmässig neue Sessions für frische Ergebnisse.
Nate B Jones liefert die entscheidende Perspektive: "Die Einheit der Arbeit ist jetzt der Token. Ein Token ist keine Anweisung -- es ist eine Einheit gekaufter Intelligenz."
Die Token-Kosten fallen dramatisch: GPT-4 kostete Ende 2022 noch 20 Dollar pro Million Tokens. Claude 4.5 Sonnet läuft heute für 3 Dollar pro Million Input-Tokens. In ein bis zwei Jahren wird das in den Cent-Bereich fallen.
Aber: Wenn eine Ressource billiger wird, nutzt man nicht weniger davon -- sondern dramatisch mehr. Dieses Prinzip (Jevons Paradox) erklärt, warum Unternehmen durchschnittlich 85.000 Dollar pro Monat für KI ausgeben -- und 45% planen, auf über 100.000 Dollar zu erhöhen.
Die Wahl zwischen Claude Code, Codex und Cursor ist keine "Entweder-Oder"-Entscheidung. Es geht darum, die richtige Philosophie für deine Arbeitsweise zu finden:
Die wichtigste Kompetenz ist nicht, ein bestimmtes Tool zu beherrschen -- sondern zu verstehen, wann welches Tool den grössten Hebel bietet. Denn wie Christoph Magnussen sagt: "Wer tokeneffizient geile Sachen baut -- das wird vermutlich der Unterschied werden."
Im nächsten Kurs schauen wir uns an, wie du mit KI-Tools deine tägliche Produktivität steigerst -- jenseits von Coding.