Warum George Hotz vor einer neuen Welle schlechter Software warnt

Tim Eichler
Mai 26, 2026

George Hotz hat sich mit einer deutlichen Warnung in die Debatte über KI-Coding-Agents eingeschaltet. Der US-amerikanische Hacker und Programmierer, bekannt unter dem Namen geohot, veröffentlichte am 24. Mai 2026 den Blogbeitrag The Eternal Sloptember. Darin beschreibt er KI-Coding-Agents nicht als gleichwertige Softwareentwickler, sondern als Systeme, die Programmlogik statistisch nachahmen und dabei schwer erkennbare Fehler erzeugen können. Hotz, der 2025 nach zehn Jahren comma.ai verlassen hatte, begründet seine Warnung mit eigenen Tests über sechs Monate.

Hotz sieht das Problem nicht im Prototyp, sondern im Durchschnitt

Hotz stellt KI-Hilfe nicht grundsätzlich infrage. In seinem Beitrag schreibt er, dass solche Systeme für schnelle Prototypen, Suchen und erste Entwürfe nützlich sein können. Seine Kritik richtet sich gegen den breiten Einsatz als vermeintlicher Ersatz für solide Softwareentwicklung. Nach seiner Darstellung entsteht der Schaden vor allem dort, wo Entwickler die Schwächen der erzeugten Ergebnisse nicht erkennen können. Dann steigt zwar die Menge des produzierten Codes, aber nicht zwingend dessen Qualität.

Der zentrale Punkt seiner Warnung ist organisatorisch. Gute Entwickler könnten fehlerhafte Vorschläge eher erkennen, prüfen und verwerfen. Schwächere Entwickler hätten diese Kontrollfähigkeit nicht im gleichen Maß. Wenn gerade diese Gruppe mit KI-Werkzeugen deutlich mehr Code erzeugt, könne der Durchschnitt der Softwarequalität sinken. Hotz beschreibt damit kein Einzelproblem, sondern ein mögliches Strukturproblem in Teams, Plattformen und Unternehmen.

Sechs Monate Tests mit Tinygrad und Reverse Engineering

Hotz begründet seine Einschätzung mit eigener Nutzung. Er verweist auf sechs Monate Arbeit mit KI-Agents, unter anderem an Teilen von tinygrad und an einem Reverse Engineering eines USB-zu-PCIe-Chips. Tinygrad ist ein Open-Source-Projekt für maschinelles Lernen, das als schlanker Deep-Learning-Stack entwickelt wird.

Seine Erfahrung fiel ernüchternd aus. KI-Agents könnten zu Beginn schnell sichtbare Fortschritte liefern, kämen nach seiner Einschätzung aber bei Feinschliff, Korrektheit und verlässlicher Fertigstellung nicht ausreichend weit. Der Vorwurf ist damit präziser als pauschale KI-Skepsis. Hotz kritisiert vor allem den Abstand zwischen beeindruckender erster Ausgabe und belastbarem, wartbarem Code.

GitHub treibt Agent-Funktionen weiter voran

Die Entwicklung läuft zugleich in die entgegengesetzte Richtung. GitHub hat seit 2025 agentische Funktionen in Copilot ausgebaut. Im Februar 2026 öffnete GitHub die Plattform für Claude von Anthropic und OpenAI Codex als weitere Coding-Agents. Diese können in Repositories, Issues, Pull Requests, der mobilen App und in Visual Studio Code eingesetzt werden.

Damit verschiebt sich KI-Coding von der Assistenz am Editor hin zu stärker automatisierten Arbeitsabläufen. Pull Requests, Reviews, Fehlerkorrekturen und Iterationen werden zunehmend Teil solcher Agent-Systeme. Genau an dieser Stelle setzt Hotz‘ Warnung an. Wenn nicht nur einzelne Codevorschläge, sondern ganze Änderungspakete automatisiert entstehen, steigt der Druck auf menschliche Prüfung.

Forschung sieht Schwächen bei komplexeren Aufgaben

Die Kritik passt zu Ergebnissen einer im Januar 2026 veröffentlichten Studie zu fehlgeschlagenen agentischen Pull Requests auf GitHub. Darin wurden rund 33.000 Pull Requests von fünf Coding-Agents untersucht. Die Autoren kamen zu dem Ergebnis, dass Dokumentationsaufgaben, CI-Anpassungen und Build-Updates besser abschneiden, während Performance-Arbeiten und Bugfixes häufiger scheitern. Nicht zusammengeführte Pull Requests waren oft größer, betrafen mehr Dateien und bestanden häufiger die CI-Prüfung nicht.

Das stützt nicht jede Zuspitzung von Hotz, zeigt aber ein ähnliches Muster. Agents können bei begrenzten und gut prüfbaren Aufgaben helfen. Bei tieferen Änderungen, Fehlerbehebung und Leistungsfragen steigt das Risiko, dass menschliche Kontrolle, Tests und Projektverständnis entscheidend bleiben.

Die Branche steht vor einem Review-Problem

Für Unternehmen ist der Konflikt wirtschaftlich relevant. KI-Coding-Agents versprechen Tempo, niedrigere Einstiegshürden und mehr Automatisierung. Gleichzeitig verlagern sie Arbeit in spätere Phasen. Code muss geprüft, getestet, verstanden und gewartet werden. Wenn automatisiert erzeugte Änderungen plausibel aussehen, aber fachlich falsch sind, kann der Aufwand für Review und Nacharbeit steigen.

Hotz‘ Warnung richtet sich deshalb weniger gegen einzelne Entwickler als gegen den Maßstab, an dem Produktivität gemessen wird. Mehr Pull Requests und mehr Codezeilen bedeuten nicht automatisch bessere Software. Entscheidend bleibt, ob Änderungen korrekt, nachvollziehbar, testbar und wartbar sind.

Konkrete Zahlen bleiben schwer überprüfbar

Im Umfeld der Debatte kursieren Angaben, wonach die Zahl KI-generierter Pull Requests auf GitHub von rund vier Millionen im September 2025 auf rund 17 Millionen im März 2026 gestiegen sei. Eine öffentliche GitHub-Primärquelle, die diese konkrete Zeitreihe bestätigt, lag zunächst nicht vor. Offiziell bestätigt ist jedoch, dass GitHub die Nutzung von Coding-Agents deutlich ausgebaut und mehrere Anbieter direkt in seine Plattform integriert hat.

Auch ohne gesicherte öffentliche Zeitreihe bleibt der Befund klar: KI-Agents rücken vom Experiment in den Alltag professioneller Entwicklungsumgebungen. Hotz‘ Beitrag verschärft eine Debatte, die Entwicklerteams, Open-Source-Projekte und Plattformbetreiber ohnehin führen müssen. Nicht jede automatisierte Änderung ist Fortschritt. Und nicht jede Beschleunigung spart am Ende Arbeit.