Skip to main content

Die stille Preiserhöhung der KI-Giganten

„Investiere bei einem Goldrausch nicht in die Goldgräber, sondern in Schaufeln!“ – André Kostolany

Es ging schneller als gedacht, denn noch vor Kurzem war die Welt der großen Sprachmodelle überraschend einfach: ein monatliches Abo, ein Preis und unbegrenzte Nutzung. Für Unternehmen, Entwickler und Startups bedeutete das vor allem eines – Planbarkeit.

Im Jahr 2025 hat es sich angebahnt, und bereits im Jahr 2026 hat sich alles geändert.

Der schleichende Systemwechsel

Was sich aktuell vollzieht, ist kein plötzlicher Bruch, sondern ein Paradigmenwechsel – weg von pauschalen Abomodellen, hin zu einer tokenbasierten, also nutzungsbasierten Abrechnung. Die Abos reichen noch für einfache Arbeiten und Recherchen, aber hier bezahlen wir natürlich auch mit unseren privaten Daten.

Das klingt zunächst sinnvoll: Wer mehr nutzt, zahlt mehr. Wer effizient arbeitet, spart. Doch diese Logik greift zu kurz, denn in der Praxis verschiebt sich damit das Risiko vom Anbieter auf den Nutzer.

Bisher galt: Wir hatten Fixkosten, damit eine kalkulierbare Nutzung und ein klares monatliches Budget. Die Abos gibt es zwar noch, aber sie reichen eher für einfache Arbeiten und Recherchen, können malen und sprechen, sind aber von komplexen und professionellen Aufgaben bereits ausgeschlossen.

Heute bedeutet das: Wir wissen nicht, wie viel Aufwand ein Projekt kosten wird, denn wir haben volatile Infrastrukturkosten, ständig neue Modelle, die noch besser sein sollen, aber gefühlt nur teurer und „dümmer“ werden. Es scheint nicht wie eine Weiterentwicklung oder Optimierung, sondern wie eine geplante Preisverlagerung.

Tokenbasierte Modelle wirken auf den ersten Blick fair. Doch sie entfalten ihre Wirkung erst im Betrieb, denn die Anwendungen wachsen – und die Kosten mit. Durch Prompt-Inflation werden Systeme komplexer, die Prompts immer länger und dadurch der Kontext größer.

Reasoning-Overhead: Moderne Modelle „denken länger“ – und denken, denken nochmal, korrigieren sich, denken weiter – und verbrauchen enorme Mengen an Tokens.

Integrierte Tools wie RAG, Multi-Agent- und Memory-Systeme – alles multipliziert den Tokenverbrauch im Hintergrund und ist völlig intransparent für den User.

Das bedeutet heute: Was früher mit einem Abo abgedeckt war, wird nun zur offenen Kostenstelle. Auf allen Kanälen häufen sich die Beschwerden über explodierende Kosten und dümmere LLM-Nachfolgemodelle, ohne dass sich die wahrgenommene Leistung proportional zu den Kosten verbessert.

Es hat sich eine Vielzahl verschiedener Geschäftsmodelle entwickelt, und für diese kommt die Entwicklung zu einem kritischen Zeitpunkt, denn bereits funktionierende Systeme basieren auf Annahmen wie stabilen API-Kosten, skalierbarer Nutzung bei konstanten Preisen und vorhersehbaren Margen – und haben vor allem enorm viel Arbeit in eigene Entwicklungsumgebungen und Hardware gesteckt, die nicht so einfach wieder umgeplant werden können.

Im schlimmsten Fall schrumpfen die Margen oder kippen ins Negative, Preismodelle gegenüber Kunden werden unhaltbar, oder Produkte müssen technisch umgebaut werden (z. B. Prompt-Optimierung, Caching, kleinere Modelle). Ich kenne jetzt schon Entwickler, die Mitte des Monats nicht mehr weiterarbeiten können, weil das Abo leer ist. Erinnert mich irgendwie an die aktuelle Sozialpolitik 😉

Auf jeden Fall wird Innovation gebremst! Peter Steinberger, der Entwickler von OpenClaw, sagt in dem berühmten Podcast mit Lex Fridman, wie er seine Projekte entwickelt: indem er Spaß hat, ausprobiert und seine Arbeit als Kunst sieht. Diese Form der Innovation wird nun gebremst, weil jedes neue Modell ein Kostenrisiko bedeutet. Das betrifft auch wieder die kreativen Bereiche wie Musik, Grafik, Sprache etc.

Warum passiert das jetzt und so schnell?

Die Antwort ist zwar unbequem, aber relativ klar: Die explodierte Nutzung der Modelle und die Flatrate haben zu einer enormen Kostenexplosion bei den großen Rechenzentren geführt. Wegen steigender Energiepreise und den anhaltenden Protesten wurden bereits 50 % der geplanten Rechenzentren in den USA verschoben oder auf Eis gelegt. Die enormen Investments der Geldgeber sollen nun endlich Rendite bringen, und die Modelle verhalten sich wie ein riesiges hyperintelligentes Monstergehirn, das aber als Aufgabe nur Steine aufeinanderstapeln darf, da keine Aufgabe dieses enorme Wissen benötigt – wie das Beispiel mit dem Porsche zum Brötchenholen in die Bäckerei auf der anderen Straßenseite.

Verständlich, aber mit massiven Kritikpunkten, denn die Intransparenz wächst, und viele Nutzer verstehen nicht, wie sich Kosten tatsächlich zusammensetzen. Die Modelle arbeiten und arbeiten, und man sitzt zitternd vor dem Backend auf Reload, um zu prüfen, wie viele Token nun schon wieder weg sind. Dann kommt die Bremse, und man muss auf ein anderes Chatmodell wechseln und ihm alles zuerst erklären, was zuvor geschah. Auch wenn ein Chat grundsätzlich nicht zu lange geführt werden sollte, hat die regelmäßige Komprimierung doch zu wesentlich besseren Ergebnissen geführt als eine komplette Memory-Datei.

Was nun?

Entweder man akzeptiert die Preiserhöhungen, reduziert sich auf ein Sprachmodell und eine Umgebung, baut komplexe Memory-Systeme und Kontrollmechanismen, versucht, das Budget auf Kunden umzulegen, und arbeitet weniger experimentell bzw. legt private Projekte auf Eis.

… oder (bzw. und):

Man kauft sich eigene Rechnerkapazitäten, engagiert sich in Gruppen, in denen sich Entwickler, Admins und User zusammenschließen, bildet Hardware-Genossenschaften, die in Infrastruktur investieren, trainiert neue Modelle und spezialisiert sie auf ein paar wenige Aufgaben, die sie aber besonders gut können und die dann auch auf die kleinsten Rechner-RAMs passen. Und auch wenn dann die Antworten nicht in Sekunden erscheinen, sondern in Minuten, kann man eventuell in der Zeit auch mal einen Kaffee trinken oder seine Codebase überdenken, anstatt nur sinnlos Geld zu verbrennen und damit die Techgiganten noch reicher zu machen.

Frei nach André Kostolany: „Lass uns die Schaufeln selber herstellen!“ Noch haben wir die Wahl!


P.S. Während ich diesen Artikel schrieb, wurden durch einen Agenten drei neue Kreditkartenabbuchungen bei ChatGPT ausgelöst, über 60 Dollar. Danach ging erst meine Bremse los. Frühere Rückfragen bei Anthropic, nach einem Systemausfall sein Geld zurückzubekommen, werden freundlich abgelehnt. Natürlich ist hier alles auf eigenes Risiko bei einem US-Unternehmen ohne Regulierung.

Quellen:

  • https://futurism.com/science-energy/data-centers-construction-supply
  • Aufstand gegen die KI-Giganten: https://sz.de/li.3470783
  • https://www.heise.de/news/GitHub-Copilot-Neukunden-ausgesperrt-Nutzung-staerker-begrenzt-11265219.html
  • https://www.trendingtopics.eu/anthropic-claude-opus-4-7/
  • https://www.heise.de/news/Warum-GPT-5-so-polarisiert-10530890.html
  • https://github.com/anthropics/claude-code/issues/42796
Senticon Redaktion

Author Senticon Redaktion

More posts by Senticon Redaktion