ca. 10 min Lesezeit
Schneller, größer, klüger – aber auch besser?
Geschrieben von Prof. Dr. Ina Schieferdecker /
Mai 2026

Inhaltsverzeichnis:
KI macht Tempo – aber wer übernimmt die Verantwortung?
Generative und agentische KI-Systeme haben einen historischen Produktivitätssprung in der Softwareentwicklung ausgelöst: Code, Tests, Architekturvorschläge und Refactorings entstehen heute in Minuten statt Tagen oder Wochen. Doch dieser Geschwindigkeitsgewinn hat einen Preis: Wir produzieren Software in nie dagewesener Menge – ohne sicher zu sein, ob wir ihre Qualität, Sicherheit und langfristige Wartbarkeit wirklich im Griff haben. [1]
Hinzu kommt, dass KI-gestütztes Coding häufig in bestehende, oft fragile Landschaften eingebettet wird. In solchen Brownfield-Umgebungen kann jede neue „schnelle“ Lösung die vorhandene technische Schuld nicht nur fortschreiben, sondern in der Komplexität sogar multiplizieren.
Die zentrale Frage ist daher nicht mehr, ob wir mit KI schneller werden können, sondern ob wir es uns leisten können, in dieser Geschwindigkeit schlechte Entscheidungen zu treffen. [2]
Technische Schulden im KI-Turbo: Innovation auf Kredit
Der Begriff der technischen Schulden beschreibt seit Jahrzehnten den Zielkonflikt zwischen schneller Lieferung und nachhaltiger Qualität: Wir machen Kompromisse im Design, bei Tests oder im Architekturentscheid, um „Time to Market“ zu gewinnen – und zahlen später Zinsen in Form von Fehlern, Wartungsaufwand und Innovationshemmnissen. Generative KI verschärft diese Dynamik, weil sie kurzfristig Produktivität, aber langfristig zusätzliche, schwer sichtbare Schulden erzeugen kann: undokumentierte Lösungswege, schwer nachvollziehbare Designentscheidungen, undurchsichtige Abhängigkeiten. [3]
Technische Schulden waren schon immer der Preis für Tempo: bewusste oder unbewusste Abkürzungen bei Architektur, Design und Tests, die später als Wartungsaufwand, Risiken und Verzögerungen „zurückgezahlt“ werden müssen. Mit generativer und agentischer KI verschiebt sich diese Dynamik nicht nur – sie beschleunigt sich. Studien und Praxisberichte zeichnen ein konsistentes Bild: GenAI erhöht die Entwicklungsproduktivität, lässt technische Schulden aber schneller und diffuser anwachsen, insbesondere in gewachsenen Systemlandschaften.
Eine Analyse in der MIT Sloan Management Review [2] kommt zu dem Schluss, dass KI-Coding-Tools zwar die Produktivität um bis zu rund 50 % steigern können, gleichzeitig aber gefährliche technische Schulden erzeugen – insbesondere wenn AI-Code in Brownfield-Umgebungen eingesetzt und von weniger erfahrenen Entwickler:innen übernommen wird. Das Resultat sind verschachtelte Abhängigkeiten, Duplikate, schwer nachvollziehbare Workarounds und Architekturen, die kurzfristig funktionieren, sich aber langfristig kaum skalieren oder sicher warten lassen.
Aktuelle Studien zum „GenAI-Induced Self-admitted Technical Debt“ Fehler! [4] zeigen zudem, dass sich die Struktur der Schulden verschiebt: Design-Schulden sind zwar weiterhin präsent, doch insbesondere Anforderungs- und Test-Schulden nehmen zu, weil AI-generierter Code ohne ausreichendes Verständnis der Entwickler:innen übernommen und Qualitätssicherung systematisch auf später verschoben wird. Befragungen von Entwickler:innen bestätigen diesen Trend: Eine große Mehrheit berichtet von negativen Auswirkungen von AI auf technische Schulden und einem wachsenden Aufwand, generierten Code nachträglich zu korrigieren oder neu zu schreiben [2][5]
Gleichzeitig warnen Branchenanalysen davor, dass sich aus schneller, unkontrollierter KI-Einführung eine neue Form von „AI Debt“ entwickelt [5]: Wer GenAI und agentische Systeme skaliert, ohne Governance, Wartbarkeit und Evaluationsmechanismen mitzudenken, läuft in einen Upgrade- und Operations-Teufelskreis, in dem jede neue KI-Funktion zusätzliche Schulden und Betriebsrisiken erzeugt. Anders formuliert: KI beschleunigt nicht nur die Feature-Lieferung, sie beschleunigt auch den Zinseszins unserer technischen Schulden – insbesondere dort, wo Software-Qualität und Testing nicht konsequent mitwachsen.
Genau hier liegt der Dreh- und Angelpunkt dieses Artikels: Wenn technische Schulden im KI-Zeitalter strukturell schneller wachsen, wird Software-Qualität zur kritischen Gegenkraft – und Testing zur zentralen Strategie, um diesen Schulden-Tsunami überhaupt noch beherrschbar zu halten. Das verbindet direkt mit der anschließenden Argumentation in den Abschnitten zu Qualität als Schlüsselressource und „Testing neu denken“.

Warum Software-Qualität die unterschätzte Schlüsselressource ist
In der öffentlichen Debatte dominiert häufig die Frage, was KI kann – weniger, was sie können darf und worauf wir uns als Gesellschaft und Organisationen verlassen wollen. Software-Qualität wird in diesem Diskurs oft als „Detail“ behandelt, als nachgelagerter Technikblock unterhalb der großen Transformationsnarrative. Tatsächlich entscheidet sich aber an der Qualität, ob Software-Systeme Vertrauen verdienen: Sind sie robust gegenüber unerwarteten Eingaben, transparent in ihrem Verhalten, sicher im Umgang mit Daten, und langfristig wartbar? [6]
Mit der Verlagerung von Geschäftsprozessen, Entscheidungslogik und kritischer Infrastruktur in KI-gestützte und/oder KI-generierte Systeme wird Software-Qualität zur Kernressource digitaler Souveränität: Wer Qualität beherrscht, kann Innovation kontrolliert skalieren, Risiken bewusst steuern und regulatorischen Anforderungen proaktiv begegnen. Wer Qualität ignoriert, hängt an der Nadel kurzfristiger Effizienzgewinne – und zahlt später mit Vertrauensverlust, Sicherheitsvorfällen und Innovationsstau. [7]
Testing neu denken: Vom Kontrollinstrument zur Gestaltungsmacht
Klassisches Software-Testing basiert auf einer scheinbar einfachen Idee: Wir kennen Anforderungen, wir definieren erwartete Ergebnisse, und wir prüfen, ob das System sich wie vorgesehen verhält – und unterlegen oftmals ein deterministisches Systemverhalten. Auch wenn diese Annahme nicht erforderlich ist und bereits bei offenen, verteilten, parallelen und/oder Echtzeit-Systemen nicht trägt, bricht sie inbesondere bei generativen und agentischen KI-Systemen: Deren Antworten sind probabilistisch, Ausgaben variieren trotz gleicher Eingaben, und Systeme entwickeln in Multi-Agent-Settings emergentes Verhalten [8]. Dazu benötigen wir neue Testdimensionen: anstatt einzelner, „richtiger“ Reaktionen der Software müssen Eigenschaften wie Robustheit, Konsistenz, Schadenspotenzial, Alignment mit Richtlinien oder Widerstand gegen Prompt Injection systematisch bewertet werden. Testorakel werden damit weniger zu „Ja/Nein“-Instanzen in der Bewertung der (dynamischen) Reaktionen, sondern zu mehrschichtigen Bewertungsmechanismen, die statistische Methoden, Property-based Testing und KI-gestützte Auswertung kombinieren. Wie das gemacht werden kann, hatte bereits das Arbitration-Konzept im UML Testing Profile dargelegt [9].
Gleichzeitig zeichnet sich ab, dass Organisationen Testing bereits als Schlüsselinstrument zur Qualitätssicherung von KI-gestützter Software priorisieren: Befragungen großer Unternehmen zeigen, dass erweiterte Test- und Validierungsprotokolle zu den wichtigsten Maßnahmen gehören, um Qualitätsrisiken der GenAI-Entwicklung zu adressieren [10]. Testing verschiebt sich damit von der reinen Fehlerfindung hin zu einer : Es definiert, welche Formen von Verhalten akzeptabel sind – technisch, ethisch und regulatorisch [10].
Mensch und Maschine im Test: Zusammenarbeit statt Ersatz
Ein weiterer wichtiger Punkt rückt in den Fokus: Gern wird behauptet, KI werde das Testen weitgehend automatisieren und menschliche Tester:innen überflüssig machen. Die Realität ist komplexer: KI kann repetitive Aufgaben beschleunigen, Testfälle generieren, Code analysieren und Anomalien aufspüren – aber sie übernimmt nicht die Verantwortung für das, was wir als „qualitativ gut“ und „gesellschaftlich akzeptabel“ definieren.
Auch wenn Test-Agenten Testaufgaben unterstützen, aber Tester:innen weiterhin mit Problemen wie Skalierbarkeit, Alignment, Fehlinformationen und Integrationsaufwand kämpfen. KI-gestützte Qualitätssicherung braucht daher menschliche Expertise, um Testziele zu definieren, Risiken zu priorisieren, Ergebnisse zu interpretieren und den Rahmen dessen zu setzen, was wir als vertrauenswürdig einstufen. In dieser Koproduktion wird Testing zur „Intelligenzschicht“ zwischen KI-generiertem Code und realer Wirkung: Es filtert, korrigiert, begrenzt – und ermöglicht gerade dadurch mutigere Innovation [8].
Ein Plädoyer: Innovation nur mit Qualität – und einem starken Software Testing
Die KI-Ära ist kein Freifahrtschein, technische Schulden zu ignorieren und Qualitätsfragen auf später zu verschieben. Im Gegenteil: Je mehr wir generative und agentische Systeme in kritische Bereiche lassen, desto teurer werden Qualitätsdefizite, desto gravierender wirken sich technische Schulden aus, und desto härter trifft uns der Vertrauensverlust [2][11].
Wenn wir Software-Qualität und Testing weiterhin als nachrangig behandeln, bleiben sie „die unterschätzte Schlüsselressource“ dieser Zeit: wichtig, aber unterfinanziert, unverstanden, zu spät eingebunden. Wenn wir sie dagegen als strategischen Hebel begreifen, werden sie zum zentralen Enabler – sie machen den Unterschied zwischen flüchtigem Hype und nachhaltiger digitaler Transformation.
Deshalb ist jetzt der richtige Zeitpunkt, im KI-Hype über Software-Exzellenz zu sprechen – und Testing neu zu denken: nicht als Bremsklotz, sondern als Gestaltungsinstrument, das Geschwindigkeit in Wert, Komplexität in Verantwortung und Innovation in Vertrauen übersetzt.
Für das German Testing Board (GTB) ist klar: Softwarequalität ist kein optionales „Add-on“ oder gar Hindernis für den Fortschritt – sie ist der Kompass, der uns sicher durch die Komplexität der Digitalisierung und der KI führt. Dabei sind Qualitätssicherung und nachweisliche Professionalität einmal mehr die strategischen Hebel für nachhaltige software-basierte Innovationen mit KI.
Das GTB wird diesen Diskurs in unserem neuen Blog aktiv begleiten. Wir laden Sie ein, Teil dieser Debatte zu werden: Wie gestalten wir die neue Software-Ära mit KI aktiv mit? Wie entwickeln wir die nötigen Kompetenzen und Angebote Wie schützen wir unsere digitalen Lösungen und Infrastrukturen vor einem möglichen KI-induzierten „Software Collapse“?
Mit diesem Blog wollen wir, aktuelle Erkenntnisse und neue Lösungen für das Software Engineering von und mit KI und deren Qualitätssicherung besprechen, einordnen und Best Practices miteinander austauschen. Seien Sie dabei, wenn wir uns gemeinsam auf diese Erkundungstour begeben.
Referenzen
| [1] | Arya, D. (2025). GenAI for Technical Debt Management – Using Generative AI to Handle Technical Debt in Software Development (Dissertation). Abgerufen von https://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-251544 |
| [2] | Anderson, E., Parker, G., & Tan, B. (2025). The Hidden Costs of Coding With Generative AI. MIT Sloan Management Review, 67(1), 12-14. |
| [3] | Moreschini, S. et al (2026). The Evolution of Technical Debt from DevOps to Generative AI: A multivocal literature review, Journal of Systems and Software, Volume 231, 2026, https://doi.org/10.1016/j.jss.2025.112599. |
| [4] | Mujahid, A. A., & Imran, M. M. (2026). TODO: Fix the Mess Gemini Created: Towards Understanding GenAI-Induced Self-Admitted Technical Debt. arXiv preprint arXiv:2601.07786. |
| [5] | Skamser, C. (2026). The Evolution of Technical Debt in the Era of AI. Abgerufen von https://www.linkedin.com/pulse/evolution-technical-debt-era-ai-charles-skamser-oyygc/ |
| [6] | Chatterjee, A. (2025). Quality assurance in the AI era: a leadership imperative, according to S&P Global Market Intelligence. Sonar Blog, Abgerufen von https://www.sonarsource.com/blog/quality-assurance-in-the-ai-era/. |
| [7] | Crisóstomo, J. (2025), Software Quality in the AI Era. The AI Journal. Abgerufen von https://aijourn.com/software-quality-in-the-ai-era/. |
| [8] | Dobslaw, F., Feldt, R., Yoon, J., & Yoo, S. (2025). Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy. arXiv e-prints, arXiv-2503. |
| [9] | Baker, P., et al. (2007). Model-driven testing: Using the UML testing profile. Springer Science & Business Media. |
| [10] | Muratovic, F., et al. (2024). How can organizations engineer quality software in the age of generative AI? Deloitte Insights, Abgerufen von https://www.deloitte.com/us/en/insights/industry/technology/how-can-organizations-develop-quality-software-in-age-of-gen-ai.html. |
| [11] | Sonar 2026). State of Code Developer Survey report, Abgerufen von https://www.sonarsource.com/state-of-code-developer-survey-report.pdf |
