ca. 7 min Lesezeit

Schneller, größer, klüger – aber auch besser?

Geschrieben von Prof. Dr.-Ing. Ina Schieferdecker /

Mai 2026

Inhaltsverzeichnis:

KI macht Tempo – aber wer übernimmt die Verantwortung?

Generative und agentische KI-Systeme haben einen historischen Produktivitätssprung in der Softwareentwicklung ausgelöst: Code, Tests, Architekturvorschläge und Refactorings entstehen heute in Minuten statt Tagen oder Wochen. Doch dieser Geschwindigkeitsgewinn hat einen Preis: Wir produzieren Software in nie dagewesener Menge – ohne sicher zu sein, ob wir ihre Qualität, Sicherheit und langfristige Wartbarkeit wirklich im Griff haben. [1]

Hinzu kommt, dass KI-gestütztes Coding häufig in bestehende, oft fragile Landschaften eingebettet wird. In solchen Brownfield-Umgebungen kann jede neue „schnelle“ Lösung die vorhandene technische Schuld nicht nur fortschreiben, sondern in der Komplexität sogar multiplizieren.

Die zentrale Frage ist daher nicht mehr, ob wir mit KI schneller werden können, sondern ob wir es uns leisten können, in dieser Geschwindigkeit schlechte Entscheidungen zu treffen. [2]

Prof. Dr.-Ing. Ina Schieferdecker

Prof. Dr.-Ing. Ina Schieferdecker, Honorarprofessorin an der TU Berlin, war zuvor BMBF-Abteilungsleiterin für Technologische Souveränität, Institutsleiterin am Fraunhofer FOKUS sowie Direktorin des Weizenbaum-Instituts.

Mehr über Prof. Dr. Ina Schieferdecker erfahren

Veröffentlicht: 05.2026

Technische Schulden im KI-Turbo: Innovation auf Kredit

Der Begriff der technischen Schulden beschreibt seit Jahrzehnten den Zielkonflikt zwischen schneller Lieferung und nachhaltiger Qualität: Wir machen Kompromisse im Design, bei Tests oder im Architekturentscheid, um „Time to Market“ zu gewinnen – und zahlen später Zinsen in Form von Fehlern, Wartungsaufwand und Innovationshemmnissen. Generative KI verschärft diese Dynamik, weil sie kurzfristig Produktivität, aber langfristig zusätzliche, schwer sichtbare Schulden erzeugen kann: undokumentierte Lösungswege, schwer nachvollziehbare Designentscheidungen, undurchsichtige Abhängigkeiten. [3]

Technische Schulden waren schon immer der Preis für Tempo: bewusste oder unbewusste Abkürzungen bei Architektur, Design und Tests, die später als Wartungsaufwand, Risiken und Verzögerungen „zurückgezahlt“ werden müssen. Mit generativer und agentischer KI verschiebt sich diese Dynamik nicht nur – sie beschleunigt sich. Studien und Praxisberichte zeichnen ein konsistentes Bild: GenAI erhöht die Entwicklungsproduktivität, lässt technische Schulden aber schneller und diffuser anwachsen, insbesondere in gewachsenen Systemlandschaften.

Eine Analyse in der MIT Sloan Management Review [2] kommt zu dem Schluss, dass KI-Coding-Tools zwar die Produktivität um bis zu rund 50 % steigern können, gleichzeitig aber gefährliche technische Schulden erzeugen – insbesondere wenn AI-Code in Brownfield-Umgebungen eingesetzt und von weniger erfahrenen Entwickler:innen übernommen wird. Das Resultat sind verschachtelte Abhängigkeiten, Duplikate, schwer nachvollziehbare Workarounds und Architekturen, die kurzfristig funktionieren, sich aber langfristig kaum skalieren oder sicher warten lassen.

Aktuelle Studien zum „GenAI-Induced Self-admitted Technical Debt“ Fehler! [4] zeigen zudem, dass sich die Struktur der Schulden verschiebt: Design-Schulden sind zwar weiterhin präsent, doch insbesondere Anforderungs- und Test-Schulden nehmen zu, weil AI-generierter Code ohne ausreichendes Verständnis der Entwickler:innen übernommen und Qualitätssicherung systematisch auf später verschoben wird. Befragungen von Entwickler:innen bestätigen diesen Trend: Eine große Mehrheit berichtet von negativen Auswirkungen von AI auf technische Schulden und einem wachsenden Aufwand, generierten Code nachträglich zu korrigieren oder neu zu schreiben [2][5]

Gleichzeitig warnen Branchenanalysen davor, dass sich aus schneller, unkontrollierter KI-Einführung eine neue Form von „AI Debt“ entwickelt [5]: Wer GenAI und agentische Systeme skaliert, ohne Governance, Wartbarkeit und Evaluationsmechanismen mitzudenken, läuft in einen Upgrade- und Operations-Teufelskreis, in dem jede neue KI-Funktion zusätzliche Schulden und Betriebsrisiken erzeugt. Anders formuliert: KI beschleunigt nicht nur die Feature-Lieferung, sie beschleunigt auch den Zinseszins unserer technischen Schulden – insbesondere dort, wo Software-Qualität und Testing nicht konsequent mitwachsen.

Genau hier liegt der Dreh- und Angelpunkt dieses Artikels: Wenn technische Schulden im KI-Zeitalter strukturell schneller wachsen, wird Software-Qualität zur kritischen Gegenkraft – und Testing zur zentralen Strategie, um diesen Schulden-Tsunami überhaupt noch beherrschbar zu halten. Das verbindet direkt mit der anschließenden Argumentation in den Abschnitten zu Qualität als Schlüsselressource und „Testing neu denken“.

Warum Software-Qualität die unterschätzte Schlüsselressource ist

In der öffentlichen Debatte dominiert häufig die Frage, was KI kann – weniger, was sie können darf und worauf wir uns als Gesellschaft und Organisationen verlassen wollen. Software-Qualität wird in diesem Diskurs oft als „Detail“ behandelt, als nachgelagerter Technikblock unterhalb der großen Transformationsnarrative. Tatsächlich entscheidet sich aber an der Qualität, ob Software-Systeme Vertrauen verdienen: Sind sie robust gegenüber unerwarteten Eingaben, transparent in ihrem Verhalten, sicher im Umgang mit Daten, und langfristig wartbar? [6]

Mit der Verlagerung von Geschäftsprozessen, Entscheidungslogik und kritischer Infrastruktur in KI-gestützte und/oder KI-generierte Systeme wird Software-Qualität zur Kernressource digitaler Souveränität: Wer Qualität beherrscht, kann Innovation kontrolliert skalieren, Risiken bewusst steuern und regulatorischen Anforderungen proaktiv begegnen. Wer Qualität ignoriert, hängt an der Nadel kurzfristiger Effizienzgewinne – und zahlt später mit Vertrauensverlust, Sicherheitsvorfällen und Innovationsstau. [7]

Testing neu denken: Vom Kontrollinstrument zur Gestaltungsmacht

Klassisches Software-Testing basiert auf einer scheinbar einfachen Idee: Wir kennen Anforderungen, wir definieren erwartete Ergebnisse, und wir prüfen, ob das System sich wie vorgesehen verhält – und unterlegen oftmals ein deterministisches Systemverhalten. Auch wenn diese Annahme nicht erforderlich ist und bereits bei offenen, verteilten, parallelen und/oder Echtzeit-Systemen nicht trägt, bricht sie inbesondere bei generativen und agentischen KI-Systemen: Deren Antworten sind probabilistisch, Ausgaben variieren trotz gleicher Eingaben, und Systeme entwickeln in Multi-Agent-Settings emergentes Verhalten [8]. Dazu benötigen wir neue Testdimensionen: anstatt einzelner, „richtiger“ Reaktionen der Software müssen Eigenschaften wie Robustheit, Konsistenz, Schadenspotenzial, Alignment mit Richtlinien oder Widerstand gegen Prompt Injection systematisch bewertet werden. Testorakel werden damit weniger zu „Ja/Nein“-Instanzen in der Bewertung der (dynamischen) Reaktionen, sondern zu mehrschichtigen Bewertungsmechanismen, die statistische Methoden, Property-based Testing und KI-gestützte Auswertung kombinieren. Wie das gemacht werden kann, hatte bereits das Arbitration-Konzept im UML Testing Profile dargelegt [9].

Gleichzeitig zeichnet sich ab, dass Organisationen Testing bereits als Schlüsselinstrument zur Qualitätssicherung von KI-gestützter Software priorisieren: Befragungen großer Unternehmen zeigen, dass erweiterte Test- und Validierungsprotokolle zu den wichtigsten Maßnahmen gehören, um Qualitätsrisiken der GenAI-Entwicklung zu adressieren [10]. Testing verschiebt sich damit von der reinen Fehlerfindung hin zu einer : Es definiert, welche Formen von Verhalten akzeptabel sind – technisch, ethisch und regulatorisch [10].

Mensch und Maschine im Test: Zusammenarbeit statt Ersatz

Ein weiterer wichtiger Punkt rückt in den Fokus: Gern wird behauptet, KI werde das Testen weitgehend automatisieren und menschliche Tester:innen überflüssig machen. Die Realität ist komplexer: KI kann repetitive Aufgaben beschleunigen, Testfälle generieren, Code analysieren und Anomalien aufspüren – aber sie übernimmt nicht die Verantwortung für das, was wir als „qualitativ gut“ und „gesellschaftlich akzeptabel“ definieren.

Auch wenn Test-Agenten Testaufgaben unterstützen, aber Tester:innen weiterhin mit Problemen wie Skalierbarkeit, Alignment, Fehlinformationen und Integrationsaufwand kämpfen. KI-gestützte Qualitätssicherung braucht daher menschliche Expertise, um Testziele zu definieren, Risiken zu priorisieren, Ergebnisse zu interpretieren und den Rahmen dessen zu setzen, was wir als vertrauenswürdig einstufen. In dieser Koproduktion wird Testing zur „Intelligenzschicht“ zwischen KI-generiertem Code und realer Wirkung: Es filtert, korrigiert, begrenzt – und ermöglicht gerade dadurch mutigere Innovation [8].

Ein Plädoyer: Innovation nur mit Qualität – und einem starken Software Testing

Die KI-Ära ist kein Freifahrtschein, technische Schulden zu ignorieren und Qualitätsfragen auf später zu verschieben. Im Gegenteil: Je mehr wir generative und agentische Systeme in kritische Bereiche lassen, desto teurer werden Qualitätsdefizite, desto gravierender wirken sich technische Schulden aus, und desto härter trifft uns der Vertrauensverlust [2][11].

Wenn wir Software-Qualität und Testing weiterhin als nachrangig behandeln, bleiben sie „die unterschätzte Schlüsselressource“ dieser Zeit: wichtig, aber unterfinanziert, unverstanden, zu spät eingebunden. Wenn wir sie dagegen als strategischen Hebel begreifen, werden sie zum zentralen Enabler – sie machen den Unterschied zwischen flüchtigem Hype und nachhaltiger digitaler Transformation.

Deshalb ist jetzt der richtige Zeitpunkt, im KI-Hype über Software-Exzellenz zu sprechen – und Testing neu zu denken: nicht als Bremsklotz, sondern als Gestaltungsinstrument, das Geschwindigkeit in Wert, Komplexität in Verantwortung und Innovation in Vertrauen übersetzt.

Für das German Testing Board (GTB) ist klar: Softwarequalität ist kein optionales „Add-on“ oder gar Hindernis für den Fortschritt – sie ist der Kompass, der uns sicher durch die Komplexität der Digitalisierung und der KI führt. Dabei sind Qualitätssicherung und nachweisliche Professionalität einmal mehr die strategischen Hebel für nachhaltige software-basierte Innovationen mit KI.

Das GTB wird diesen Diskurs in unserem neuen Blog aktiv begleiten. Wir laden Sie ein, Teil dieser Debatte zu werden: Wie gestalten wir die neue Software-Ära mit KI aktiv mit? Wie entwickeln wir die nötigen Kompetenzen und Angebote Wie schützen wir unsere digitalen Lösungen und Infrastrukturen vor einem möglichen KI-induzierten „Software Collapse“?

Mit diesem Blog wollen wir, aktuelle Erkenntnisse und neue Lösungen für das Software Engineering von und mit KI und deren Qualitätssicherung besprechen, einordnen und Best Practices miteinander austauschen. Seien Sie dabei, wenn wir uns gemeinsam auf diese Erkundungstour begeben.

Referenzen

[1]	Arya, D. (2025). GenAI for Technical Debt Management – Using Generative AI to Handle Technical Debt in Software Development (Dissertation). Abgerufen von https://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-251544
[2]	Anderson, E., Parker, G., & Tan, B. (2025). The Hidden Costs of Coding With Generative AI. MIT Sloan Management Review, 67(1), 12-14.
[3]	Moreschini, S. et al (2026). The Evolution of Technical Debt from DevOps to Generative AI: A multivocal literature review, Journal of Systems and Software, Volume 231, 2026, https://doi.org/10.1016/j.jss.2025.112599.
[4]	Mujahid, A. A., & Imran, M. M. (2026). TODO: Fix the Mess Gemini Created: Towards Understanding GenAI-Induced Self-Admitted Technical Debt. arXiv preprint arXiv:2601.07786.
[5]	Skamser, C. (2026). The Evolution of Technical Debt in the Era of AI. Abgerufen von https://www.linkedin.com/pulse/evolution-technical-debt-era-ai-charles-skamser-oyygc/
[6]	Chatterjee, A. (2025). Quality assurance in the AI era: a leadership imperative, according to S&P Global Market Intelligence. Sonar Blog, Abgerufen von https://www.sonarsource.com/blog/quality-assurance-in-the-ai-era/.
[7]	Crisóstomo, J. (2025), Software Quality in the AI Era. The AI Journal. Abgerufen von https://aijourn.com/software-quality-in-the-ai-era/.
[8]	Dobslaw, F., Feldt, R., Yoon, J., & Yoo, S. (2025). Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy. arXiv e-prints, arXiv-2503.
[9]	Baker, P., et al. (2007). Model-driven testing: Using the UML testing profile. Springer Science & Business Media.
[10]	Muratovic, F., et al. (2024). How can organizations engineer quality software in the age of generative AI? Deloitte Insights, Abgerufen von https://www.deloitte.com/us/en/insights/industry/technology/how-can-organizations-develop-quality-software-in-age-of-gen-ai.html.
[11]	Sonar 2026). State of Code Developer Survey report, Abgerufen von https://www.sonarsource.com/state-of-code-developer-survey-report.pdf

Hier veröffentlichen wir in unregelmäßigen Abständen eine Auswahl geprüfter und redaktionell aufbereiteter Nutzerkommentare.

Carsten Laun-De Lellis 20. Mai 2026 at 13:47

Hallo Frau Schieferdecker

Ich stimme in wesentlichen Punkten mit Ihren Ausführungen überein.

Ich sehe mehrere Aspekte, der Auswirkungen beim Einsatz von Coding Agenten.

1. Wenn Anforderungen einfach nur per API übertragen werden, dann ist nicht sichergestellt, dass dies auch wirklich dem entspricht, was ich möchte. Hier treten die gleichen Effekte auf, wie sie schon seit Jahrzehnten vorkommen. Es macht keinen Unterschied, ob ein Mensch oder eine KI etwas „falsch“ versteht. Eine saubere und nachvollziehbare Anforderungsannahme ist aber der Grundstein für alle nachfolgenden Schritte im Entwicklungsprozeß. Hier tritt man eigentlich schon seit Jahren auf der Stelle. Ob BPM2, UML oder andere Formate sind formal sauber, jedoch nicht mit jedem Anforderer aus der Fachabteilung kompatibel. Aus diesem Grund benötigt man immer einen Human-in-the-Loop (HITL), um die Anforderung zu verifizieren. Wenn die Anforderung per KI erstellt wurde, dann natürlich auch, um die EU AI ACT Konformität zu gewährleisten. Damit ist jedoch nur sichergestellt, dass die Anforderung überprüft wurde, jedoch nicht, dass die Logik plausibel ist oder erste Kontrollen durchgeführt wurden.

Zusammengefasst, es wurde eine Anforderung erfasst, jedoch gibt es keine Kriterien, die eine automatisierte Umsetzung in Code ermöglichen.

2. In heutigen Zeiten von Testdriven Development sind natürlich die aus einer Anforderung abgeleiteten Tests die Grundlage für den Entwickler. Hier werden Testfälle zwar schon heute mit KI erzeugt, aber keiner der Anbieter kann die Vollständigkeit der Testfälle garantieren, geschweige denn eine Optimierung der Testfälle vornehmen. Dies resultiert natürlich auch immer auf die Unschärfen in der Anforderung.

Selbst wenn nun eine Automatisierung im Coding, wie Github CoPilot, Claude, … usw. zum Einsatz kommt oder nur als Hilfsmittel genutzt wird, wird es immer noch zu den gleichen, teuren Regelzyklen, wie heutzutage kommen.

Der Anforderer erstellt seine Anforderung, der Entwickler entwickelt, was er verstanden hat und der Tester testet, wie er die Anforderung versteht. Dann werden, wie wir alle hoffen, die Fehler im Testing gefunden und der Kreislauf beginnt von vorne. Dies ganze beliebig oft.

Um nun jedoch diesen Kreislauf zu durchbrechen und eine wirklich automatisierte Softwareerstellung möglich zu machen, ist das Fundament die Anforderung nicht nur zu erfassen, sondern auch die Logik dahinter zu generieren und zu validieren. Dann müssen die Testfälle erzeugt werden, die zumindest eine 100% C1 Pfadabdeckung sicherstellen, so dass diese den Rahmen für das Testdriven Development bilden.

Dies betrifft jedoch nur die fachlichen Anforderungen. Anforderungen, die aus der Architektur entstehen, oder auch Entwicklungsrichtlinien sind dabei noch ungeachtet.
- Prof. Dr.-Ing. Ina Schieferdecker 21. Mai 2026 at 08:15
  
  Hallo Herr Laun-De Lellis,
  
  vielen Dank für Ihren Kommentar, der wichtige Punkte im Anforderungsmanagement aufgreift.
  
  Ein kleiner Hinweis zur Klarstellung: Auch wenn ich eine Verfechterin modellgetriebener Softwareentwicklung und des modellbasierten Testens bin, plädiere ich keineswegs für eine vollständige Automatisierung – auch nicht durch KI. Ich bin überzeugt, dass es stets des kreativen und kritischen ‚Um-die-Ecke-Denkens‘ bedarf, das sich in Modellen oder Spezifikationen nur mit unverhältnismäßig hohem Aufwand – wenn überhaupt – abbilden lässt.
  
  Wir werden also weiterhin über eine ausgewogene Interaktion von Mensch und Maschine in der Software-Entwicklung sprechen müssen. Wie diese in Zeiten von KI für den jeweiligen Kontext am effektivsten gestaltet werden kann, ist Gegenstand aktueller Forschung und industrieller Studien.
Anja Kribernegg 19. Mai 2026 at 08:10

Mit dem Eröffnungsbeitrag des neuen DACH-Testing-Blogs setzt Prof. Dr. Ina Schieferdecker einen bemerkenswert hohen inhaltlichen Maßstab. Der Text ist klar strukturiert, wissenschaftlich fundiert und zugleich strategisch zugespitzt. Der Beitrag stellt die Kernfrage, ob wir es uns angesichts der KI-getriebenen Beschleunigung leisten können, in dieser Geschwindigkeit schlechte Entscheidungen zu treffen – und diese Umformulierung ist entscheidend.

Schieferdecker gelingt es, einen dringend notwendigen Perspektivwechsel anzustoßen: Software-Qualität nicht als optionales Add-on oder Hindernis für den Fortschritt, sondern als Kompass, der sicher durch die Komplexität der Digitalisierung und der KI führt. Für den neuen DACH-Blog ist das ein starkes Eröffnungsstatement – eines, das Orientierung gibt, Debatte einlädt und den Anspruch des Projekts glaubwürdig untermauert. Wer im Testing-Umfeld tätig ist, sollte diesen Beitrag lesen und teilen.
- Prof. Dr.-Ing. Ina Schieferdecker 21. Mai 2026 at 07:59
  
  Hallo Frau Kribernegg,
  
  vielen Dank!

Comments are closed.

Schneller, größer, klüger – aber auch besser?

KI macht Tempo – aber wer übernimmt die Verantwortung?

Technische Schulden im KI-Turbo: Innovation auf Kredit

Warum Software-Qualität die unterschätzte Schlüsselressource ist

Testing neu denken: Vom Kontrollinstrument zur Gestaltungsmacht

Mensch und Maschine im Test: Zusammenarbeit statt Ersatz

Ein Plädoyer: Innovation nur mit Qualität – und einem starken Software Testing

Referenzen

Hier veröffentlichen wir in unregelmäßigen Abständen eine Auswahl geprüfter und redaktionell aufbereiteter Nutzerkommentare.

Automotive Software Tester

Usability Testing

Security Tester

Performance Testing

Acceptance Testing

Model Based Tester

Mobile Application Testing

AI Testing

Agile Tester

Agile Test Leadership at Scale

Agile Technical Tester

Specialist Module

Foundation Level

Advanced Level

Advanced Level Test Automation Engineering 2.0

Advanced Level – Technical Test Analyst

Advanced Level Test Management 3.0

Advanced Level Test Analyst

Expert Level

CT‑GenAI