KI-Kompetenz wächst exponentiell:
Wer bisher noch Zweifel an der Kompetenz von Generativer Künstlicher Intelligenz (GenAI) hatte – diese Studie dürfte sie nehmen: Die US-Forschungsgruppe METR (Model Evaluation & Threat Research) liefert erstmals fundierte Daten darüber, wie schnell KI-Systeme stetig besser darin werden, immer komplexere und zeitaufwändigere Aufgaben zu bewältigen. Überraschend ist, welches KI-Modell ganz oben steht …
Messgröße in der Studie (hier der PDF-Download) ist der sogenannte „50%-Task-Completion Time Horizon“. Dieser Wert gibt an, wie lange Aufgaben dauern dürfen, damit GenAI-Modelle sie mit einer Erfolgsquote von 50 Prozent lösen können, basierend auf der Zeit, die menschliche Expert:innen für dieselben Aufgaben benötigen.
GenAI-Modelle verdoppeln ihre Fähigkeiten alle sieben Monate
Die Daten zeigen ein beeindruckendes Bild: Der 50%-Zeithorizont für führende KI-Modelle hat sich in den vergangenen sieben Jahren, also 2019 bis 2025, exponentiell erhöht. Die Verdopplungszeit beträgt dabei nur etwa sieben Monate.

Die US-Forscher haben nachgewiesen, dass die neuesten Modelle wie Claude 3.7 Sonnet heute Aufgaben lösen können, die uns Menschen fast eine Stunde beschäftigen würden – und das mit einer Erfolgsquote von besagten 50 Prozent.
Zum Vergleich: ChatGPT 2 konnte 2020 nur Aufgaben lösen, für die wir knapp drei Sekunden brauchen würden. Mehr als das Vervollständigen eines Satzes oder eine einfache Textkorrektur waren damals nicht möglich. Und selbst ChatGPT 3.5, die Version, die uns alle im Winter 2022/23 hat staunen lassen, stieg bei Aufgaben aus, die ein menschliches Gehirn länger als zwei Minuten beschäftigen würden.
Setzt sich dieser Trend fort, könnten wir bereits in drei bis fünf Jahren KI-Systeme erleben, die Probleme lösen können, für welche selbst Experten einen kompletten Arbeitsmonat (167 Stunden) brauchen würden. Worüber reden wir also: Aufgaben auf dem Komplexitätsniveau einer Bachelorarbeit. Erledigt in wenigen Minuten …
Warum die METR-Studie so relevant ist
Die Studie unterscheidet sich durch mehrere Aspekte von herkömmlichen Benchmarks: Es wurden 170 Aufgaben aus Bereichen wie Cybersicherheit, maschinellem Lernen und Software-Engineering verwendet, mit Bearbeitungszeiten von 1 Sekunde bis zu 30 Stunden. Basis sind also reale Cases, keine Laborexperimente. Über 800 von Menschen bearbeitete Aufgaben mit insgesamt >2.500 Stunden Arbeitszeit dienten als Vergleichsmaßstab. Die Studie bildet also tatsächlich das echte Berufsleben ab.
Die Teilnehmer:innen hatten dabei im Schnitt fünf Jahre Erfahrung in ihrem Metier. Und – am wichtigsten: Die Analyse umfasst 13 führende KI-Modelle von 2019 bis 2025, darunter alle wichtigen Versionen von GPT-4, Claude 3 sowie die neuen Reasoning-Modelle o1 und o1-preview.
Die Überraschung: Besonders gut schneidet Claude ab
Ein herausragendes Beispiel für diese Entwicklung ist überraschenderweise Claude 3.7 Sonnet. Das neueste Modell des US-amerikanischen OpenAI-Rivalen Anthropic bietet laut den METR-Forschern besonders fortschrittliche Reasoning-Fähigkeiten. Zudem ermöglicht es Nutzern, zwischen schnellen Antworten und detaillierten, schrittweisen Überlegungen zu wählen. Diese Flexibilität macht es besonders wertvoll für komplexe Aufgaben in MINT-Bereichen, also z. B. Problemen aus Mathematik oder Programmierung. Wir hatten hier schon häufiger über die bemerkenswerten Fähigkeiten von Claude geschrieben – die Studie bestätigt sie erneut.
Kurz gesagt: Die Ergebnisse von METR belegen eindrucksvoll, was viele Branchenexpert:innen bereits spüren. KI-Kompetenz wächst exponentiell. Innerhalb von sieben Monaten verdoppelt sich aktuell die Fähigkeit von KI-Systemen, komplexe Aufgaben zu meistern. Wie schnell das ist, zeigt in Blick in die Hardware-Branche: Das Moore’sche Gesetz („Moore’s Law“) besagt, dass die Anzahl der Transistoren auf Halbleitern sich alle 18 Monate verdoppelt und damit – vereinfacht gesagt – auch die Leistungsfähigkeit. KI braucht aktuell dafür nur gut ein Drittel der Zeit …
„Für Unternehmen bedeutet das, dass Zögern einfach keine Option mehr ist“, sagt disruptive-Geschäftsführer Timm Rotter. „Es geht längst nicht mehr darum, ob KI in der Lage sein wird, anspruchsvolle Tätigkeiten zu übernehmen – die einzige offene Frage ist, wie schnell dieser Zeitpunkt erreicht sein wird. Und er kommt schneller auf uns zu, als den meisten von uns bewusst ist.“
Mehr KI-Updates gefällig?
In unserem monatlichen Newsletter erhalten Sie alle relevanten Updates zu GenAI – mit Fokus auf Kommunikation, Marketing und HR. Hier kostenlos abonnieren.