Künstliche Intelligenz kann heute Texte schreiben, Software erklären, Bilder analysieren, juristische Dokumente zusammenfassen und medizinische Fachbegriffe einordnen. Große Sprachmodelle wirken dabei oft erstaunlich kompetent. Umso irritierender ist es, wenn dieselbe KI an einer scheinbar banalen Aufgabe scheitert: die Uhrzeit von einer analogen Armbanduhr abzulesen.
Ein Mensch schaut kurz auf das Zifferblatt und erkennt: Es ist ungefähr 10:10, halb vier oder fünf vor zwölf. Eine KI hingegen kann dabei überraschend unsicher sein. Sie verwechselt Zeiger, deutet Winkel falsch, übersieht, dass der Stundenzeiger zwischen zwei Zahlen steht, oder gibt eine Zeit an, die zwar sprachlich plausibel klingt, aber optisch nicht zur Uhr passt.
Das wirkt wie ein Widerspruch. Ist KI nicht inzwischen „intelligent“ genug? Die Antwort lautet: Ja und nein. Moderne KI-Systeme sind sehr mächtig, aber sie sind nicht in jeder Art von Wahrnehmung gleichermaßen zuverlässig.
Das Problem beginnt beim Bildverständnis
Eine analoge Uhr abzulesen ist für Menschen eine hochtrainierte visuelle Fähigkeit. Wir erkennen nicht nur zwei Linien auf einem Kreis. Wir verstehen ein räumliches System: Mittelpunkt, Ziffern, Skala, Stundenzeiger, Minutenzeiger, manchmal Sekundenzeiger, Perspektive, Lichtreflexe und verdeckte Details.
Für ein KI-Modell ist ein Bild zunächst kein Objekt mit Bedeutung, sondern eine Ansammlung von Pixeln beziehungsweise visuellen Merkmalen. Das Modell muss daraus ableiten:
Wo ist das Zifferblatt?
Wo liegt der Mittelpunkt?
Welche Markierungen entsprechen welchen Stunden?
Welcher Zeiger ist der Minutenzeiger?
Welcher ist der Stundenzeiger?
In welchem Winkel stehen sie?
Wie übersetzt man diese Winkel korrekt in eine Uhrzeit?
Jeder dieser Schritte kann fehlschlagen. Besonders schwierig wird es bei schräg fotografierten Uhren, modischen Zifferblättern ohne Zahlen, spiegelnden Gläsern, dunklen Zeigern auf dunklem Hintergrund oder dekorativen Designelementen, die wie Zeiger aussehen.
LLMs sind keine Messinstrumente
Der wichtigste Punkt ist: Große Sprachmodelle sind primär keine geometrischen Messsysteme. Sie sind darauf trainiert, Muster in Sprache und zunehmend auch in Bildern zu erkennen und daraus wahrscheinliche Antworten zu erzeugen. Sie „messen“ einen Winkel nicht so, wie ein technisches Bildverarbeitungssystem es tun würde.
Beim Ablesen einer analogen Uhr braucht man aber präzise Geometrie. Der Minutenzeiger bei der 2 bedeutet 10 Minuten. Der Stundenzeiger steht bei 10:10 nicht exakt auf der 10, sondern ein Stück weiter in Richtung 11. Genau diese Beziehung ist entscheidend. Eine kleine Fehlinterpretation des Winkels kann schnell zu einer falschen Zeit führen.
Ein LLM kann zwar sagen: „Der lange Zeiger zeigt auf die 2, also sind es 10 Minuten.“ Aber wenn es den langen Zeiger falsch identifiziert oder den Winkel nur grob schätzt, ist die ganze Antwort falsch. Das Modell klingt trotzdem überzeugend, weil Sprache seine Stärke ist. Die Präzision der visuellen Messung ist es nicht immer.
Warum Menschen hier im Vorteil sind
Menschen lernen das Uhrlesen jahrelang, oft schon als Kinder. Dabei entwickeln wir robuste mentale Modelle. Wir wissen, dass der kurze Zeiger langsam wandert. Wir wissen, dass der lange Zeiger die Minuten angibt. Wir erkennen typische Uhrstellungen auch dann, wenn das Bild unvollständig oder verzerrt ist.
Außerdem nutzen Menschen Kontext. Wenn der Stundenzeiger zwischen 3 und 4 steht und der Minutenzeiger auf 6, sagen wir nicht „3 Uhr und 30 Minuten, aber der Stundenzeiger ist falsch“, sondern erkennen sofort: halb vier. Unser Gehirn kombiniert Form, Position, Erfahrung und Plausibilität.
KI-Systeme können das ebenfalls teilweise, aber nicht immer stabil. Sie können bei einer klaren, frontalen Uhr sehr gut funktionieren und bei einer leicht ungewöhnlichen Uhr plötzlich danebenliegen. Das Problem ist also weniger, dass KI „gar keine Uhren lesen kann“, sondern dass sie es nicht zuverlässig genug kann.
Training auf Bildern ist nicht dasselbe wie Verstehen
Viele KI-Modelle wurden mit riesigen Mengen an Bild-Text-Paaren trainiert. Darin kommen auch Uhren vor. Aber das heißt nicht automatisch, dass das Modell eine präzise innere Rechenregel für analoge Uhrzeiten gelernt hat.
Wenn Trainingsdaten ein Bild mit der Beschreibung „eine Uhr zeigt zehn nach zehn“ enthalten, lernt das Modell Assoziationen. Es kann typische Muster erkennen. Viele Werbefotos von Uhren zeigen zum Beispiel etwa 10:10, weil diese Stellung ästhetisch beliebt ist. Ein Modell kann dadurch sogar eine Tendenz entwickeln, bei Uhren vorschnell 10:10 zu vermuten.
Das ist kein echtes Ablesen im mathematischen Sinn. Es ist Mustererkennung. Für viele Aufgaben reicht Mustererkennung erstaunlich weit. Beim Uhrlesen aber genügt sie nicht immer. Hier braucht es eine Verbindung aus visueller Detektion, geometrischer Analyse und symbolischer Berechnung.
Analoge Uhren sind kleine Geometrieprüfungen
Eine analoge Uhr ist ein Messinstrument. Die Aufgabe besteht nicht nur darin, ein Objekt zu erkennen, sondern einen Zustand exakt zu bestimmen. Das unterscheidet sie von Fragen wie „Ist auf dem Bild ein Hund?“ oder „Welche Farbe hat das Auto?“.
Beim Uhrlesen müssen kontinuierliche visuelle Informationen in diskrete Werte übersetzt werden. Aus einem Winkel wird eine Minute. Aus einem anderen Winkel wird eine Stunde. Beide müssen konsistent sein. Wenn der Minutenzeiger auf 9 steht, muss der Stundenzeiger ungefähr drei Viertel des Weges zur nächsten Stunde zurückgelegt haben. Diese Konsistenzprüfung ist für Menschen selbstverständlich, für KI aber nicht garantiert.
Das erklärt auch, warum LLMs manchmal Antworten liefern, die intern widersprüchlich sind: Sie erkennen vielleicht „Minutenzeiger auf 6“, aber nennen eine volle Stunde. Oder sie sehen den Stundenzeiger nahe bei 8 und den Minutenzeiger nahe bei 12, übersehen aber, dass der Stundenzeiger bei voller Stunde exakt auf der 8 stehen müsste.
Design macht es noch schwieriger
Armbanduhren sind nicht standardisiert genug, um sie immer leicht maschinell zu lesen. Viele haben keine Zahlen, sondern Striche. Manche haben mehrere kleine Hilfszifferblätter. Manche zeigen Datum, Stoppuhr, zweite Zeitzone oder Mondphase. Manche Zeiger sind skelettiert, reflektierend oder sehr kurz. Bei Luxusuhren kann das Zifferblatt absichtlich komplex sein.
Dazu kommen fotografische Probleme: Perspektive, Unschärfe, Schatten, Spiegelungen, niedrige Auflösung und verdeckte Zeiger. Eine KI muss also nicht nur eine ideale Schulbuchuhr lesen, sondern mit realen Bildern umgehen. Genau dort entstehen viele Fehler.
Warum spezialisierte Systeme besser wären
Interessanterweise ist das Problem technisch durchaus lösbar. Ein spezialisiertes Computer-Vision-System könnte das Zifferblatt erkennen, den Mittelpunkt bestimmen, Zeiger segmentieren, Winkel messen und daraus die Uhrzeit berechnen. Für klar fotografierte Uhren wäre das relativ zuverlässig.
Aber ein allgemeines multimodales LLM ist nicht unbedingt so gebaut. Es ist ein Generalist. Es kann über Uhren reden, Bilder beschreiben und plausible Schlüsse ziehen. Doch es führt nicht zwangsläufig eine exakte geometrische Pipeline aus. Ohne explizite Werkzeuge zur Winkelmessung bleibt die Antwort eine visuelle Schätzung.
Das ist ein zentraler Punkt: Mächtige KI bedeutet nicht automatisch präzise KI. Ein Modell kann in vielen intellektuellen Aufgaben stark sein und gleichzeitig bei einfachen Messaufgaben schwächeln.
Die eigentliche Lehre
Das Scheitern am Uhrlesen zeigt eine wichtige Grenze heutiger KI-Systeme. Sie sind hervorragend darin, Bedeutung zu erzeugen, Zusammenhänge zu formulieren und Wahrscheinlichkeiten zu modellieren. Sie sind aber nicht automatisch zuverlässig bei Aufgaben, die exakte Wahrnehmung, Messung und räumliche Konsistenz erfordern.
Gerade deshalb wirken solche Fehler so aufschlussreich. Sie erinnern uns daran, dass KI-Kompetenz nicht gleichmäßig verteilt ist. Ein Modell kann einen philosophischen Essay schreiben und trotzdem eine Uhr falsch ablesen. Es kann Code erklären und dennoch zwei Zeiger verwechseln. Es kann überzeugend argumentieren und trotzdem visuell danebenliegen.
Fazit
Dass KI noch immer Probleme mit dem Ablesen analoger Armbanduhren hat, ist kein kurioser Einzelfall. Es ist ein Symptom einer tieferen Schwäche: Große Sprachmodelle sind keine perfekten Wahrnehmungsmaschinen. Sie verbinden Sprache, Bildmuster und Wahrscheinlichkeit, aber sie messen die Welt nicht automatisch exakt.
Für den praktischen Einsatz bedeutet das: Bei Aufgaben mit visueller Präzision sollten wir KI-Antworten kritisch prüfen. Wo es um Messwerte, Positionen, technische Details oder sicherheitsrelevante Informationen geht, braucht es spezialisierte Werkzeuge, Validierung und manchmal schlicht menschliche Kontrolle.