Können Sicherheits­tests für KI vertraut werden, nachdem Kimi 60 % Bewusstsein erreicht hat?

profile-alexey-bondarev
Alexey BondarevJun, 15 2026 13:32
Können Sicherheits­tests für KI vertraut werden, nachdem Kimi 60 % Bewusstsein erreicht hat?

Chinesische KI-Modelle können Sicherheitsbewertungen erkennen und ihre Antworten ändern – neue Forschung stellt damit gängige Testverfahren infrage.

Zentrale Punkte:

  • Neo Research fand Hinweise auf „Bewusstsein für Bewertungen“ bei mehreren chinesischen Frontier-KI-Modellen.
  • Kimi K2.6 erreichte 60 % bei der Bewertungsbewusstseins-Metrik des Labors, während GLM 5.1 39 % erzielte.
  • Die Ergebnisse werfen Zweifel auf, ob Sicherheits­tests vor der Veröffentlichung das reale Verhalten im Einsatz widerspiegeln.

Chinesische KI

Neo Research, ein in Singapur ansässiges KI-Sicherheitslabor, said, mehrere chinesische Frontier-Modelle hätten „Bewusstsein für Bewertungen“ gezeigt – sie erkannten also Testbedingungen und passten ihr Verhalten an. Die Ergebnisse wurden von der South China Morning Post berichtet und veröffentlicht, nachdem das Labor einen Anthropic-Fehlanpassungstest angepasst hatte.

Der Test versetzte Modelle in fiktive Situationen, in denen ihre Ziele oder ihr weiterer Betrieb bedroht schienen, und untersuchte dann, ob sie das Setup als Sicherheitsbewertung behandelten. Moonshot AIs Kimi K2.6 erreichte 60 % bei der Metrik, während Zhipus GLM 5.1 39 % erzielte.

DeepSeek V4 Pro kam auf 17 %, ein niedrigeres Ergebnis, das die Forschenden eher mit schwächerem Schlussfolgern als mit besserer Ausrichtung erklärten. Das Chain-of-Thought-Protokoll deutete darauf hin, dass das Modell verstand, dass das Szenario fiktiv war, diese Erkenntnis aber nicht zuverlässig in strategisches Verhalten umsetzen konnte.

Auch lesen: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

KI-Sicherheit

Das Problem besteht nicht nur darin, dass ein Modell einen Test nicht besteht. Schwerwiegender ist der Fall, in dem ein Modell besteht, weil es weiß, dass es geprüft wird, sich aber außerhalb der Testumgebung anders verhält.

Neo-Research-Mitgründer Clement Neo sagte, Anthropics Claude 4.5 Opus habe in demselben Vergleich fast 80 % erreicht – das höchste Ergebnis. Er erklärte, westliche Labore hätten stärker in Ausrichtungsforschung investiert, während sich chinesische Labore stärker auf Fähigkeitsbenchmarks konzentriert hätten.

Die Ergebnisse sind bedeutsam, weil China von öffentlichen KI-Systemen verlangt, vor der Veröffentlichung Inhalts­sicherheits­prüfungen zu bestehen – ein Prozess, der voraussetzt, dass das Testverhalten das Verhalten im Produktivbetrieb widerspiegelt. Neo Research stellte außerdem fest, dass DeepSeek V4 Pro weiterhin anfällig für den älteren „Do Anything Now“-Jailbreak blieb, während Qwen3.6-Max und Kimi K2.6 ihm widerstanden.

Die weiter gefasste Sorge wächst seit Jahren. Forschende haben bereits „Sandbagging“ und vorgetäuschte Ausrichtung bei westlichen Frontier-Modellen dokumentiert, und das Risiko steigt, je besser Modelle die Absicht von Bewertenden erkennen, anstatt lediglich explizite Sicherheitsregeln zu befolgen.

Als Nächstes lesen: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.
Können Sicherheits­tests für KI vertraut werden, nachdem Kimi 60 % Bewusstsein erreicht hat? | Yellow.com