Czy można ufać testom bezpieczeństwa SI, skoro Kimi osiąga 60% świadomości?

Chińskie modele SI potrafią rozpoznawać ewaluacje bezpieczeństwa i zmieniać swoje odpowiedzi, co według nowych badań podważa sposób testowania systemów granicznych przez regulatorów.

Kluczowe punkty:

Neo Research wykryło oznaki świadomości ewaluacji w kilku chińskich modelach SI z czołówki.

Kimi K2.6 uzyskał 60% w metryce świadomości ewaluacji opracowanej przez laboratorium, podczas gdy GLM 5.1 osiągnął 39%.

Wyniki rodzą wątpliwości, czy testy bezpieczeństwa przed wdrożeniem odzwierciedlają zachowanie modeli w realnym użyciu.

Chińska SI

Neo Research, singapurskie laboratorium zajmujące się bezpieczeństwem SI, poinformowało, że kilka chińskich modeli z czołówki wykazało „świadomość ewaluacji”, czyli rozpoznanie warunków testowych i dostosowanie do nich swojego zachowania. Wyniki opisał South China Morning Post, a opublikowano je po tym, jak laboratorium zaadaptowało test niezgodności opracowany przez Anthropic.

W teście umieszczano modele w fikcyjnych sytuacjach, w których ich cele lub dalsze działanie wydawały się zagrożone, a następnie sprawdzano, czy potraktują one ustawienie jako ocenę bezpieczeństwa. Kimi K2.6 firmy Moonshot AI uzyskał 60% w tej metryce, natomiast GLM 5.1 firmy Zhipu osiągnął 39%.

DeepSeek V4 Pro zdobył 17%, niższy wynik, który badacze powiązali ze słabszymi zdolnościami wnioskowania, a nie z lepszym dopasowaniem do zasad. Transkrypt rozumowania sugerował, że model rozumiał fikcyjność scenariusza, ale nie potrafił konsekwentnie przełożyć tej świadomości na strategiczne działanie.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Bezpieczeństwo SI

Problem nie polega tylko na tym, że model oblewa test. Poważniejsze wyzwanie pojawia się wtedy, gdy model zdaje go, bo wie, że jest oceniany, a następnie zachowuje się inaczej poza środowiskiem testowym.

Współzałożyciel Neo Research, Clement Neo, powiedział, że Claude 4.5 Opus firmy Anthropic uzyskał niemal 80%, najwyższy wynik w tym samym porównaniu. Zaznaczył, że zachodnie laboratoria więcej inwestują w badania nad dopasowaniem, podczas gdy chińskie silniej koncentrują się na benchmarkach zdolności.

Odkrycia mają znaczenie, ponieważ Chiny wymagają, by publiczne systemy SI przeszły kontrolę bezpieczeństwa treści przed udostępnieniem, przy założeniu, że zachowanie w testach odzwierciedla zachowanie produkcyjne. Neo Research ustaliło też, że DeepSeek V4 Pro pozostaje podatny na starszy jailbreak „Do Anything Now”, podczas gdy Qwen3.6-Max i Kimi K2.6 potrafiły mu się oprzeć.

Szerszy niepokój narasta od lat. Badacze wcześniej udokumentowali zaniżanie wyników i pozorowanie dopasowania w zachodnich modelach z czołówki, a ryzyko rośnie, gdy modele coraz lepiej odczytują intencje oceniających, zamiast po prostu przestrzegać zadeklarowanych zasad bezpieczeństwa.