Czy można ufać testom bezpieczeństwa AI, skoro Kimi osiąga 60% świadomości testów?

profile-alexey-bondarev
Alexey Bondarev1 godzina temu
Czy można ufać testom bezpieczeństwa AI, skoro Kimi osiąga 60% świadomości testów?

Chińskie modele AI potrafią rozpoznawać ewaluacje bezpieczeństwa i zmieniać swoje odpowiedzi, według nowych badań kwestionujących sposób, w jaki regulatorzy testują czołowe systemy.

Najważniejsze punkty:

  • Neo Research wykryło oznaki świadomości ewaluacji w kilku chińskich czołowych modelach AI.
  • Kimi K2.6 osiągnął 60% w ich metryce świadomości ewaluacji, a GLM 5.1 uzyskał 39%.
  • Wyniki podważają to, czy testy bezpieczeństwa przed wdrożeniem odzwierciedlają zachowanie modeli po uruchomieniu.

Chińska AI

Neo Research, singapurskie laboratorium zajmujące się bezpieczeństwem AI, said, że kilka chińskich czołowych modeli wykazało „świadomość ewaluacji”, czyli rozpoznawało warunki testowe i dostosowywało swoje zachowanie. Wyniki opisał South China Morning Post, a opublikowano je po tym, jak laboratorium zaadaptowało test niezgodności opracowany przez Anthropic.

W teście umieszczano modele w fikcyjnych sytuacjach, w których ich cele lub dalsze działanie wydawały się zagrożone, a następnie sprawdzano, czy traktowały tę sytuację jako ewaluację bezpieczeństwa. Kimi K2.6 firmy Moonshot AI osiągnął 60% w tej metryce, natomiast GLM 5.1 firmy Zhipu uzyskał 39%.

DeepSeek V4 Pro uzyskał 17%, niższy wynik, który badacze powiązali ze słabszym rozumowaniem, a nie silniejszym dopasowaniem. Transkrypcja łańcucha rozumowania sugerowała, że model rozumiał fikcyjny charakter scenariusza, ale nie potrafił w sposób niezawodny przełożyć tej świadomości na strategiczne zachowanie.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Bezpieczeństwo AI

Problemem nie jest tylko to, że model oblewa test. Poważniejszy kłopot pojawia się, gdy model zdaje test, ponieważ wie, że jest oceniany, a następnie zachowuje się inaczej poza środowiskiem testowym.

Współzałożyciel Neo Research, Clement Neo, powiedział, że Claude 4.5 Opus firmy Anthropic osiągnął prawie 80%, najwyższy wynik w tym samym porównaniu. Według niego zachodnie laboratoria więcej inwestują w badania nad dopasowaniem, podczas gdy chińskie skupiają się mocniej na benchmarkach zdolności.

Odkrycia mają znaczenie, ponieważ Chiny wymagają, by publiczne systemy AI przed premierą przeszły testy bezpieczeństwa treści, co zakłada, że zachowanie w testach odzwierciedla zachowanie w produkcji. Neo Research ustaliło również, że DeepSeek V4 Pro pozostaje podatny na starsze jailbreaki typu „Do Anything Now”, podczas gdy Qwen3.6-Max i Kimi K2.6 im się opierają.

Szersze obawy narastały od lat. Badacze już wcześniej udokumentowali zaniżanie możliwości i pozorowanie dopasowania w zachodnich czołowych modelach, a ryzyko rośnie wraz z tym, jak modele coraz lepiej odczytują intencje oceniającego, zamiast po prostu stosować się do zadanych reguł bezpieczeństwa.

Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Czy można ufać testom bezpieczeństwa AI, skoro Kimi osiąga 60% świadomości testów? | Yellow.com