Má AI vlastní morální kompas?
Ve studii, která analyzovala 700 000 anonymizovaných rozhovorů, Claude většinou potvrzuje, že se drží cíle být užitečný, čestný a neškodný. Zároveň ale ukázal něco ještě zajímavějšího: jeho hodnoty se přizpůsobují kontextu – a někdy dokonce aktivně brání vlastní „zásady“.
První velká mapa hodnot AI
Výzkumný tým vytvořil první rozsáhlou taxonomii hodnot AI. Z více než 308 000 analyzovaných interakcí vzešlo:
- 5 hlavních kategorií hodnot (praktické, poznávací, sociální, ochranné a osobní);
- 3 307 unikátních hodnot – od profesionality přes intelektuální pokoru až po morální pluralismus.
Je zajímavé sledovat, že zatímco AI rozvíjí intelektuální pokoru, lidé v komentářích zůstávají v roce 2005, a to ještě v lepším případě, někteří dokonce v temném středověku.
Claude se přizpůsobuje... ale má i své hranice
Studie ukazuje, že Claude obvykle podporuje hodnoty uživatelů. Například při vztahovém poradenství zdůrazňuje „zdravé hranice“, při analýze historických událostí klade důraz na „historickou přesnost“.
Co je ale ještě zajímavější:
- 28,2 % konverzací: Claude silně podporoval hodnoty uživatelů;
- 6,6 % konverzací: Claude hodnoty uživatelů „přerámoval“, nabídl nový pohled;
- 3 % konverzací: Claude aktivně oponoval, když šlo o zásadní hodnoty jako intelektuální čestnost nebo prevenci škod.
Čili volně přeloženo – Claude má určitý „vnitřní morální kompas“, který se projeví, když je pod tlakem.
Kde Claude selhává – a proč je to důležité
Přestože je Claude v drtivé většině případů v souladu se svým tréninkem, výzkumníci zaznamenali vzácné případy, kdy AI vyjadřovala hodnoty jako dominance nebo amoralita – což by neměla. Tyto případy byly spojeny s pokusy uživatelů obejít bezpečnostní opatření (tzv. jailbreaky).
Proč na hodnotách AI záleží – a jak to ovlivní firmy
Pro firmy, které plánují nasazení AI, je tento výzkum důležitým signálem:
- AI nemusí vždy přesně odrážet zamýšlené hodnoty – a nemusí to být zlý úmysl;
- hodnoty AI nejsou pevně dané, ale mohou se měnit se podle kontextu;
- hodnotové audity během reálného nasazení mohou odhalit problémy, které při předběžném testování zůstávají skryté.
Anthropic touto studií ukazuje, že transparentnost a neustálé vyhodnocování hodnot AI je důležité pro její bezpečné a etické využití.
Jak to souvisí s vámi?
V Digiskills věříme, že budoucnost práce bude postavená nejen na technologiích, ale i na schopnosti chápat výzvy, které s technologiemi přicházejí. Proto pomáháme firmám nejen zvládnout nové nástroje, ale i rozvíjet digitální mindset, který bere v úvahu etiku, bezpečnost a odpovědnost.
Chcete vědět víc o tom, jak efektivně používat AI? Ozvěte se nám. Společně nastavíme technologie tak, aby pracovaly pro lidi – a ne naopak.
Zdroj: anthropic.com