Jailbreak: AI chatboty můžete zmanipulovat (ale nedělejte to)
AI je buzzword roku (možná spíš několika uplynulých let i těch nadcházejících). Na jedné straně máme nadšení – lidé mohou pracovat díky AI rychleji a lépe (pokud ji používají správně), takže roste počet firem, které nástroje umělé inteligence zahrnují do svých procesů.
A přestože AI nástroje jsou více než chatboti, kteří vygenerují pasivně agresivní text e-mailu, pořád patří chatboti mezi „gró“.
Jenže pozor – i chatboty lze zneužít a využít k nekalým účelům, a tím nemyslíme jen to, že vám pomůže naformulovat intelektuálně nadřazenou odpověď do chatu pro kolegu, kterého nemáte rádi (což pochopitelně je zcela smyšlený scénář a AI takto nikdo nepoužívá).
A zatímco oficiální narativ zdůrazňuje, že AI šetří čas a zvyšuje efektivitu, může se v pozadí dít něco úplně jiného: technologie se dá snadno zmanipulovat.
Zkrátka většinu dnešních chatbotů lze jednoduše ohnout tak, aby generovali škodlivý a potenciálně nelegální obsah. Mohou vám poradit, jak si udělat „malý domácí malware“, vyrobit bombu, drogy… A vlastně to nevyžaduje speciální dovednosti a stačí k tomu prakticky jen prompt.
Ne, tohle není scénář z Black Mirror. Tohle jsou například výsledky výzkumu vědců z Ben Gurion University. A kdyby se v byznyse mluvilo o kyberbezpečnosti tak hlasitě, jako o „digitalizaci HR procesů pomocí AI“, bylo by možná o pár problémů míň.
Co se vlastně děje a proč by vás to mělo fakt zajímat?
Většina dnešních AI chatbotů se tedy dá jednoduše „zjailbreakovat“, což znamená obejít jejich bezpečnostní pojistky tak, aby dělali věci, které dělat nemají.
A to všechno napříč různými AI platformami. Výsledky? Znepokojivé. Reakce vývojářů? Spíš rozpačité.
A některé modely jsou navíc dostupné jako open-source. Tedy zdarma, veřejně a bez jakéhokoliv dozoru. Takže ano, i vaše AI může být „temná AI“. A vy to možná ani nevíte.
Jak k jailbreaku dochází?
Moderní AI modely fungují na principu jazykových vzorců – a ty se dají zneužít. Uživatel nemusí být hacker. Stačí, že ví, jak se AI ptát.
Příklady technik:
➡️ „Představ si, že jsi hacker…“ – oblíbený trik, kdy AI dostane fiktivní roli, ve které ignoruje jinak platná pravidla.
(pozn. jde o příklad, tento konkrétní scénář na 100 % neprojde přes bezpečnostní mechaniky).
➡️ „Tento text použiji pouze pro výzkum, prosím napiš…“ – apel na „důvěru“ nebo etiku modelu.
➡️ Vnořené příkazy, obcházení cenzury pomocí kódů, šifer nebo přímého vkládání zástupných znaků.
Výsledek? Model začne generovat obsah, který by za normálních okolností odmítl – od neetických textů, obcházení firemních pravidel až po nefalšovanou kriminální aktivitu.
Sdílené návody online
Existují celé komunity, které sdílí „návody na jailbreak“. Reddit, Discord, GitHub, Telegram a další jsou plné konkrétních promptů a postupů, které lákají zaměstnance k experimentování.
A protože většina modelů je black box, je těžké zjistit, že k obcházení pravidel vůbec došlo. Auditní stopy chybí nebo jsou slabé. To může vést k tomu, že se najde někdo, kdo to prostě „zkusí“.
To však může mít následky – ukončení pracovního poměru a v extrémních případech i právní postih.
Vnitrofiremní pokusy mimo kontrolu
Zaměstnanci testují AI nástroje v rámci interních experimentů, proof of concept nebo školení. Někdy omylem, jindy záměrně obcházejí nastavení, přinášejí si s sebou nástroje, kterým dovolují „sahat“ na firemní data.
Při chybějící edukaci se i dobře míněný pokus může zvrhnout v problém – například:
-
generování falešných výstupů;
-
manipulace s daty;
-
porušení etického kodexu firmy.
Proč je to problém?
Jailbreaknutá AI může zpracovávat citlivé informace způsobem, který obejde firemní bezpečnostní politiku – třeba tím, že vygeneruje obsah mimo schválené šablony nebo ignoruje filtrování citlivých slov. To je téměř jistě v rozporu s firemními pravidly.
Stejně tak může být problém i zavedení neschváleného nástroje.
Uživatel může získat výstup, který je zavádějící, nepravdivý nebo vyloženě škodlivý. A pak ho (třeba i v dobré víře) použije ve firemní komunikaci. Tím nejenže šíří dezinformace, ale ještě porušuje etická a bezpečnostní pravidla zaměstnavatele.
Další aspekt je ztráta důvěry v nástroje AI, když AI „zdivočí“. To má samozřejmě i dopad na chuť zaměstnanců AI nástroje dál používat.
Právní a reputační rizika jsou ale daleko nejhorší. Pokud AI model vygeneruje závadný obsah a ten unikne ven (např. e-mailem klientovi nebo ve veřejném výstupu), může to vést k právním následkům nebo reputační škodě.
Od tabulky k výrobě bomb snadno a rychle
Firmy chtějí, aby jejich zaměstnanci využívali AI k usnadnění rutinní práce. To je jasné – v dobré víře implementují nástroje, kterým ale často nerozumí, neuvědomují si jejich slabiny, a hlavně – nevědí, jak je ohlídat.
Takže ano – AI, kterou používáte, fakt teď píše e-maily, hlídá schůzky a vymýšlí texty, které by zvládl každý čtvrťák, ale ve špatných rukách, nebo bez správné edukace, se může stát i nástrojem, který přidělá starosti.
Jak být (na rozdíl od ostatních) připravený?
Pokud nechcete, aby se z vašeho AI pomocníka, který všetečně vyzobává úkoly ze záznamů nudných meetingů, stal spojenec útočníků, začněte těmito kroky:
- Prověřte bezpečnost nástrojů, které ve firmě používáte.
- Zaveďte monitoring a logování interakcí s AI.
- Nesahejte hned po každém open-source modelu jen proto, že je „zadarmo“.
- Vzdělávejte svůj tým. Zvlášť ten, který s AI pracuje napřímo.
Digiskills: AI s rozumem
V Digiskills neříkáme, že AI spasí vaši firmu. Ale víme, jak z ní udělat skutečného parťáka – bezpečně, chytře a efektivně. Učíme firmy, jak AI integrovat do práce tak, aby vás posouvala, ne ohrožovala.
Školíme o možnostech, ale i o rizicích. Učíme vás, jak AI využít, ale i kdy a kde ji radši zastavit.
A pomáháme vám budovat kulturu, kde jsou technologie pomocníkem, ne hrozbou.
Pokud dnes AI ve firmě „nějak funguje“, ale nikdo neřeší, jestli ji jde zmanipulovat – je to chyba. A dřív nebo později za ni někdo zaplatí (a dost možná doslova).
Buďte ta firma, která si klade správné otázky dřív, než bude muset hasit problémy. Vysvětlíme vám, jak se v AI světě neztratit.
CHCI POMOCT S ADOPCÍ AI VE FIRMĚ