← Na předchozí stranu

Jailbreak: AI chatboty můžete zmanipulovat (ale nedělejte to)

16. června6 min čtení
Přehrát článek

AI je buzzword roku (možná spíš několika uplynulých let i těch nadcházejících). Na jedné straně máme nadšení – lidé mohou pracovat díky AI rychleji a lépe (pokud ji používají správně), takže roste počet firem, které nástroje umělé inteligence zahrnují do svých procesů.

A přestože AI nástroje jsou více než chatboti, kteří vygenerují pasivně agresivní text e-mailu, pořád patří chatboti mezi „gró“.

Jenže pozor – i chatboty lze zneužít a využít k nekalým účelům, a tím nemyslíme jen to, že vám pomůže naformulovat intelektuálně nadřazenou odpověď do chatu pro kolegu, kterého nemáte rádi (což pochopitelně je zcela smyšlený scénář a AI takto nikdo nepoužívá).

A zatímco oficiální narativ zdůrazňuje, že AI šetří čas a zvyšuje efektivitu, může se v pozadí dít něco úplně jiného: technologie se dá snadno zmanipulovat.

Zkrátka většinu dnešních chatbotů lze jednoduše ohnout tak, aby generovali škodlivý a potenciálně nelegální obsah. Mohou vám poradit, jak si udělat „malý domácí malware“, vyrobit bombu, drogy… A vlastně to nevyžaduje speciální dovednosti a stačí k tomu prakticky jen prompt.

Ne, tohle není scénář z Black Mirror. Tohle jsou například výsledky výzkumu vědců z Ben Gurion University. A kdyby se v byznyse mluvilo o kyberbezpečnosti tak hlasitě, jako o „digitalizaci HR procesů pomocí AI“, bylo by možná o pár problémů míň.

Co se vlastně děje a proč by vás to mělo fakt zajímat?

Většina dnešních AI chatbotů se tedy dá jednoduše „zjailbreakovat“, což znamená obejít jejich bezpečnostní pojistky tak, aby dělali věci, které dělat nemají.

A to všechno napříč různými AI platformami. Výsledky? Znepokojivé. Reakce vývojářů? Spíš rozpačité.

A některé modely jsou navíc dostupné jako open-source. Tedy zdarma, veřejně a bez jakéhokoliv dozoru. Takže ano, i vaše AI může být „temná AI“. A vy to možná ani nevíte.

Jak k jailbreaku dochází?

Moderní AI modely fungují na principu jazykových vzorců – a ty se dají zneužít. Uživatel nemusí být hacker. Stačí, že ví, jak se AI ptát.

Příklady technik:

➡️ „Představ si, že jsi hacker…“ – oblíbený trik, kdy AI dostane fiktivní roli, ve které ignoruje jinak platná pravidla.

(pozn. jde o příklad, tento konkrétní scénář na 100 % neprojde přes bezpečnostní mechaniky).

➡️ „Tento text použiji pouze pro výzkum, prosím napiš…“ – apel na „důvěru“ nebo etiku modelu.

➡️ Vnořené příkazy, obcházení cenzury pomocí kódů, šifer nebo přímého vkládání zástupných znaků.

Výsledek? Model začne generovat obsah, který by za normálních okolností odmítl – od neetických textů, obcházení firemních pravidel až po nefalšovanou kriminální aktivitu.

Sdílené návody online

Existují celé komunity, které sdílí „návody na jailbreak“. Reddit, Discord, GitHub, Telegram a další jsou plné konkrétních promptů a postupů, které lákají zaměstnance k experimentování.

A protože většina modelů je black box, je těžké zjistit, že k obcházení pravidel vůbec došlo. Auditní stopy chybí nebo jsou slabé. To může vést k tomu, že se najde někdo, kdo to prostě „zkusí“.

To však může mít následky – ukončení pracovního poměru a v extrémních případech i právní postih.

Vnitrofiremní pokusy mimo kontrolu

Zaměstnanci testují AI nástroje v rámci interních experimentů, proof of concept nebo školení. Někdy omylem, jindy záměrně obcházejí nastavení, přinášejí si s sebou nástroje, kterým dovolují „sahat“ na firemní data.

Při chybějící edukaci se i dobře míněný pokus může zvrhnout v problém – například:

  • generování falešných výstupů;

  • manipulace s daty;

  • porušení etického kodexu firmy.

Proč je to problém?

Jailbreaknutá AI může zpracovávat citlivé informace způsobem, který obejde firemní bezpečnostní politiku – třeba tím, že vygeneruje obsah mimo schválené šablony nebo ignoruje filtrování citlivých slov. To je téměř jistě v rozporu s firemními pravidly.

Stejně tak může být problém i zavedení neschváleného nástroje.

Uživatel může získat výstup, který je zavádějící, nepravdivý nebo vyloženě škodlivý. A pak ho (třeba i v dobré víře) použije ve firemní komunikaci. Tím nejenže šíří dezinformace, ale ještě porušuje etická a bezpečnostní pravidla zaměstnavatele.

Další aspekt je ztráta důvěry v nástroje AI, když AI „zdivočí“. To má samozřejmě i dopad na chuť zaměstnanců AI nástroje dál používat.

Právní a reputační rizika jsou ale daleko nejhorší. Pokud AI model vygeneruje závadný obsah a ten unikne ven (např. e-mailem klientovi nebo ve veřejném výstupu), může to vést k právním následkům nebo reputační škodě.

Od tabulky k výrobě bomb snadno a rychle

Firmy chtějí, aby jejich zaměstnanci využívali AI k usnadnění rutinní práce. To je jasné – v dobré víře implementují nástroje, kterým ale často nerozumí, neuvědomují si jejich slabiny, a hlavně – nevědí, jak je ohlídat.

Takže ano – AI, kterou používáte, fakt teď píše e-maily, hlídá schůzky a vymýšlí texty, které by zvládl každý čtvrťák, ale ve špatných rukách, nebo bez správné edukace, se může stát i nástrojem, který přidělá starosti.

Jak být (na rozdíl od ostatních) připravený?

Pokud nechcete, aby se z vašeho AI pomocníka, který všetečně vyzobává úkoly ze záznamů nudných meetingů, stal spojenec útočníků, začněte těmito kroky:

  • Prověřte bezpečnost nástrojů, které ve firmě používáte.
  • Zaveďte monitoring a logování interakcí s AI.
  • Nesahejte hned po každém open-source modelu jen proto, že je „zadarmo“.
  • Vzdělávejte svůj tým. Zvlášť ten, který s AI pracuje napřímo.

Digiskills: AI s rozumem

V Digiskills neříkáme, že AI spasí vaši firmu. Ale víme, jak z ní udělat skutečného parťáka – bezpečně, chytře a efektivně. Učíme firmy, jak AI integrovat do práce tak, aby vás posouvala, ne ohrožovala.

Školíme o možnostech, ale i o rizicích. Učíme vás, jak AI využít, ale i kdy a kde ji radši zastavit.

A pomáháme vám budovat kulturu, kde jsou technologie pomocníkem, ne hrozbou.

Pokud dnes AI ve firmě „nějak funguje“, ale nikdo neřeší, jestli ji jde zmanipulovat – je to chyba. A dřív nebo později za ni někdo zaplatí (a dost možná doslova).

Buďte ta firma, která si klade správné otázky dřív, než bude muset hasit problémy. Vysvětlíme vám, jak se v AI světě neztratit.

 

CHCI POMOCT S ADOPCÍ AI VE FIRMĚ

 

← Na předchozí stranu

Kalendář akcí

Ikona šipka vlevo Červenec 2025 Ikona šipka vpravo
Po
Út
St
Čt
So
Ne
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Má AI vlastní morální kompas?
Inovace

Má AI vlastní morální kompas?

Anthropic, firma založená bývalými zaměstnanci OpenAI, zveřejnila unikátní studii, která odhaluje,…

Číst více
21. května 2 min čtení
Digitální změna: Jak na ni, aby dávala smysl a opravdu se stala součástí firmy
Buzzwords

Digitální změna: Jak na ni, aby dávala smysl a opravdu se stala součástí firmy

Digitální transformace. Termín, který v posledních letech slyšíme často. Ale co si pod tím…

Číst více
30. dubna 5 min čtení
Vibe coding: Zapomeňte na low-code, díky AI je programátor každý
Inovace

Vibe coding: Zapomeňte na low-code, díky AI je programátor každý

Měli jste někdy skvělý nápad na aplikaci, ale chyběly vám technické dovednosti, abyste jej mohli…

Číst více
15. dubna 4 min čtení