Pomocí technik Adversarial Image Generation bojujeme s některými nejnovějšími modely počítačového vidění, které útočníci používají. Tuto techniku používáme k úspěšnému poražení modelů strojového učení útočníků a zároveň udržujeme požadované změny pixelů na minimu, abychom neovlivnili dobrou uživatelskou zkušenost. Přečtěte si, jak to funguje.
Počítačové vidění dává strojům pocit zraku. Díky pokroku v oblasti umělé inteligence se počítačové vidění v posledních letech vyvíjelo závratnou rychlostí. Technologie, která umožnila autonomní vozidla, je také široce používána podvodníky k automatickému indexování a klasifikaci obrázků a překonání webových bezpečnostních systémů, které zahrnují vizuální výzvu vyžadující interakci uživatele.
Manipulujte s modely ML útočníků
Abychom se bránili pokročilým útokům řízeným strojovým učením při prosazování úkolů společnosti Arkose Labs, zavedli jsme novou techniku generování obrázků nazvanou Adversarial Image Generace. Tuto techniku používáme k obraně proti některým z nejnovějších modelů počítačového vidění, které útočníci používají. Pomocí efektivních poruch tato technika úspěšně porazí modely strojového učení útočníků a zároveň udržuje požadované změny pixelů na minimu.
V laboratořích Arkose jsme svědky nesčetných útoků. Abychom se bránili tak velkému množství útoků, generujeme pro každou hádanku několik sad obrázků. Každá sada obrázků má jedinečná nastavení, jako jsou různá pozadí, styly nebo pokyny. Tato různá nastavení pomáhají oklamat útočníky různým rozložením pixelů v obrázcích a různými výsledky.
Algoritmy strojového učení jsou dobré v předpovídání dat, která nikdy předtím neviděli. V důsledku toho nemusí současná metoda generování obrázků vždy fungovat podle očekávání. Proto jsme vyvinuli novou metodu generování obrázků, která do obrázků přidává nepřátelské narušení, aby bylo možné manipulovat s rozpoznáním obrázků útočníků. Nedávný výzkum ukázal, že je snadné oklamat modely hlubokého učení s určitým šumem na obrázcích.
.
Obr.1. Adversarial Perturbation (Ref: https://arxiv.org/pdf/1906.00204.pdf)
Původně model dokáže obrázek správně identifikovat. Přidání nežádoucího šumu do snímků model zcela oklame. Model strojového učení dokázal správně identifikovat původní obrázek jako obrázek ledního medvěda, ale po přidání hluku se nechal zmást, když ho viděl jako myčku nádobí.
K výpočtu nepříznivého rušení můžeme použít rychlou metodu založenou na gradientu a metodu založenou na optimalizaci se souborovým přístupem. Různé studie v této oblasti ukazují, že je možné přenést poruchy generované souborovým přístupem mezi různé modely počítačového vidění. Tato metoda se používá pro nepřátelské obrázky k obraně proti různým útokům strojového učení.
Obr. 2. Adversarial Perturbation Workflow
Vytváření nepřátelského obrazu probíhá jako cyklus. Prvním krokem je vytvoření nepřátelských obrázků. Druhým krokem je trénovat trénované modely s obrázky protivníků. Vzhledem k tomu, že útočníci mohou trénovat na nepřátelských obrázcích, bude tok nadále generovat nepřátelské obrázky s modely trénovanými speciálně na nepřátelských obrázcích dříve. Tímto způsobem může tok nastavit vyšší a tvrdší šum při každé iteraci.
Případová studie „Hand Puzzle“
Chceme-li demonstrovat obranné a tréninkové síly image protivníka, uvažujme případovou studii popsanou níže. Tato případová studie je ruční puzzle, jak je znázorněno na obr.3. Správné obrázky jsou ty s celkem čtyřmi prsty, zbytek je nesprávný.
Metoda nepříznivé poruchy pomáhá vytvořit jeden ze správných obrázků, jak je znázorněno na obr. 4 níže. Člověk si nemusí všimnout rozdílu mezi těmito dvěma obrázky, kromě lehkého zabarvení na druhém obrázku vpravo dole. Model strojového učení však nebude schopen obrázek rozpoznat a klasifikovat jej jako nesprávný.
Obr.3. Vizualizace dat ručního puzzle
První obrázek na obrázku 4 výše je původní obrázek (správný). Druhý obrázek je obrázek protivníka (nesprávný). Třetí obrázek ukazuje rozdíl mezi původním a nepřátelským obrázkem. Poslední obrázek je zvětšený rozdíl třetího obrázku.
Obranná síla
Snímky testujeme pomocí nejpokročilejších modelů strojového učení. Tyto modely trénujeme interně s dobrou přesností. Výsledky jsou uvedeny na Obr. Přesnost hry u skupiny protivníků se snížila na přibližně 3 % ve srovnání s 8 % u staré sady obrázků.
Obr.5. Přesnost hry Old and Adversarial Bucket proti útoku strojového učení
Tréninková síla
Vzhledem k jejich technické zdatnosti jsou útočníci stále schopni shromažďovat obrázky protivníků a trénovat na nich modely strojového učení. Drobná změna pixelů v nepřátelských skupinách může útočníkům usnadnit výcvik, což může být důvodem k obavám. Obr.6 ukazuje, že i při malé změně pixelů se modely stále potřebují znovu naučit nepřátelské obrázky.
Obr.6. Ukázka křivky velikosti nového a nepříznivého segmentu pro školení strojového učení
V situaci, kdy útočníci mohou trénovat na nepřátelských obrázcích, může tok i nadále přidávat šum k nepřátelským obrázkům se stejnými obrannými a tréninkovými silami, jak je popsáno výše.
Porazte automatické CAPTCHA pomocí adversarial Perturbation
Tady v Arkose Labs neustále inovujeme, abychom našim zákazníkům umožnili udržet náskok před vyvíjejícími se taktikami útoku. Pomocí adversarial perturbace jim pomáháme porazit automatizované CAPTCHA řešitele a chránit jejich podnikání a spotřebitele před automatizovanými útoky botů. Chcete-li se dozvědět, jak to děláme, zarezervujte si nyní demo.
*** Toto je syndikovaný blog Security Bloggers Network od Arkose Labs, jehož autorem je ChunLiang Wu. Přečtěte si původní příspěvek na: https://www.arkoselabs.com/blog/adversarial-perturbation-to-defeat-automated-captcha-solvers/