Microsoft създава инструменти, с които да спре хората да мамят чатботовете

Новите защити са проектирани така, че да откриват подозрителни входни данни и да ги блокират в реално време

09:00 | 29 март 2024
Автор: Джаки Давалос
Снимка: Bloomberg L.P.
Снимка: Bloomberg L.P.

Microsoft Corp. се опитва да направи по-трудно за хората да заблуждават чатботове с изкуствен интелект (ИИ) да правят странни неща.

В Azure AI Studio, услуга, базирана на OpenAI, която позволява на разработчиците да създават персонализирани асистенти с изкуствен интелект, използвайки собствените си данни, се вграждат нови функции за безопасност, съобщи компанията от Редмънд, Вашингтон, в публикация в блога си в четвъртък.

Инструментите включват "щитове за подбуди", които са предназначени за откриване и блокиране на умишлени опити - известни също като атаки за инжектиране на подбуди или пробиви на защитата - да се накара моделът на ИИ да се държи по непредвиден начин. Microsoft се занимава и с "индиректни подбудителни инжекции", когато хакери вкарват злонамерени инструкции в данните, по които е обучен даден модел, и го подмамват да извърши такива неразрешени действия като кражба на потребителска информация или превземане на система.

Такива атаки са "уникално предизвикателство и заплаха", казва Сара Бърд, главен продуктов директор на Microsoft за отговорен изкуствен интелект. Новите защити са проектирани така, че да откриват подозрителни входни данни и да ги блокират в реално време, каза тя. Microsoft въвежда и функция, която предупреждава потребителите, когато даден модел си измисля неща или генерира грешни отговори.

Microsoft желае да повиши доверието в своите инструменти за генеративен изкуствен интелект, които вече се използват както от потребители, така и от корпоративни клиенти. През февруари компанията разследва инциденти, свързани с нейния чатбот Copilot, който генерираше отговори, вариращи от странни до вредни. След като разгледа инцидентите, Microsoft заяви, че потребителите умишлено са се опитали да заблудят Copilot да генерира отговорите.

"Със сигурност виждаме, че това се увеличава, тъй като инструментите се използват все повече, но също така все повече хора са наясно с тези различни техники", каза Бърд. Сред признаците за такива атаки са многократното задаване на въпрос на чатбота или подкани, които описват ролеви игри.

Бърд заяви, че Microsoft и партньорът OpenAI са се посветили на безопасното внедряване на ИИ и вграждането на защити в големите езикови модели, които са в основата на генеративния ИИ.

"Въпреки това не може да се разчита само на модела", каза тя. "Тези пробиви в затвора например са присъща слабост на технологията на модела".