Прилагането на изкуствен интелект в бизнеса може условно да се раздели на 5 сфери и всяка от тях поставя различни изисквания към организацията от гледна точка на защита на данните. Винаги трябва да се внимава с използването на чувствителна, конфиденциална информация и такава, която може да доведе до разкриването на самоличността на конкретни хора.
Преди да пристъпим към въвеждането на AI в дейността си, трябва да сме наясно, че това са алгоритми за генериране на съдържание – новини, изображения и видео – които са предварително „тренирани” върху големи обеми от данни, подчерта Даниел Грабски, експерт стратегии по сигурността в AWS за Централна и Източна Европа, по време на форума CEE Cybersecurity Forum 2024, организиран от ИТ консултантската компания Crayon във Варшава.
Качеството на данните за обучение предопределя резултатите, добави Грабски, цитирайки Вернер Вогелс, вицепрезидент и CTO на Amazon.com. Съществена част от внедряването всъщност е „изчистването” на данните. Те следва да са проверени за потенциални изкривявания, реч на омразата, вредни и опасни практики.
Но най-вече данните трябва да са чисти от лична информация, която може да доведе до идентифициране на отделни индивиди, или т.нар. PII (personally identifiable information). Грешки, допуснати на това ниво, могат да костват много допълнителна работа, а също и проблеми с регулаторната съвместимост. В резултат, процесът може да се оскъпи неимоверно.
5 области на приложение на AI в бизнеса
Можем да очертаем 5 сфери на приложението на AI в дадена организация, посочи Грабски. Категоризационният модел се базира на типа на собствеността над данните и програмния код, като степените варират от на-ниското ниво на притежание до най-високото:
1. Потребителско приложение: бизнесът използва генеративен AI на трета страна. Това са т. нар. „обществени” генеративни услуги – такива като ChatGPT, Midjourney и др. Фирмата не вижда данните, на които е трениран моделът, не ги притежава, не може и да ги модифицира.
2. Корпоративно приложение с AI функции: това може да е, например, приложение от доставчик на SaaS, което има AI функции, да речем Salesforce Einstein GPT и подобни. В този случай са налице утвърдени взаимоотношения между потребителската организация и доставчика на приложението.
В тези два случая организацията само използва AI, без да се намеса в неговото създаване. Следващите три категории касаят изграждането на генеративен AI:
3. Предварително обучен модел за собствено приложение, създаден с алгоритъм от друг разработчик. Основополагащият модел е от друг разработчик, но организацията-потребител самостоятелно го обучава и създава собствена „версия”.
4. Фино настроен модел за собствено приложение: създава се на база алгоритъм от друг разработчик. Организацията-потребител рафинира основополагащия модел, захранва го с данни, специфични за своя бизнес. В крайна сметка генерира нов модел, „специализиран” за собствените ѝ работни потоци.
4. Собствен AI модел, разработен в организацията, обучен с нейни собствени данни: организацията-потребител е и създател, изгражда модела „от нула”, със собствени данни и собствен код. Следователно организацията е притежател и на кода, и на самите данни.
За какво трябва да внимаваме
На всяко от тези нива организациите-потребители трябва да имат предвид различни съображения от гледна точка на безопасността и защитата на данните, подчерта Грабски. Ето препоръките на AWS:
1. Когато AI се използва като потребителско приложение, следва да внимаваме какви данни въвеждаме в системата: какво пишем в „подканите”. Всичко, което подаваме и получаваме, следва да се третира като обществено-достъпно. В този случай не бива да се борави с данни, които биха могли да са конфиденциални, да водят до разкриване на самоличността или да са корпоративна интелектуална собственост.
„Нека сме наясно с условията на ползване, поставени от разработчика. Каква е политиката му за обработка на данните? Какви прави с данните? С кого ги споделя? Какви могат да са правните последици?”, поясни Грабски. „Също трябва да мислим и за изходящия резултат – какво става, ако използваш съдържанието, генерирано от алгоритъма? Чии са авторските права над него? Трябва да следим и за промени в условията, а нерядко те се случват без предупреждение”.
2. Когато се използва корпоративно приложение като SaaS с елементи на изкуствен разум, важат същите съображения, но и още няколко. А именно: нужно е да се определи приемлива класификация на данните и да има яснота къде се съхраняват и обработват. „Знаете ли къде „живеят” данните, къде отиват? Дали се използват за трениране на AI модела? Ако да – имате ли механизми да не сте съгласни с това и да откажете използването им (opt-out)?”, са въпроси, на които организациите трябва да си отговорят.
3. Предварително обученият модел за собствено приложение изисква да сме наясно каква е защитата на подканите и на изходящия резултат. Важен е въпросът чия е собствеността над данните. Не по-малко съществено е как се пазят, дали се използват от доставчика, защо и как се обработват.
„Трябва да сме наясно какви данни биха могли да бъдат споделени с други потребители на същото приложение, т.е. клиенти на същия доставчик”, поясни Грабски. „Важно е да сме наясно и с авторските права над данните, които се използват за трениране на модела”. Неговата препоръка е внимателно да се чете текстът на условията за ползване, особено този „със ситен шрифт”.
4. При т.нар. фино настроен модел за собствено приложение, създадено с алгоритъм от друг разработчик, организацията-потребител трябва да внимава какви данни подава за „фината настройка” на алгоритъма: чии са авторските права над данните, съдържат ли се чувствителни такива или пък PII? Въпросът е критичен, защото, веднъж научил дадени данни, моделът не може да се „отучи” от тях; спасението е само обучение „от нулата”, подчерта Грабски.
5. При прилагане на собствен AI модел, разработен в организацията, отново важно съображение е да се избягва използването на чувствителна информация при третирането на модела. „В този случай ние притежаваме всичко – и кода, и данните – затова трябва да имаме отговорността да известим потребителите как се използват данните им, как се обработват, съхраняват, поддържат. Трябва да предложим споразумение за използване тип EULA”, обясни Грабски.
Неговата препоръка е да се заложат ограничения за използване на потребителските данни чрез промптове и изходящ резултат, за да се предпази организацията от рискове, свързани със случайно изтичане на данни.