TechNews.bg
АнализиВодещи новиниНовиниТоп новини

Човекът е по-добър модератор от AI, но струва 40 пъти повече

И хората, и машините имат място в предотвратяването на токсично съдържание

Хибридният подход с човек и AI е най-ефективен при модериране за безопасност на марките (снимка: CC0 Public Domain)

Човешките модератори на съдържание все още превъзхождат изкуствения интелект, когато става въпрос за разпознаване на материали, нарушаващи правилата, но струват значително повече.

Маркетолозите, които искат да гарантират, че рекламите им няма да се появят в токсична каша, са изправени пред дилема – да харчат повече пари или да виждат повече… Хитлер в потока от съдържание с техните послания.

Изследователи от компанията за защита на марките с изкуствен интелект Zefr, изготвиха статия „AI срещу човешки модератори: Сравнителна оценка на мултимодалните LLM в модерирането на съдържание за безопасност на марките”. В нея те анализират разходите и ефективността на мултимодалните големи езикови модели (MLLM) в задачи, свързани с безопасността на марките.

Изчисленията показват, че човешкото модериране е първокласно удоволствие, което е почти 40 пъти по-скъпо като разходи от най-ефективните практики за машинно обучение.

Усилията за безопасност на марката означават да се предотврати свързването на неподходящо съдържание с дадена марка и увреждането на нейната репутация.

„Рекламодателите определят категориите съдържание, които искат да избегнат; вариращи от материали с насилие или за възрастни до противоречиви политически дискурси. Докато общото модериране на съдържание има за цел да идентифицира и управлява съдържание, нарушаващо правилата, безопасността на марката е свързана със съгласуването на рекламните позиционирания с предпочитанията на рекламодателите”, поясняват от Zefr.

Обикновено, казват авторите на анализа, усилията за безопасност на марката включват комбинация от човешки преглед и анализ на изображения, аудио и текст, базиран на машинно обучение.

Целта на проучването е била да установи дали мултимодалните големи езикови модели могат да свършат добре работата и на каква цена. 



Изследователите оценяват шест AI модела – GPT-4o, GPT-4o-mini, Gemini-1.5-Flash, Gemini-2.0-Flash, Gemini-2.0-Flash-Lite и Llama-3.2-11B-Vision – и човешка проверка, използвайки набор от 1500 видеоклипа, по 500 видеоклипа от всяка от следните категории: Наркотици, алкохол и тютюн (DAT); Смърт, наранявания и военни конфликти (DIMC); и Детско съдържание.

Проучването изследва представянето на LLM и човека във всяка от три категории: прецизност, припомняемост и F1, които са често срещани методи за оценка на машинно обучение.

Прецизността се отнася до прогнозирани положителни класификации (нарушения на правилата) на съдържание, в сравнение с действителните положителни случаи в набора от данни; припомняемостта се отнася до процента на действителните положителни случаи, класифицирани правилно; а F1 е хармоничната средна стойност на прецизността и припомняемостта.

Общите резултати (прецизност, припомняне, F1) показват, че човекът има най-високи показатели – съответно 0,98 0,97 0,98 (където 1,00 представлява 100 процента точност, без фалшиво положителни или фалшиво отрицателни резултати).

За сравнение, GPT-4o има показатели съответно 0,94, 0,83 и 0,87, Gemini-2.0-Flash-Lite постига резултати 0,87, 0,95 и 0,91, а Llama-3.2-11B-Vision е оценен съответно с 0,87, 0,86 и 0,86 по трите показателя.

„Сред MLLM моделите Gemini се очертава като най-добрият модел като цяло, превъзхождайки останалите по отношение на F1-оценка”, заявяват изследователите в своята статия. Интересното е, че компактните версии на тези модели не се представят много по-зле.

„Тези резултати подчертават ефективността на MLLM при автоматизиране на модерирането на съдържание, но също така и продължаващото превъзходство на човешките рецензенти по отношение на точността, особено в по-сложни или нюансирани класификации, където се изискват контекст и задълбочено разбиране”, се казва в статията.

Изследователите също така отбелязват, че тези модели често се провалят поради неправилни асоциации, липса на контекстуално разбиране и езикови различия.

Един пример, който те цитират, е видеоклип, обсъждащ кофеиновата зависимост на японски език, който е бил неправилно маркиран като нарушение на категорията наркотици от всички модели. Авторите отдават това на погрешни асоциации с термина „пристрастяване” и пропуски в контекстуалното разбиране на японския език.

Като цяло изследователите подчертават, че AI моделите показват по-лоша производителност за съдържание, различно от английски език.

По отношение на разходите, превъзходната човешка модерация изглежда като лукс – тя е оценена с 0,98 и $974 съответно за F1 резултат и цена. За сравнение GPT-4o има оценка от 0,87 и $419, Gemini-2.0-Flash-Lite получава 0,91 и $28, GPT-4o-mini – 0,88 и $25, а Llama-3.2-11B-Vision – 0,86 и $459.

„Показахме, че компактните MLLM предлагат значително по-евтина алтернатива в сравнение с по-големите си аналози, без да се жертва точността”, заключават авторите на доклада. „Въпреки това, човешките рецензенти остават превъзходни по отношение на точността, особено при сложни или нюансирани класификации”.

Докато мултимодалните големи езикови модели като Gemini и GPT могат да се справят с модерирането на видеоклипове за безопасност на марката в текст, аудио и визуални елементи с изненадваща точност и много по-ниски разходи, отколкото само човешките рецензенти, те все още не успяват в нюансирани, контекстуално обвързани случаи, сочи анализът.

Това прави хибридният подход с човек и изкуствен интелект „най-ефективният и икономичен път напред за модериране на съдържание в областта на безопасността и пригодността на марката”, обобщава Джон Мора, главен директор по изкуствен интелект в Zefr.

още от категорията

TikTok заменя стотици модератори с изкуствен интелект

TechNews.bg

X на мушката: ЕС я разследва по закона за цифровите услуги

TechNews.bg

ЕС иска от Twitter повече хора да модерират съдържанието

TechNews.bg

Алгоритми блокираха eBay потребители погрешка

TechNews.bg

Коментари