Как големите данни хвърлиха в смут голямата наука

Има огромни проблеми в начина, по който се прави науката в ерата на „големите данни“ (източник: CC0 Public Domain)

Научните изследвания разкриват нови и нови тенденции и взаимовръзки, а потенциалът на „големите данни“ обещава лесно „сдъвкване“ на колосалния обем информация от нови проучвания. Оказва се, че може би това не е чак толкова добре. Сред учените нараства загрижеността, че в много области на науката въпросните изследвания изглежда невъзможно да се възпроизведат.

Тази криза може да се окаже тежка. Например, през 2011 г. Bayer HealthCare преглежда 67 вътрешни проекта и установява, че от тях по-малко от 25% могат да бъдат възпроизведени. Освен това в две трети от проектите има големи несъответствия. Съвсем наскоро, през ноември тази година, анализът на 28 важни документа от областта на психологията установи, че само половината от изследванията реално могат да се възпроизведат.

Подобни констатации се отчитат и в други области, включително медицината и икономиката. Поразителните резултати поставят под въпрос доверието към науката. Къде се корени този голям проблем?

Много фактори имат принос, смята Кай Жанкг, главен асистент по статистика и изследвания в Университета на Северна Каролина. „Като статистик аз виждам огромни проблеми в начина, по който се прави науката в ерата на „големите данни“, казва Жанг в анализа си, цитиран от theconversation.com. Според него, кризата се дължи отчасти на невалидни статистически анализи, които преобръщат традиционния научен подход на хипотеза и проучване.

Научният метод

В класическия експеримент статистикът и ученият сядат заедно и първо формулират хипотеза. След това учените провеждат експерименти за събиране на данни, които се анализират от статистиците. Данните потвърждават или отхвърлят хипотезата.

Известен пример за този процес е историята с „жената, дегустираща чай“. Някъде през 20-те години на 20-ти век, на парти на академици една жена твърди, че може да разпознае по аромата дали в чашата е сипан първо чай или е сипано първо мляко. Статистикът Роналд Фишър се усъмнява в нейния талант. Той смята, че ако на жената се поднесат четири чаши, в които първо е сипан чай, а после 4 чаши, в които първо е сипано мляко, то тя може да познае, като нейните предположения ще следват модел на вероятностите, наречен „хипергеометрично разпределение“.

Направен е експеримент с осем чаши чай в произволен ред. Според мълвата, жената успяла да категоризира всичките осем чаши съвсем правилно. Това са силни доказателства срещу хипотезата на Фишър. Вероятността тя да успее да „уцели“ правилните отговори с догадки е изключително ниска – 1,4%.

Този процес обаче – хипотезата, събирането на данни, а след това анализът им – е рядкост в ерата на „големите данни“. Днешните технологии могат да събират огромни количества данни – от порядъка на 2,5 екзабайта на ден – но научният подход не се спазва, смята Жанг.

Примерът с жената, дегустираща чай, илюстрира как учените могат „на късмет“ да забележат интересни, но фалшиви сигнали в даден набор от данни (източник: CC0 Public Domain)

Въпреки, че трупането на данни е положително, науката често се развива с много по-ниска скорост. Така изследователите може и да не знаят как да формулират правилната хипотеза за анализа на данните. За разлика от класическия случай с дамата с чая, тук бива преобърнат редът на изграждането на хипотезата и анализирането на данните.

Проблеми с данните

Защо това преобръщане може да причини голям проблем? Жанг предлага да разгледаме „версия на дамата с чая при „големите данни“. Това ще рече – „100 дами с чая“.

Да предположим, че има 100 дами, които не могат да разберат разликата между чая, но правят догадка след всяко вкусване от своите 8 чашки чай. Има 75,6 процента вероятност поне една дама де успее да отгатне правилно.

Ако един статистик я наблюдава и види изумителната поредица от отгатвания за чашите с чай, той може да проведе статистически анализ посредством въпросното „хипергеометрично разпределение“. Той ще стигне до заключението, че тази дама наистина има способността да отгатва истината за всяка чаша чай. Но този резултат не може да бъде възпроизведен – да бъде повторен. Ако същата дама направи втори опит с 8 чаши чай, то тя най-вероятно няма да познае за всичките чаши. Просто няма да има този късмет, който е имала първият път.

Този пример илюстрира как учените могат „на късмет“ да забележат интересни, но фалшиви сигнали в даден набор от данни. Те могат да формулират хипотези на база тези сигнали, след това да използват един и същи набор от данни, за да направят заключенията си, твърдейки, че тези признаци са реални. Може да отнеме известно време, преди да открият, че техните заключения не могат да бъдат възпроизведени. Този проблем е особено често срещан при големия анализ на данните, поради големия обем на данните.

„Най-лошото е, че този процес може да позволи на учените да манипулират данните, за да произведат най-публикувания резултат,“ казва Жанг. „Статистиците се шегуват за такава практика – „ако измъчвате данните достатъчно дълго, те все ще ви кажат нещо“. Но дали това нещо може да се възпроизведе и дали е валидно?!

По-сериозни анализи

Как могат учените да избегнат проблема и да постигнат възпроизводими резултати при анализа на „големите данни“? Отговорът е прост: трябва да бъдат по-внимателни.

Коментари по темата: „Как големите данни хвърлиха в смут голямата наука”

добавете коментар...

  1. 01101101

    Докато има здраво мислешти, интелигентни, образовани, етични, честни, лойални, готови за бой до последния си дъх като Anonymous има недажда за спасението на планета и човечеството след третата световна война, където няма да останат никакви паразити и вредители…

  2. ха

    Много ми е странно как “Изненада” определя кои са “истински учени”, като самият той няма нищо общо с науката? И освен това не е наясно, че едни “учени” са некомпетентни в областите на други “учени”, така че не е редно да ги третира “едновременно”.

    Също така съм в недоумение защо Anonymous почва с подигравка имитирайки началото на моя отговор, след като аз на практика казвам точно същото, което и той самия описва в мнението си?

  3. Изненада

    Изданието за техно лайфстайл новини, описващо събития породени от новатори-предприемачи, се оказва масово четено от “истински учени”. И предизвиква масовото им възмущение. Те са единствените държатели и пазители на научния метод. Който ползва научния метод без тяхното изрично позволение е еретик. Точка!

  4. Anonymous

    Много боде очите омърсяването на думите учен, изследовател, научен подход.

    Ясно е отношението на бизнеса който печели много от посредственото отношение на хората, липсата на критично мислене като в повечето случаи изобщо липсва мисленето като процес.

    Правят се глупости и се наливат пари в тези глупости, които по никакъв начин не подобряват живота на хората нито пък разширяват техните знания и умения. Крадат и перат се пари, лични данни и други безобразия от тип биг дейта.

    Пропаганда на бизнеса да помпят фалшиви идоли, да правят така вече популярните viral послания и внушения. Обаче пари за сериозна наука и наистина стойностни неща винаги по правило недостигат и няма. Учени са оплювани и често се гаврят с техните трудове. Нещата са изкривени до уродливост нарочно или не от медиите.

  5. ха

    Не виждам с какво ви боде очите тази статия. В статията явно се казва, че “в трици маймуни не се ловят”. Големите данни, както много други съвременни бизнес термини (дигитализация, облачни услуги, потребителско изживяване и т. н.) са само рекламирано надути фрази, които са с далеч по-маловажна реална полза, а и като същност не са нещо ново, както се опитват да ги изкарат.

  6. Anonymous

    Бизнес популярна статия в която бизнесмени се правят на учени и излагат публично своите глупости.

    В превод на думите учен в статията се разбира иновативно ориентиран неграмотен предприемач, под изследовател се разбира анкетьор, тоест оператора на данни в съответната фирма събиращ данни с лопата от разните шпиониращи маркетингови платформи или с анкети по телефон дето питат какво мислят 100 баби по даден жизнено важен бизнес въпрос.

    Може да се направи класация на велики бизнесмени с техните псевдонаучни изказвания.
    За пример на света няма да са нужни повече от 6 броя компютъра и още много други …

  7. гост

    Приятна научнопопулярна статийка, която не дава полезна информация

  8. ShaggyCrow

    5 от 6 учени доказали, че играта на руска рулетка е безопасна….

  9. 12345

    Френски големи данни установили, че пиенето на горещо кафе влияе на лошо потентноста на французите. Изгаряли си езиците..

  10. Anonymous

    Това не в проблем на учените, а това засяга огромната маса от самозванци претендиращи, че разбират нещо си и разните предприемачи, бизнесмени иноватори. Те си играят с термини понятия и научни инструменти, които крадат най-нагло и бълват тонове Фалшиви иновации, фалшиви открития и други разни “разтърсващи” здравия разум пълни глупости.

    Има си строги научни методи и години много здрав труд за което е нужен и умствен капацитет за да бъде човек истински учен. Проблемът го търсете в неграмотните и прости хора и ходещите торби с пари дето си мислят че всичко могат да си купят.

Коментар