„Големите данни” обясниха еволюцията на птиците

Около 95 на сто от всичките над 10 000 вида птици, които познаваме днес, са се развили едва след изчезване на динозаврите преди около 66 милиона години. Според компютърни анализи на генетични данни, днешното многообразие от пернати се е разгърнало от едва няколко вида. Това е станало с „експлозивна” скорост в рамките на 15 милиона години.

Учени от Технологичния институт в Карлсруе (KIT) разработиха алгоритми за цялостния анализ на еволюцията на птиците. За да получат резултатите, представени наскоро в сп. Science, изследователите са използвали изчислителна мощност, равна на 300 процесор-години, за обработка на големи данни (Big Data).

„Изчисляването на тези „дървета на живота” за изследванията на еволюцията би било невъзможно без адекватни алгоритми и суперкомпютри”, коментира Александрос Стамакис, професор в катедрата по високопроизводителни изчисления за науките за живота в KIT. „Днес модерният анализ на секвенциите осигурява задълбочени генетични данни за редица видове. Досега обаче компютърните програми, дори тези за суперкомпютрите, бяха „преуморени” от задачите за генериране на еволюционни знания на база тези големи и сложни обеми от данни”.

Модерният анализ на секвенциите осигурява задълбочени генетични данни за редица видове, казва Александрос Стамакис, професор в KIT

Модерният анализ на секвенциите осигурява задълбочени генетични данни за редица видове, казва Александрос Стамакис, професор в KIT

Въпреки че суперкомпютрите се развиват и вече боравят с хиляди процесори, софтуерът за анализ на т. нар. „дървета на живота” доскоро бе ограничен до едва около 500 процесора. „Ето защо ние трябваше да препроектираме и обновим схемата за комуникация между компонентите на програмата върху различни процесори”, посочи Стамакис.

Новият подход ускорява софтуера неколкократно и сега позволява изчисленията да се разпределят ефективно върху 4000 процесора. Компютърните инженери говорят за „паралелизация на алгоритмите”. „Вместо 24 месеца сега ние чакаме резултатите само един месец”, обобщава Стамакис.

Изчисляването на „дървета на живота” е изключително ресурсоемка дейност, когато става дума за изчислителен капацитет. „За 50 вида [птици] съществуват 10 на 76-та степен възможни дървета на живота. От тях трябва да се намери най-подходящата”, обяснява Андре Аберер, докторант в KIT, който работи в същата катедра и извършва компютъра анализи. „За сравнение – 10 на 78-та степен са атомите, които съществуват във вселената”, допълва той.

Първо алгоритмите трябва грубо да филтрират сценариите на невероятните еволюционни пътеки. След това, въз основа на данни от 14 000 гени от 48 представителни вида птици, се изчислява еволюционното дърво на живота, което дава най-правдоподобно обяснение на данните.

Новият софтуер за паралелни изчисления е пуснат върху компютъра с висока производителност „SuperMUC” в Изчислителния център Лайбниц при Баварската академия на науките и в два други изчислителни центъра в САЩ. Процесорната мощ, използвана за изчисленията, съответства на 300 години работа на един процесор.

„Методите, които са разработени за изчисляване на дървото на живота, могат да се прилагат и за всички други видове същества”, казва Стамакис. Подобни алгоритми са приложени и за цялостно проучване на дървото на живота на насекоми от 144 вида. По същия начин е възможно да се възпроизведат и произходът и изобилието на вирусите и бактериите – с цел по-добра борба с патогените. Анализът на генетичната връзка на австралийските отровни змии пък е помогнал да се идентифицират все още липсващите антидоти за някои видове змии.

Изучаването на еволюцията на птиците е реализирано от „Консорциум за птича фиологеномика” с участието на 200 учени от 80 института в 20 страни.

Коментар