В продължение на милиарди години еволюция на биологичния живот на Земята в живите организми е изграден механизъм за прехвърляне на генетична информация от едно поколение на следващо. Това са ДНК веригите под формата на редуващи се двойки комбинации от четири азотни основи: аденин (А), гуанин (G), цитозин (С) и тимин (Т). Четири кодиращи единици е много по-добре от две (0 и 1), но това не е границата – учени синтезираха още седем органични съединения.
Разширяването на „азбуката” за кодиране на данни в ДНК от 4 на 11 знака ще удвои вече невероятния капацитет на подобни методи за съхранение на информация. Новият подход ще увеличи и скоростта на запис на данни в ДНК последователности, което днес се счита за сериозна спирачка за разработките в тази посока.
Настоящите методи за секвениране на ДНК не могат да открият синтезирани азотни основи. Четенето им изисква нови инструменти и реакции. Но всичко това са разрешими проблеми, казват изследователи от Университета на Илинойс в Ърбана-Шампейн.
При дешифриране на ДНК нейната нишка преминава през нанопора в специално проектиран протеин, който може да открие отделни азотни основи, независимо дали са естествени или синтетични. Алгоритмите за машинно обучение след това декодират съхраняваната вътре информация.
Да, не може без изкуствен интелект на този етап, защото процесите на кодиране и декодиране изключително сложни. В бъдеще, с напредването на технологиите, нещата ще бъдат много по-лесни.
В момента, като се вземе предвид използването само на четири азотни основи за кодиране на данни, в един грам ДНК могат да се съхранят до 215 петабайта (PB) данни. Единадесет основи ще удвоят тази плътност и това не е границата.
„Опитахме 77 различни комбинации от 11 азотни основи и нашият метод успя да различи всяка от тях перфектно”, казва Чао Пан, съавтор на изследването. „Механизмът за дълбоко обучение, използван в нашия метод за идентифициране на различни нуклеотиди, е универсален, което ни позволява да разширим подхода си към много други приложения”.