AI извлича цифри от научните статии и ги превръща в ползваеми данни

Изследователи от немския научен център Юлих разработиха AI система, която автоматично извлича числови данни от научни публикации и ги превръща в структурирани бази данни. Новата рамка Quinex може значително да ускори анализа на научна литература в области като енергетика, климат, медицина и материалознание.

Разработката идва на фона на лавинообразния ръст на научните публикации, който все по-трудно позволява ръчен анализ дори в тесни изследователски направления. Числата са езикът на науката. В научните публикации обаче количествените данни често остават „заровени“ в текстовете и трудно подлежат на автоматизиран анализ.

Изследователите от центъра в Юлих (Forschungszentrum Jülichса) създали AI система, която автоматично идентифицира числовите стойности, категоризира ги и ги преобразува в структурирани данни. Рамката Quinex елиминира необходимостта от трудоемка ръчна обработка.

Независимо дали става дума за енергетика, климатични изследвания или разработка на нови материали, научните публикации съдържат огром3н обем количествени данни — ефективност, температури, разходи, емисии и други показатели. Тези параметри често са критично важни за подобряване на модели и откриване на нови тенденции.

В същото време броят на научните публикации расте с огромна скорост. За много изследователски задачи вече е практически невъзможно да проследят и анализират всички релевантни публикации, тъй като това би изисквало огромен ресурс от време и човешки труд.

Разработената в Юлих рамка Quinex, чието име идва от „Quantitative Information Extraction“, използва езикови модели за автоматизиране на този процес. Системата разпознава числови стойности, свързва ги със съответните мерни единици и определя какво точно е измерено, кога, къде и по какъв начин.

Така дадено изречение от типа „За 2025 г. се предполага ефективност между 63 и 71 процента“ се преобразува в структуриран набор от данни, съдържащ контекстна информация за периода, метода на измерване и източника.

За разлика от много комерсиални AI решения, Quinex е изцяло базирана на отворени и сравнително компактни езикови модели. Това позволява системата да работи по-ефективно и с по-ниски изчислителни ресурси. Моделите са обучени специално да разпознават и класифицират количествена информация в научни текстове.

Според разработчиците, Quinex демонстрира по-висока точност от сходни системи. Платформата обработва по-прецизно контекстната информация и успява да разпознава дори косвено зададени характеристики.

Въпреки компактния си размер системата постига около 98% точност при разпознаването на числа и мерни единици. При класификацията на количествени свойства и обекти точността достига съответно около 87% и 82%. Тези резултати са постигнати чрез специално създадени тренировъчни набори от данни и методологични подобрения.

„Искахме да разработим инструмент, който е едновременно мощен, прозрачен и ефективен по отношение на ресурсите“, обяснява д-р Ян Вайланд, ръководител на отдела Integrated Scenarios в Jülich System Analysis. По думите му, Quinex прави изкуствения интелект по-достъпен за научния анализ на данни.

За да проверят практическата ефективност на системата, изследователите са приложили Quinex върху хиляди научни резюмета от различни области. Системата успешно е извлякла данни за разходите за производство на електроенергия при различни технологии, за максималното усвояване на кислород при хора, за магнитуда и местоположението на земетресения, както и за енергийните характеристики на фотоволтаични материали.

Автоматично извлечените стойности показват висока степен на съответствие с референтните данни. Това, според учените, доказва, че Quinex е подходяща за анализ на големи масиви от научна литература и за извличане на надеждни тенденции в широк спектър от изследователски области.

„Езиковите модели отварят нови перспективи пред науката и помагат за поддържането на общ поглед върху цели научни направления“, казва водещият автор Ян Гьопферт. По думите му, подобни системи позволяват автоматизирано търсене в научната литература, създаване на унифицирани изследователски бази данни и анализ на тенденции, които могат да покажат развитието на науката и технологиите още в ранна фаза.

„Нашата цел е да освободим учените от рутинната работа“, допълва д-р Патрик Кукерц, ръководител на групата за управление на научни данни. Според него, Quinex може да помогне на изследователите по-бързо да достигат до нови открития и по-лесно да управляват непрекъснато растящия поток от научна информация.

Разработчиците подчертават, че Quinex не е напълно безгрешна система. Прозрачността обаче е заложена като основен принцип в архитектурата на платформата.

„Системата разпознава числата и мерните единици много надеждно“, обяснява Гьопферт. „Тъй като те се извличат директно от текста, не могат да бъдат „халюцинирани“. Понякога обаче се появяват грешки при интерпретацията, особено когато важни препратки са разпръснати в различни части на текста“.

Затова Quinex остава инструмент за подпомагане на хората, а не за пълното им заместване. „Препоръчваме Quinex да се използва там, където улеснява и подпомага работата на изследователите, но отговорността за интерпретацията на резултатите остава при тях“, казва Гьопферт.

Всяко разпознато число може да бъде проследено до оригиналния източник и, когато е възможно, се маркира директно в текста.

Екипът вече работи върху следващи версии на Quinex с допълнителни специализирани модели и тематични набори от данни. Целта е платформата да стане още по-гъвкава и да се адаптира към различни научни области и специфични изследователски задачи.

Forschungszentrum Jülich публикува Quinex като проект с отворен код. По този начин учени и разработчици от цял свят ще могат да тестват, разширяват и адаптират системата към собствени научни направления — от енергетика и химия до биомедицина.

AI извлича цифри от научните статии и ги превръща в ползваеми данни

Броят на публикациите расте шеметно, хората не могат да ги проследят, а още по-малко - да ги анализират

TechNews.bg

Коментари

От кулоарите на InfoSec SEE 2026: Как „vibe coding“ променя света на киберсигурността

Агентният AI променя съотношението CPU/GPU

InfoSEC SEE 2026: AI пренареди киберсигурността само за година

Дойде ли краят на икономиката на заключения потребител?

AI срещу AI: новата „война” в киберсигурността

Телекомите: Европа страда от инвестиционен дефицит от 205 млрд. евро

Изкуственият интелект е свързан с 83% от пробивите в сигурността

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

Киберзащита 2026: трябва да сме като Кевин от „Сам вкъщи“

InfoSec SEE 2026 очерта нова бизнес-роля: директор по използване на AI

AMD пренася 3D V-Cache технологията в бизнес РС-та и работни станции

Идва нова вълна в лаптопите: Googlebook с Android

Ново предизвикателство: заплаха ли е агентният AI за бизнеса?

Учени превръщат въглеродeн диоксид в гориво – в индустриален мащаб

От кулоарите на InfoSec SEE 2026: Как „vibe coding“ променя света на...

Основана от българин AI компания получи солидна инвестиция от Nvidia и Samsung

Shelly започва производство на модули и устройства в нова фабрика в Пловдив

Агентният AI променя съотношението CPU/GPU

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Литиевите батерии се оказаха по-опасни, отколкото се смяташе

Linux компютри са пробити от хакери в продължение на 9 години

HONOR 600 Pro и HONOR 600 от A1 – в комплект с безжични слушалки и на специална цена

А1 приема предварителни поръчки за новия OPPO Find X9 Ultra

Идва нова вълна в лаптопите: Googlebook с Android

QNAP пуска 10-слотов, изцяло флаш SATA SSD NAS за бизнеса

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията

Коментари