Изследователското подразделение на Microsoft пусна публична версия на нов софтуер, който е призван да реши проблема с разбирането на естествен език от страна на компютрите.
Специалистите от Microsoft Research вярват, че фоновите знания са това, което отличава хората от машините при разбиране на езика. Базата данни Probase, над която компанията работи от дълго време, е в основата на новата технология Microsoft Concept Graph.
Базата Probase предоставя достъп до 5,4 млн. концепции, като превъзхожда силно по този показател други бази данни от рода на Cyc, която включва едва 120 хиляди концепции. Системата поддържа текстов анализ чрез обединяване на интeрпретации и предположения. По подобен начин действат и хората, отсявайки бързо ненужната информация за определяне на контекста.
Така например, при прочитане на фразата „мъж бяга от непознат с нож”, повечето хора вероятно си представят човек, който бяга от въоръжен с нож непознат. Но тази фраза може да означава също, че мъжът е взел ножа от непознатия и сега бяга от него. Бягането и ножът обаче се асоциират със страха и затова най-очевидната интерпретация на фразата в случая преобладава над останалите.
Моделът с концепции на Microsoft помага да се определи контекстът на фразите. Ножът, за който става дума, може да се възприеме и като прибор, и като оръжие, но в дадения контекст е именно оръжие, а на откраднат музеен експонат. Приборите и оръжията са достатъчно разпространени категории, но музейните експонати са нещо много по-рядко. Microsoft разглежда най-вероятния и най-малко вероятния смисъл на думата, отчитайки атрибути, отношения и контекст.
Последната версия на софтуера Microsoft Concept Graph може да определя релевантността на думите в произволен текст. В бъдеще програмата ще отчита и „концептуализацията на отделни случаи с контекста”, което означава, че за определяне на смисъла на фразите, ще се прави връзка между думи като „непознат” и „нож”.
На следващ етап изследователите планират да въведат и „концептуализация на кратък текст”, разширявайки по този начин възможностите на приложенията по отношение на търсене, реклама и изкуствен интелект.
IBM Watson го има това от година поне.