За проекта
Основната цел на проекта е разработване на методи за извличане на закономерности от големи данни, базирани на семантични атрибути. Целта на разработените методи е да могат да решават класически задачи със сравнима ефективност спрямо съществуващите подходи, но също така да могат да решават и нови сложни задачи, с отчитане на контекст и наредба.
В резултат от изпълнението на проекта се очаква да бъдат получени нови теоретични знания в областта на теоретичната информатика, компютърната лингвистика и медицинската информатика.
В областта на теоретичната информатиката ще бъдат разработени формални модели за представяне на колекции от данни със структурирана и неструктурирана част чрез различни подходи за организация на семантичните атрибути - за дискретни, непрекъснати числови стойности и номинални атрибути. Семантичните атрибути могат да имат неструктуриран или структуриран вид – йерархичен, наредба, мрежови и др. Ще бъде направено формално описание на алгоритми за търсене на закономерности в данни с различна организация на семантичните атрибути – като се разгледат както често срещани множества от данни (шаблони), така и темпорални последователности от данни, включително и паралелни последователности от данни.
В областта на компютърната лингвистика ще бъде представено формално описание на алгоритми за търсене на закономерности в текстови данни с различна организация на семантичните атрибути. Като семантични атрибути ще се използват морфологични и синтактични характеристики. Ще бъде направена съпоставка с класическите статистически методи за търсене на колокации, n-грами и др.
В областта на медицинската информатика ще бъде направено формално описание на алгоритми за търсене на закономерности в хибридни данни (дискретни, непрекъснати, номинални и текстови данни) в областта на медицината с различна организация на семантичните атрибути. Предвидено е да се извърши ретроспективен анализ на амбулаторните листове с данни на пациенти, анонимизирани съгласно изискванията на Закона за защита на личните данни. В резултат на анализа на данните ще се генерират ресурси, които могат да се комбинират с вторичните данни и да се използват отново за по-сложни анализи. Извадките от данни за експериментите ще бъдат генерирани използвайки различни техники: стохастичен, квотен и типологичен метод на подбор.
В научно-приложен аспект се очаква да бъдат създадени прототипи на разработените алгоритми и да бъдат направени експерименти за оценка на тяхната ефективност. Ще бъдат изследвани възможностите за ефективно приложение на създадените алгоритми над големи колекции от данни. Изпълнението на поставените задачи в проекта ще спомогне и за решаване на някои социални проблеми в здравеопазването: предоставяне на по-съвършени методи за изследване на коморбидност на хронични и остри заболявания; изследване на промяната на състоянието на пациенти при различни шаблони на комбинирано лечение, в зависимост от диагнозите на пациентите и степента на заболеваемост; изследване на проявата на хронични и остри заболявания и тяхното отражение върху комплексното състояние на пациентите според пол, възраст, регион и др.
Проектът ИЗИДА е финансиран по договор ДНО2/4 от 13.12.2016 г.