Система парсинга и анализа научно-технических статей в области медицины

Задача автоматизации анализа большого количества информации не теряет своей актуальности уже несколько лет. В медицине и биологии это связано с появлением новых технологий анализа биологических объектов. Существует большое количество баз данных медицинских и биологических публикаций, однако максимальные возможности таких систем ограничены обычным контекстным поиском и фильтрами. Этого недостаточно для работы, требуется более эффективный подход к процессингу накопленной информации. Так, например, если в статье говорится о каком-то гене, то нас интересует не просто его упоминание, а синтаксическая и смысловая связность, а также биологическое значение. В связи с этим все загруженные для обучения сети публикации подвергаются предварительной обработке, состоящей из таких этапов, как токенизация, выделение ключевых слов, выделение потенциальных связей, подготовка к классификации, классификация и подготовка базы данных. Такая система позволяет производить поиск простых прямых ассоциаций, поиск сложных ассоциаций через несколько промежуточных звеньев, поиск биологических мишеней для терапии, поиск потенциальных препаратов для терапии заболеваний, поиск направлений для новых исследований, поиск маркеров и препаратов с аналогичным профилем связей, кластеризацию сущностей, анализ смешанных смыслов и фильтрацию по “качеству” статьи.

Цель проекта - автоматизация анализа научной литературы с выявлением основных элементов изучаемых объектов и процессов и установлением характера взаимосвязи между ними.