В последнее время в клинической практике решающее значение для диагностики ряда заболеваний имеет медицинская визуализация. Современные тенденции применения алгоритмов искусственного интеллекта во многом относятся к решениям задач автоматического распознавания снимков различного рода. Интеллектуальным алгоритмам требуется обучаться на коллекции аннотированных или размеченных снимков. Соответственно аннотация и разметка изображений лежат в основе медицинской интерпретации снимков как в клинических, так и в исследовательских целях.
Однако провести маркировку снимков врачам-специалистам, выделить на них артефакты или участки поражения тканей либо патологии, а также отделить визуально здоровую ткань в них без использования специального информационного сопровождения достаточно сложно. Поэтому медицинская информационная система должна содержать в себе модуль разметки (маркирования, аннотирования) медицинских изображений с функцией интеллектуального сегментирования.
На сегодняшний день существует стандарт для получения, обработки, передачи, хранения и отображения медицинских изображений DICOM, однако стандартов для аннотации и разметки изображений не существует. Авторы исследования анализируют возможности создания собственного стандарта для аннотации снимков. Этими же авторами разработано электронное устройство для аннотации врача (ePAD) – свободное доступное веб-приложение, предназначенное для просмотра, аннотации и количественного анализа радиологических изображений, разработанное для решения задач количественной оценки раковых поражений [2]. Однако его нельзя использовать, например, для аннотации эндоскопических изображений. Эти же авторы [3] предлагают расширение фундаментальной модели для аннотаций и разметки изображений (AIM) для сети биоинформатики рака (caBIG®) Национального института здоровья (NIH, США). Достоинством такого расширения является универсальность предложенной модели – она может применяться к различным типам изображений, созданным с помощью различных методов.
В России также создана программа для организации процесса сбора и маркировки наборов маммографических медицинских изображений (датасетов) для целей машинного обучения [4].
Данная программа позволяет маркировать и аннотировать изображения в формате DICOM, но один снимок может размечать только один специалист, отсутствует функционал перекрестной разметки. Однако у всех созданных приложений по разметке данных отсутствует функция одновременной разметки одного и того же изображения двумя специалистами и более. Иначе говоря, все системы предлагают основывать обучение на коллекции снимков, промаркированных одним специалистом, таким образом полагаясь на субъективное мнение одного человека. Целью исследования является разработка методики для создания сервиса аннотации и разметки медицинских изображений сразу несколькими специалистами одновременно и сверки их между собой.
Целью разметки изображения является определение так называемой основной истины объекта. Основная истина (ground truth) – термин, применяющийся в различных областях, для обозначения информации, истинность которой подтверждается путем непосредственного наблюдения (т.е. эмпирических доказательств), в отличие от информации, предоставленной предположением. В области машинного обучения основная истина – это та информация, на основе которой следует обучать графические наборы данных. В рамках работы над созданием сервиса для разметки изображений основанием для определения основной истины объекта на рисунке является мнение эксперта. Предполагается, что специалист, имеющий роль оператора разметки, обладает компетенциями, достаточными для того, чтобы грамотно выделить на изображении интересующий его объект. Однако человеческий фактор играет большую роль в разметке изображения; как следствие, по одному и тому же изображению разметка объектов будет в той или иной степени различаться у разных специалистов.
В рамках задачи разметки данных в том случае, когда результаты разметок двух операторов не совпадают, эксперту необходимо принять решение на основе оценки степени различия двух результатов. Для реализации метода оценки степени различия двух областей разметки одного и того же изображения в данном исследовании используется коэффициент Жаккара. Меры, аналогичные коэффициенту Жаккара, широко известны среди исследователей, работающих в области машинного обучения, для оценки степени похожести двух выборок; например, в работе приведен сравнительный анализ мер схожести с эмпирической и теоретической точек зрения.
Коэффициент Жаккара – это статистическая мера, используемая для измерения степени схожести и различия двух выборок. Коэффициент отображает значение схожести двух конечных множеств и определяется как отношение объема пересечения к объему объединения множеств:
Традиционно в области компьютерного зрения этот коэффициент используется как метрика качества работы алгоритмов поиска объектов на изображении. Тогда, в соответствии с формулой, A – это область выделения объекта, обозначенная алгоритмом, B – истинная область выделения объекта. В случае решения задачи разметки: A – область выделения объекта, обозначенная первым оператором разметки, B – вторым. В таком случае эксперт должен принять решение, какая из двух разметок больше соответствует истинной области выделения объекта, либо предложить третий альтернативный вариант.
К мнению эксперта прибегают в том случае, если рассчитанная мера Жаккара статистически значимо отличается от единицы. Проверку отличия осуществляют на основе двустороннего теста Стьюдента при р<0,05. Для уменьшения вероятности того, что два разных оператора разметки выделят области таким образом, что алгоритм возвратит маленькое значение коэффициента Жаккара, а также для повышения качества разметки объектов на изображениях предлагается в системах разметки реализовать функцию подгонки границ выделенной пользователем области до ближайших границ объекта. Функция должна быть реализована в качестве сценария, вызываемого сервисом разметки медицинских изображений.
В основе этой функции лежит алгоритм GrabCut – это алгоритм сегментации изображения, оперирующий разрезами графа. Он является достаточно универсальным инструментом в области компьютерного зрения. Например, в работе он используется для решения схожей с нашей задачей семантической сегментации изображения. Алгоритм GrabCut оценивает распределение цвета объекта и фона, используя смешанную гауссовскую модель в области, определенной вокруг объекта пользователем. Эта оценка используется для построения случайного марковского поля над пикселями с целевой функцией, которая отдает приоритет соотнесению соединенных пикселей к пикселям объекта или пикселям фона. Затем над этим полем осуществляется оптимизация на основе разреза графа. Так как эти операции приводят к результату, показывающему более точное выделение границ объекта, они повторяются до тех пор, пока не будет достигнут наиболее приемлемый результат.
В качестве системы управления базами данных в системах разметки предлагается использовать свободную объектно-реляционную СУБД PostgreSQL. Выбор в пользу данной СУБД обусловлен, во-первых, имеющейся встроенной поддержкой слабоструктурированных данных в формате JSON с возможностью их индексации; во-вторых, СУБД поддерживает широкий стек технологий и языков программирования: в стандартной поставке поддерживаются pgSQL, Perl, Python и Tcl; в-третьих, в системе имеется возможность создавать новые типы данных, типы индексов, языки программирования, модули расширения, подключать любые внешние источники данных.
Для моделирования бизнес-процесса разметки изображений специалистом и экспертом использовали нотацию BPMN (Business Process Model and Notation).
BPMN-модель бизнес-процесса разметки изображений оператором разметки и экспертом представлена на рис. 1.
Апробация предложенной методики перекрестной разметки изображений была проведена на коллекции эндоскопических снимков (колоноскопия). Подробно задача разметки эндоскопических изображений при колоноскопии рассмотрена в [7]. В бизнес-процессе предусматриваются две роли: роль оператора разметки – врача-специалиста, аннотирующего и размечающего медицинское изображение, и роль эксперта, который анализирует различия в двух разметках одного и того же медицинского изображения (двумя операторами).
В предложенной модели бизнес-процесса разметка изображения выполняется оператором с помощью формирования области, накладываемой поверх эндоскопического изображения с помощью набора инструментов. Формирование области представляет собой процесс создания при помощи щелчков кнопкой мыши вершин полупрозрачного многоугольника, которые ограничивают область. В соответствии с вышепредставленным бизнес-процессом в базах данных созданы, помимо ключевых, вспомогательные таблицы, часть из них является справочными.
Графическое выделение областей, с помощью которых оператор разметки определяет объекты, реализовано с применением графического элемента HTML 5 – Canvas, который предназначен для создания растрового изображения при помощи JavaScript. Для разметки объекта, для которого в элементе Canvas еще не отрисована область, необходимо выбрать его класс в панели вкладок. Для того чтобы в процессе разметки не мешали объекты других классов (например, область патологии отличить от артефакта) в интерфейсе предусмотрена возможность скрытия областей.
Для реализации алгоритма была смоделирована разметка одного и того же объекта двумя операторами разметки. Пример двух разметок приведен на рис. 2. Для тестирования метода расчета области на рис. 1 образованы заливкой единицами многоугольников, созданных случайным образом на бинарном изображении, состоящем только из нулей. Подобные изображения называются бинарными масками.
Для реализации предложенного метода находилась область пересечения бинарной маски, образованной объединением многоугольников, указанных в качестве разметки первым оператором, с бинарной маской, образованной объединением многоугольников, указанных в качестве разметки вторым оператором разметки. Далее аналогичным образом находилась область объединения двух бинарных масок. Искомый коэффициент рассчитывался как отношение значения площади области пересечения на значение площади области объединения. Результат работы метода, возвращающего коэффициент Жаккара по множествам двух групп многоугольников, представлен на рис. 3.
Предложенная бизнес-модель разметки изображений была реализована в виде программного модуля в медицинской информационной системе, сопровождения автоматического анализа эндоскопических изображений. На рис. 4 представлен пример реализации разметки по предложенной методике: здесь белым цветом отображены область объекта, указанная оператором разметки, и ограничивающий ее прямоугольник, голубым цветом – область объекта, указанная алгоритмом GrabCut, и ограничивающий ее прямоугольник. Используемый метод дал хорошие результаты. Как видно из рис. 4, площадь прямоугольника, описывающего область, указанную пользователем, больше площади прямоугольника, описывающего область, рассчитанную алгоритмом GrabCut.
Предложенная методика является перспективной для объективной разметки различных медицинских изображений, в том числе может быть адаптирована для разметки 3D-изображений. Эксперименты показали, что из 50 снимков, размеченных одновременно двумя специалистами, различия регистрируются только в одном снимке, который требует использования мнения эксперта.
Ахметвалеев Руслан Ренатович (Ruslan R. Akhmetvaleev) – специалист по анализу данных «Лексема», Уфа, Российская Федерация
Шабанова Ксения Игоревна (Ksenia I. Shabanova) – инженер-программист ООО «Лексема», Уфа, Российская Федерация
Падукова Анастасия Анатольевна (Anastasia A. Padukova) – руководитель проектов ООО «Лексема», Уфа, Российская Федерация
Лакман Ирина Александровна (Irina A. Lakman) – кандидат технических наук, директор по науке ООО «Лексема», заведующая научной лабораторией исследования социально-экономических проблем регионов ФГБОУ ВО «Башкирский государственный университет», Уфа, Российская Федерация