Технология распознавания речи: результаты опроса врачей-рентгенологов Московского референс-центра лучевой диагностики

10 ноября 2022
Вестник_№3_2022
Автор: Кудрявцев Н.Д., Семенов Д.С., Кожихина Д.Д., Владзимирский А.В.
Развитие цифровых технологий, таких как компьютерное зрение и распознавание речи, позволяет автоматизировать и упростить часть ежедневных рутинных задач, выполняемых врачом-рентгенологом [1, 2]. Особую актуальность такие инструменты обретают в условиях ежегодного роста количества диагностических исследований и сохраняющегося кадрового  дефицита.

Широкое внедрение систем голосового ввода в англоговорящих отделениях лучевой диагностики началось в начале 2000-х гг. [3]. Многолетний зарубежный опыт применения систем голосового ввода подтвердил их эффективность при заполнении электронной медицинской документации [4–6].

Специфика разработки и внедрения данной технологии заключается в сложности применения готовых решений, изначально предназначенных для иностранных языков. Требуется разработка и адаптация словаря под новый язык, а большую часть работы приходится выполнять фактически с нуля. Первые достаточно проработанные решения для русского языка появились в начале 2010-х гг. [7]. Однако применение общеразговорного словаря не позволяло использовать их в медицинской практике. Потребовалось еще несколько лет для разработки систем голосового ввода, позволяющих распознавать русскую речь, наполненную медицинскими терминами [8].

Импульсом для масштабной апробации и последующего внедрения технологии распознавания речи в практической медицине послужил проект Департамента здравоохранения г. Москвы, инициированный в 2019 г. Цели проекта – определить целесообразность и эффективность применения голосового ввода для заполнения медицинской документации, разработать методику применения и рекомендации по подготовке автоматизированных рабочих мест врачей [9]. Разработка специализированного рентгенологического словаря системы голосового ввода, основанного на 2,6 млн протоколов исследований, подготовленных врачами, позволила обеспечить точность распознавания рентгенологических терминов в 97% (на 100 распознанных слов допускается не более 3 ошибок) [2, 10]. Первыми многочисленными пользователями системы распознавания речи стали врачи-рентгенологи Московского референс-центра лучевой диагностики (МРЦ). Концепция референс-центра основана на дистанционном описании рентгенологических исследований с помощью телемедицинских технологий. Деятельность референс-центров направлена на повышение эффективности использования кадрового ресурса, обеспечение результативной и масштабной работы по скринингу и своевременной диагностике [11].



Рис.1. Автоматизированное рабочее место врача-рентгенолога Московского референс-центра лучевой диагностики, оснащенное системой голосового заполнения протоколов исследований


Внедрение технологии распознавания речи в рутинную практику врача-рентгенолога преследовало 3 цели: снизить длительность заполнения протоколов диагностических исследований, повысить комфорт, особенно для врачей, которые обладают слабым навыком печати на клавиатуре, и сделать тексты протоколов более стандартизированными. Следует отметить, что данная технология была предложена как альтернативный метод заполнения протоколов исследований, а не замена клавиатурному набору текста.

Несмотря на продемонстрированную эффективность, технологии распознавания речи только набирают популярность среди специалистов отечественного врачебного сообщества [7].

Цель данной работы – изучение отношения врачей-рентгенологов МРЦ к технологии распознавания речи, определение их удовлетворенности и вовлеченности при голосовом заполнении медицинской документации.

Материал и методы

Для изучения мнения врачей использовали социологический метод исследования, в виде анкетирования. Заочный опрос проводился в марте 2021 г. среди врачей-рентгенологов МРЦ. Все автоматизированные рабочие места (АРМ) врачей были оснащены системой голосового заполнения медицинской документации (Voice2Med, разработчик Группа компаний ЦРТ, Санкт-Петербург, Россия), интегрированной в Единый радиологический информационный сервис (РИС) Единой медицинской информационно-аналитической системы города Москвы (ЕМИАС), и аудиоустройствами: гарнитурами (Logitech 960, Лозанна, Швейцария) и многофункциональными устройствами для голосового ввода (Philips SpeechMike SMP3700, Амстердам, Нидерланды) (рис. 1). Все врачи прошли очное обуче ние по применению системы голосового ввода.

Анкета была разработана мультидисциплинарной командой, состоящей из врача-рентгенолога, врачей – организаторов здравоохранения и разработчиков технологии распознавания речи. Анкета состояла из 4 разделов (знакомство с респондентом, опыт работы с технологий распознавания речи для заполнения медицинской документации, опыт работы с аудиоустройствами для голосового заполнения и заключительная часть), суммарно 28 вопросов. Использовали поливариантные вопросы с одиночными и множественными ответами, открытые вопросы и интервальную шкалу для расчета индекса Net Promoter Score (NPS). Данный индекс определяет приверженность пользователей/клиентов к компании/продукту/услуге [12].

Анкетирование проводили с помощью онлайн-сервиса, ссылка для прохождения опроса была разослана всем врачам-рентгенологам МРЦ (130 специалистов). Для оценки вовлеченности определяли долю врачей, использующих технологию распознавания речи при подготовке протоколов исследований. Для оценки удовлетворенности определяли субъективное мнение врачей по влиянию технологии на их эффективность и удобство ее применения.

Результаты

Характеристика респондентов
Опрос был пройден 84 врачами-рентгенологами, что составило 64,6% от общего количества врачей, которым были направлены анкеты. Возраст большинства (45,8%) респондентов варьировал от 31 года до 40 лет. Большинство (57,8%) врачей-рентгенологов имели стаж работы более 5 лет, при этом доля молодых специалистов со стажем работы менее 1 года составила 4,8%. Для 100% респондентов русский язык является родным.

На вопрос «Оцените Ваш навык печати на клавиатуре» 66,7% ответили средний, 27,3% –
высокий и 6,0% – низкий. Подавляющее большинство врачей 91,7% заполняет протокол исследования сразу в РИС, остальные сначала используют текстовый редактор (Microsoft Word, OpenOffice LibreOffice и т.п.), а затем переносят текст протокола исследования в РИС. На вопрос пользуются ли врачи голосовыми помощниками (Яндекс.Алиса, Google Assistant, Siri) в повседневной жизни 46,4% ответили, что не пользуются, 36,9% – иногда, 16,7% – регулярно. Для 84,5% врачей первое знакомство с технологией распознавания речи для заполнения медицинской документации произошло во время работы в МРЦ. Результаты ответа на вопрос «Как Вы заполняете протокол исследования?» представлены на рис. 2.

Эффективность и удовлетворенность врачей
Чуть больше половины врачей (52,2%) предпочитает использовать голосовой ввод при подготовке протоколов рентгенологических исследований. Распределение ответов на вопрос «Какой у Вас опыт применения технологии распознавания речи для подготовки протоколов рентгенологических исследований?» представлено в таблице. Многофункциональное устройство для голосового ввода используют 69,8% врачей, остальные (30,2%) – головную проводную гарнитуру.


       

Большинство (62,8%) респондентов согласились с тем, что технология распознавания речи повышает их эффективность и сокращает время подготовки протоколов исследований, но 37,2% заняли нейтральную позицию или ответили, что данная технология не влияет на эффективность их работы. Большинство (81,4%) респондентов, использующих технологию, оценили качество распознавания рентгенологической лексики как хорошее и отличное: 58,1 и 23,3% соответственно. 79,1% респондентов отметили простоту и удобство применения технологии, а 34,9% врачей использовали дополнительные функции системы голосового ввода (управление АРМ, голосовые команды для загрузки заранее подготовленных текстовых шаблонов). Лишь 4,7% врачей не были удовлетворены качеством распознавания и у 7,0% врачей возникли трудности при самостоятельной работе с системой распознавания речи.

При этом 74,4% респондентов отметили, что при работе с системой голосового ввода возникали ситуации, когда распознавалась чужая речь. Также 46,5% врачей ответили, что испытывают психологический дискомфорт при голосовом заполнении протоколов в присутствии коллег, а для 25,6% психологический комфорт зависел от того, кто конкретно из коллег присутствует в кабинете.

Готовность участников рекомендовать систему голосового ввода коллегам – параметр, необходимый для определения индекса NPS, представлена на рис. 3.

Обучение специалистов
Большинство респондентов (82,1%) приняли участие в очном обучении с аппликатором компании – разработчика технологии распознавания речи. При этом 92,8% врачей отметили простоту в освоение навыка применения системы. Большинству респондентов (92,8%) было достаточно одной обучающей сессии длительностью 30 мин, а 7,2% врачей выразили желание пройти дополнительное обучение. Большинство респондентов (79,7%) отметили преимущество очного обучения по сравнению с заочным (самостоятельно с помощью методических материалов и инструкций) и онлайн-обучением. При этом 86,9% врачей использовали текстовые памятки и инструкции при самостоятельной работе с системой распознавания речи, а 89,1% отметили качество подготовленных текстовых материалов.

Комментарии респондентов
15 (17,8%) респондентов оставили комментарии в свободной форме. 5 (33,3%) комментариев позитивные: врачи отметили высокое качество обучения и методических материалов, приветствовали возможность применения нового метода заполнения документации. 4 (26,6%) комментария были связаны с точностью распознавания речи: 3 из них отметили частые ошибки в распознавания окончаний слов, а 1 врач сообщил о низком качестве распознавания медицинской лексики в целом. В 3 (20%) комментариях врачи сообщили, что голосовое заполнение коллег отвлекает от работы врачей, которые не используют технологию распознавания речи. В 1 (0,6%) комментарии высказали сомнение о том, что голосовой ввод эффективнее, чем слепой десятипальцевый метод набора текста на клавиатуре. 3 (20%) врача сообщили о необходимости создания облачного хранилища для настроек и пользовательских голосовых команд и обеспечения доступа с разных АРМ.

Обсуждение

Результаты проведенного опроса показали формирование положительного отношения врачей-рентгенологов к технологии распознавания речи.

Результаты настоящей работы соответствуют данным, полученным в исследовании F.Goss
и соавт. [13], в котором 77,1% врачей сообщили, что технология распознавания речи позволила сократить время заполнения медицинской документации и повысить эффективность рабочего процесса. Преимущества исследования F. Goss – большее число респондентов и проведение исследования на нескольких базах.

В нашем предыдущем исследовании [2] продемонстрировано, что отношение врачей к технологии распознавания речи с течением времени меняется в положительную сторону. С развитием технологии и повышением качества распознавания улучшается отношение врачей к голосовому заполнению медицинских документов. Также положительно влияет длительность применения голосового ввода. Похожие результаты были получены в исследованиях F. Goss и соавт. и K. Saxena и соавт. [13, 14].

Индекс NPS, приближенный к нулевому значению говорит о том, что доля «критиков» практически равна доле врачей, которые рекомендуют систему голосового ввода. Полученный результат (NPS = +1%) свидетельствует о неопределенности среди врачей об эффективности применение технологии распознавания речи и риске возникновения антирекомендаций. Изучение приверженности пользователей – полезный инструмент для определения лояльности врачей к новой технологии. Дальнейшее проведение исследований по данной методике позволит определить корректный вектор развития системы голосового ввода. Измерение индекса NPS получило широкое применение в сфере продаж, зачастую он используется как предиктор увеличения или сокращения объема продаж компании [15].

Первоначальное негативное отношение к новым технологиям, особенно основанным на алгоритмах искусственного интеллекта, может быть связано со страхом замены. Врачи, которые недавно узнали о технологии распознавания речи или слабо осведомлены о современных тенденциях цифровизации здравоохранения, могут иметь более негативное представление об инновационных технологиях в своей специальности. В исследовании M. Huisman [16] подтверждается, что со временем страх замены проходит, к тому же среди ординаторов и врачей-рентгенологов формируется положительное отношение к теме искусственного интеллекта, которое в дальнейшем может уменьшить частоту возникновения страха замены у врачей.

Психологический дискомфорт, вероятнее всего, связан с тем, что в российских отделениях лучевой диагностики исторически сложился иной подход к подготовке протоколов –рукописный: сначала на бумаге, а потом – с помощью клавиатуры. В 1980-х гг. во множестве медицинских учреждениях по всему миру были организованны диктофонные центры. Врачи-рентгенологи диктовали на звукозаписывающие устройства описания диагностических исследований, аудиозаписи расшифровывали медицинские транскрипционисты и возвращали врачам в напечатанном виде. Диктофонные центры не прижились в отечественной системе здравоохранения, но стали популярными в иностранных медицинских учреждениях [17, 18].

В зарубежном систематическом обзоре было продемонстрировано, что замена медицинского транскрипциониста системой распознавания речи позволила оптимизировать экономические затраты медицинского учреждения и сократить время подготовки протокола рентгенологического исследования на 90% [5]. Среднее время подготовки протокола исследования в диктофонном центре составляет 24 ч, это связано с большим количеством исследований и дефицитом медицинский транскрипционистов [19]. При использовании технологии распознавания речи заполнение протокола исследования происходит в режиме реального времени, именно с этим связано значительное сокращение длительности подготовки медицинского документа.

К сожалению, отечественные научно-исследовательские данные об эффективности и экономической целесообразности применения диктофонных центров в здравоохранении отсутствуют. Вероятно, это и стало причиной отказа от дальнейшего развития и внедрения данной методологии подготовки медицинской документации.

Несмотря на многочисленные исследования, подтверждающие эффективность применения технологии распознавания речи, и значительный прогресс развития систем голосового ввода, среди русскоговорящих врачей сохраняется настороженность относительно точности распознавания русского языка и применимости технологии для заполнения медицинской документации. По результатам опроса ключевыми претензиями врачей к системе голосового ввода были некорректное распознавание окончаний слов и случаи распознавания чужой речи. Сложность распознавания окончаний связана с большим многообразием словоформ одного и того же медицинского термина, а также с тем, что врачи достаточно четко произносят начала слов, а окончания проглатывают. Распознавание чужой речи зачастую связано с неправильной настройкой чувствительности микрофона. Также на качество распознавания может негативно влиять посторонний фоновый шум (работа диагностического оборудования, общение медицинского персонала с пациентом или с коллегами). Одним из решений для устранения фонового шума может быть оснащение рабочего места звукоизоляционными акустическими перегородками, что входит в рекомендации при проектировании кабинетов врачей-рентгенологов в США [20, 21]. Помимо снижения фонового шума, перегородки могут создать комфортное изолированное рабочее пространство, а это положительно скажется на концентрации внимания врачей и снижении психологического дискомфорта при голосовом заполнении протоколов.

Заключение

Полученные результаты продемонстрировали позитивный настрой врачей-рентгенологов к технологии распознавания речи. Несмотря на то что проблема некорректного распознавания некоторых окончаний сохраняется, большая часть врачей-рентгенологов считает систему голосового ввода эффективным инструментов для подготовки электронной медицинской документации. Дальнейшее развитие технологии и повышение точности распознавание медицинских терминов позволит найти еще больше сторонников голосового ввода среди медицинских специалистов.

СВЕДЕНИЯ ОБ АВТОРАХ

Кудрявцев Никита Дмитриевич (Nikita D. Kudryavtsev) – младший научный сотрудник сектора стандартизации и контроля качества отдела инновационных технологий ГБУЗ «НПКЦ ДиТ ДЗМ», Москва, Российская Федерация
Семенов Дмитрий Сергеевич (Dmitry S. Semenov) – начальник сектора стандартизации и контроля качества отдела инновационных технологий ГБУЗ «НПКЦ ДиТ ДЗМ», Москва, Российская Федерация
Кожихина Дарья Дмитриевна (Daria D. Kozhikhina) – врач-рентгенолог, руководитель референс-центра ГБУЗ «НПКЦ ДиТ ДЗМ», Москва, Российская Федерация
Владзимирский Антон Вячеславович (Anton V. Vladzymyrskyy) – доктор медицинских наук, заместитель директора по научной работе ГБУЗ «НПКЦ ДиТ ДЗМ», Москва, Российская Федерация

ЛИТЕРАТУРА

1. Морозов С.П. и др. Московский эксперимент по применению компьютерного зрения в лучевой диагностики: вовлеченность врачей-рентгенологов // Врач и информационные технологии. 2020. № 4. С. 14–23.
2. Кудрявцев Н.Д. и др. Оценка эффективности внедрения технологии распознавания речи для подготовки протоколов рентгенологических исследований // Врач и информационные технологии. 2020. № S1. С. 40–47.
3. Houston J.D., Rupp F.W. Experience with implementation of a radiology speech recognition system // J. Digit. Imaging. 2000. Vol. 13, N 3. P. 124–128.
4. Joseph J. et al. The impact of implementing speech recognition technology on the accuracy and effi ciency (time to complete) clinical documentation by nurses: a systematic review // J. Clin. Nurs. 2020. Vol. 29, N 13–14. P. 2125–2137.
5. Blackley S.V. et al. Speech recognition for clinical documentation from 1990 to 2018: a systematic review // J. Am. Med. Inform. Assoc. 2019. Vol. 26, N 4. P. 324–338.
6. Blackley S.V. et al. Physician use of speech recognition versus typing in clinical documentation: a controlled observational study // Int. J. Med. Inform. 2020. Vol. 141. Article ID 104178.
7. Молчанова А.А., Петрушенко Р.В. Речевые технологии — следующий уровень сервиса // Материалы V Mеждународной научной конференции «Технические науки в России и за рубежом». Москва, 2016. С. 6–8.
8. Ирзаев М.Г. Использование голосового ввода информации в медицинских учреждениях для заполнения электронных карт и историй болезней пациентов // Сборник научных трудов «Новые технологии и техника в медицине, биологии и экологии». 2013. № 3. С. 149–154.
9. В отделениях лучевой диагностики московских поликлиник внедрили голосовой ввод заключений [Электронный ресурс] // Vademecum. 2020. URL: https://vademec.ru/news/2020/06/10/v-otdeleniyakh-luchevoy-diagnostiki-moskovskikh-poliklinik-vnedriligolosovoy-vvod-zaklyucheniy/
10. Из голоса — в текст: как речевые технологии совершенствуют медицину [Электронный ресурс] // Интернет-издание vc.ru. 2021. URL: https://vc.ru/speechpro/175409-iz-golosa-v-tekst-kakrechevye-tehnologii-sovershenstvuyut-medicinu
11. Морозов С.П. и др. Референс-центр лучевой диагностики: обоснование и концепция // Менеджмент в здравоохранении. 2019. № 8. С. 25–34.
12. Hamilton D.F. et al. Assessing treatment outcomes using a single question // Bone Joint J. 2014. Vol. 96-B, N 5. P. 622–628.
13. Goss F.R. et al. A clinician survey of using speech recognition for clinical documentation in the electronic health record // Int. J. Med. Inform. 2019. Vol. 130. Article ID 103938.
14. Saxena K. et al. Provider adoption of speech recognition and its impact on satisfaction, documentation quality, effi ciency, and cost in an inpatient EHR // AMIA Jt Summits Transl. Sci. Proc. 2018. Vol. 2017. P. 186–195.
15. Baehre S. et al. The use of Net Promoter Score (NPS) to predict sales growth: insights from an empirical investigation // J. Acad. Mark. Sci. 2022. Vol. 50, N 1. P. 67–84.
16. Huisman M. et al. An international survey on AI in radiology in 1,041 radiologists and radiology residents part 1: fear of replacement, knowledge, and attitude // Eur. Radiol. 2021. Vol. 31, N 9. P. 7058–7066.
17. Poder T.G., Fisette J.-F., Déry V. Speech recognition for medical dictation: overview in Quebec and systematic review // J. Med. Syst. 2018. Vol. 42, N 5. P. 89.
18. Hammana I. et al. Speech recognition in the radiology department: a systematic review // Health Inf. Manag. J. 2015. Vol. 44, N 2. P. 4–10.
19. Prevedello L.M. et al. Implementation of speech recognition in a community-based radiology practice: effect on report turnaround times // J. Am. Coll. Radiol. 2014. Vol. 11, N 4. P. 402–406.
20. Kagadis G.C. et al. Medical imaging displays and their use in image interpretation // Radiographics. 2013. Vol. 33, N 1. P. 275–290.
21. Hugine A., Guerlain S., Hedge A. User evaluation of an innovative digital reading room // J. Digit. Imaging. 2012. Vol. 25, N 3. P. 337–346.