Ученые института обучили нейросеть прогнозировать пандемию по постам в Twitter. ИИ ищет упоминания коронавируса в сети и на основе этого составляет статистику по заболевшим. По словам одного из авторов проекта, таким образом нейросеть может давать прогноз на несколько дней вперед.
Известно, что ранее различные языковые модели уже использовались для обнаружения на основе постов в Twitter вспышек других инфекционных заболеваний, вызванных, например, вирусами Эбола и Зика. Однако все они были обучены наанглийском языке.
Нейросеть, созданная в Курчатовском институте, была обучена на русском языке. Для этого исследователи выбрали 10тыс. русскоязычных постов, в которых упоминались такие слова, как "коронавирус", "пандемия", "ПЦР-тест" и др. Все они были опубликованы в период с 1 марта 2020года по 1 марта 2021 года.
После обучения нейросеть может находить целевые твиты пользователей, которые могли быть заражены COVID-19.
Результаты работы ИИ сравнили с официальной статистикой за указанный период. Оказалось, что количество инфицированных по России, отфильтрованных нейросетью в Twitter, аналогично официальной статистике случаев заболевания COVID-19 в России за тот же временной период.
Исходя из этого исследователи считают, что созданная ими модель может быть использована для дальнейшего прогнозирования динамики развития эпидемии, а также для выявления новых симптомов и побочных эффектов, описываемых пользователями социальных сетей.
Один из авторов исследования, кандидат физико-математический наук Александр Сбоев рассказал "Газете.Ru", как именно система может предсказать развитие пандемии.
"Сперва собираются твиты, они размечаются на наличие степеней упоминания пандемии и коронавируса. Опираясь на собранную информацию, официальные данные и прогнозы специалистов, мы пытаемся выудить прогноз. То есть мы стараемся собрать опережающую информацию по развитию пандемии. Тут важно сказать, что мы таким образом можем предсказать порядка четырех следующих дней", - объяснил Сбоев.
Технологически для этого используется сбор интернет-ресурсов и формирование интеллектуальных нейросетевых моделей. Они, как рассказал собеседник "Газеты.Ru", выделяют твиты по наличию упоминаний о симптомах коронавируса у пользователя или положительного ПЦР-теста.
По его словам, интернет-сообщество быстрее рефлектирует на возникновение тех или иных симптомов коронавируса и на пандемию в целом, это и проявляется в интернете. Именно этот факт помогает спрогнозировать развитие пандемии.
Однако у модели есть и недостаток. Так, она не может определить, насколько пост правдив.
"Конечно, она это не определяет, - отметил Сбоев. - В данном случае, мы опираемся только на то, что пользователь пишет в интернете. Если он написал, что плохо себя чувствует, у него температура, и вчера он ходил к зараженному, - то мы его вставим в категорию заболевших. Или, например, если он рассказал о положительном ПЦР-тесте, - он попадает в ту же категорию. Наша статистика строится только на основании того, что человек пишет. Однако даже так результаты работы нейросети очень схожи с официальной статистикой".
Инженер лаборатории легких материалов и конструкций Санкт-Петербургского политехнического университета имени Петра Великого (СПбПУ) Дмитрий Курушкин рассказал "Газете.Ru", что разработанная методика может быть использована не только для классификации твитов касательно COVID-19, но и расширена для классификации общественных мнений по другим тематикам.
"Однако остается вопрос валидности корреляции собранной статистики и болезни. В статье представлен график, в котором волне пандемии предшествует волна твитов. Таким образом, авторы связывают количество твитов с количеством заболевших. При этом предполагается, что отслеживание количества твитов о коронавирусе поможет предсказать новую волну. Если бы эти значения действительно физически коррелировали, то это бы означало, что твиты влияют на заболеваемость. Однако это не так", - заявил Курушкин.
По его словам, корреляция роста количества твитов о болезни перед ростом волны заболеваемости скорее всего случайность, так как физически эти величины не связаны.
"Поэтому применение разработанной в статье нейросети для предсказания развития пандемии следует еще тщательно обдумать разработчикам совместно с командой опытных эпидемиологов", - отметил собеседник "Газеты.Ru".
Заведующий лабораторией анализа показателей здоровья населения и цифровизации здравоохранения МФТИ (вуз - участник программы "Приоритет 2030") Станислав Отставнов отметил важность интернет-исследования для получения новой информации о коронавирусе.
"Пандемия COVID-19, ккоторой человечество оказалось не готово, создала предпосылки для еще большего усиления роли интернет-исследований. Ограничительные меры, попытки слежения за инфицированными, трехнедельные карантины, штрафы привели к тому, что в некоторых ситуациях люди с симптомами COVID-19 старались по возможности дистанцироваться от контактов с официальной медициной, однако в интернете они писали о своем самочувствии", - заявил собеседник "Газеты.Ru".
По его словам, в этой ситуации такие нестандартные способы получения информации, как анализ поисковых запросов и контента в соцсетях, стали весьма полезными.
"С их помощью можно оценить масштабы пандемии, выявить побочные эффекты применяемых лекарственных препаратов, идентифицировать элементы "постковидного синдрома". Вполне логично, что в этих задачах успешное применение находят именно нейросети", - заключил Отставнов