УДК 331.45 DOI 10.54904/52952_2023_2_18
Теорема Т. Байеса в профэпидемиологии
Г.В. Федорович,
д.ф-м.н., ООО НТМ-Защита, г. Москва
Е-mail: fedorgv@gmail.com
Аннотация
Проблемы в области эпидемиологии профессионально обусловленных заболеваний требуют развития новых методов статистического анализа медицинских данных. Необходимость строгих доказательств и количественных характеристик причинно-следственной связи между заболеванием и воздействием вредных производственных факторов требует введения в профэпидемиологию элементов доказательной медицины. Здесь эффективны вероятностные методы Байеса, однако, с инверсированной логикой для возможности решения новых проблем.
Оценки силы вероятностной связи заболеваемости работников с условиями труда, основанные на оценке коэффициента Yule's Q и на статистике Фишера Х2, приводят к тем же качественным выводам, что и анализ Т. Байеса апостериорной вероятности, однако последний позволяет наглядно проследить логику возникновения ситуации и дает количественную меру воздействия вредных производственных факторов, т.е. позволяет достоверно диагностировать заболевание в качестве профессионально обусловленного.
В противоположность неопределенности качественных суждений, предлагаемые рациональные / количественные методы доказательной медицины, использующие статистический подход к биомедицинским данным, ограничивают свободу оценок, отбирая те из них, которые определенно и однозначно согласуются с наблюдениями.
Ключевые слова: профэпидемиология; статистический анализ; доказательная медицина; количественные оценки
The theorem of T. Bayes in occupational epidemiology
G.V. Fedorovitch
Ph.D., NTM Ltd, Moscow
Abstract
Problems in the field of epidemiology of occupational diseases require the development of new methods of statistical analysis of medical data. The need for rigorous evidence and quantitative characteristics of a causal relationship between a disease and exposure to harmful production factors requires the introduction of elements of evidence-based medicine into occupational epidemiology. Bayesian probabilistic methods are effective here, but with inverted logic to be able to solve new problems. Estimates of the strength of the probabilistic relationship between the occupational diseases and working conditions, based on the assessment of the Yule's Q coefficient and Fisher's statistics Х2, lead to the same qualitative conclusions as T. Bayes's analysis of the posterior probability, but the latter allows you to visually trace the logic of the situation and gives the quantitative measure of exposure to harmful production factors, i.e. allows you to reliably diagnose the disease as professionally conditioned. In contrast to the uncertainty of qualitative judgments, the proposed rational / quantitative methods of evidence-based medicine, using a statistical approach to biomedical data, limit the freedom of assessments, selecting those that are definitely and unambiguously consistent with observations.
Keywords: occupational epidemiology; statistical analysis; evidence-based medicine; quantitative assessments
Введение
Профессионально обусловленные заболевания (ПОЗ) возникают в результате воздействия на организм вредных производственных факторов (ВПФ). Аналитическая деятельность по определению причин и факторов риска заболеваемости, оценке потенциальной эффективности и безопасности профилактических средств и мероприятий составляет содержание эпидемиологии ПОЗ.
Предметом традиционной эпидемиологии являются закономерности возникновения и распространения заболеваний различной этиологии (как правило – инфекционных). Здесь получено немало интересных результатов и по праву занимающих важное место в современной медицине. Профэпидемиология отличается тем, что принимаемые решения напрямую связаны с финансами и экономикой (компенсации вреда работникам, сокращение продолжительности работы, определение пенсионного возраста и пр.). Все предположения в области профэпидемиологии спекулятивны, пока не существует рациональных методов, которые можно было бы использовать для количественной реконструкции ситуации с ПОЗ в трудовых коллективах. Здесь недостаточно описательных заключений – нужны доказательства и количественные характеристики причинно-следственной связи между заболеванием и воздействием ВПФ. Эти требования вносят в профэпидемиологию элементы доказательной медицины (ДМ), понимаемой как интеграция лучших научных доказательств и клинических знаний при диагностике и лечении заболеваний [1].
Соответственно, профэпидемиология имеет дело с другим материалом, другими клиническими вопросами и другими клиническими решениями, чем традиционная эпидемиология инфекционных заболеваний. Для решения новых проблем в области патологии ПОЗ нужны новые методы анализа материала, которых раньше не требовалось. В работе предлагается метод идентификации ПОЗ, основанный на идеях статистической логики. Обращение к ней обусловлено тем, что ПОЗ представляет собой элемент в комплексе процессов жизнедеятельности организма. Сложность этого комплекса определяет необходимость использования методов статистического анализа для его исследования. Важное место здесь занимает сводка единичных факторов, образующих совокупность данных наблюдения. Статистически значимое количество единичных данных об отдельных объектах наблюдения образует комплекс статистических результатов. На этом этапе проявляются общие черты и закономерности исследуемых явлений [2].
Одним из основных моментов в таком подходе является группировка объектов исследования. Обычно (в эпидемиологии, в частности) натурные данные группируются в таблицы сопряженности (ТС), которые являются наиболее наглядным универсальным средством изучения статистических связей [3]. Информация, содержащаяся в ТС, включает прямое указание на направление и уровень причинно-следственных зависимостей в изучаемой системе ВПФ – ПОЗ. Но, для того, чтобы извлечь это указание, необходимы методики анализа сложных (вероятностных) ситуаций. Такую возможность предоставляет вероятностная логика Т. Байеса для оценки убеждений [4].
Основная идея подхода Т. Байеса – оценка изменения вероятности события в зависимости от того, в какой группе она определяется. Первоначальная (априорная) оценка вероятности, сделанная для большой (неограниченной) группы меняется на более специфическую (апостериорную) вероятность для исследуемой (ограниченной) группы. Следующий шаг – инверсия результата: вынесение суждения об уровне внутренней связи событий по относительной вероятности их проявления в выбранных группах.
1. Методы. Индексация чисел заполнения ячеек ТС
Определим структуру 2х2 ТС для ее причинно-следственного анализа. Есть ВПФ, приводящий к ПОЗ. Разобьем группу обследуемых работников на 4 подгруппы по признакам воздействия ВПФ и наличия ПОЗ или их отсутствия. Численности n работников в каждой группе будем отмечать индексом i, относящимся к ВПФ и индексом k, относящимся к ПОЗ. Единица – наличие ВРФ или ПОЗ, ноль – их отсутствие. Эти числа nik заполняют 2х2 Таблицу 1:
Таблица 1. Таблица сопряженности. Обозначения.
ВПФ[i] \ ПОЗ[k] |
k=0 |
k=1 |
i=0 |
n00 |
n01 |
i=1 |
n10 |
n11 |
Структура ТС определяет смысл отдельных чисел:
n00 – количество не экспонированных ВПФ и здоровых
n10 – экспонированы ВПФ, здоровы
n01 – не экспонированы ВПФ, но больны ПОЗ
n11 – экспонированы ВПФ и больны ПОЗ
Вдобавок к указанным числам заполнения 2х2 ТС введем дополнительные (маргинальные) переменные. Если на месте индекса i стоит *, это обозначает сумму по i : n*k = n0k + n1k . Это количество здоровых (если k = 0) или больных (если k=1), независимо от того, экспонированы они или нет. Соответственно, если на месте k стоит *, это сумма по k: ni* = ni0 + ni1 то есть это количество экспонированных (если i = 1) или нет (если i = 0) независимо от того, больны они или нет. Очевидно: n** это полное число работников в обследуемой группе, т.е. это сумма nik по i и по k : n** = n00 + n01 + n10 + n11 .
Одна из проблем традиционной эпидемиологии заключается в наблюдении и количественной оценке ассоциаций. В этой области предложено несколько десятков индексов, указывающих на силу вероятностной связи событий [10]. Их можно свести к двум группам:
– традиционные меры связи, основанные на статистике Фишера Х2, представляют собой сугубо эвристические конструкции;
– оценки, основанные на теоретико-информационном подходе к анализу таблиц частот, опирающиеся на анализ информационной энтропии.
Например, при оценке связности используется коэффициент сходимости (в статистике – Yule's Q), он является мерой связи между двумя бинарными переменными [14].
Y = [(n00 х n11)½ - (n10 х n01)½] / [ (n00 х n11)½ + (n10 х n01)½] ;
Q = 2*Y/[1+Y2] .
Для оценки достоверности статистических гипотез часто используется p-значение статистической значимости. Величина р может быть оценена критерием Пирсона Х2 [15]. Последний определяется по формуле
Х2 = Σik{(nik - mik)2 / mik}
где nik – реальные числа заполнения ячеек ТС, а mik – ожидаемые числа заполнения в предположении о независимости событий ПОЗ от ВПФ. В последнем случае в ячейках ТС должны находиться следующие числа:
Таблица 2. Ожидаемые числа заполнения 2х2 ТС
mik |
k=0 |
k=1 |
i=0 |
n*0 х n*0 / n** |
n*0 х n*1 / n** |
i=1 |
n*0 х n*1 / n** |
n*1 х n1* / n** |
Чтобы различать значимые и незначимые результаты, обычно используют уровень р = 0,05. Если задать его таким, то критическое Х2 = 3,84. Расчеты конкретных данных натурных измерений показывают, что такой величине критерия Пирсона соответствует критический Yule's Q = 0,3. Задавая другой уровень значимости, придем к другой оценке критической величины критерия Х2 и другой оценке критического Yule's Q.
2. Логика Байеса и ее развитие
Критерии Q и Х2 – это чисто статистические характеристики ситуации. В отличие от них, коэффициенты доверия Байеса следуют из логики возникновения ситуации. Они нагляднее и лучше сопрягаются со здравым смыслом. Их можно обсуждать и оценивать с этих позиций.
Следующие соображения стимулируют развитие логического обоснования теоремы Т. Байеса. Если между ВПФ и ПОЗ существует однозначное соответствие, т.е. ПОЗ может возникнуть только в результате действия ВПФ, число n01 должно быть равно нулю: не может быть ПОЗ, если на работника не действует ВПФ. Обычно соответствие всего лишь вероятно, т.е. ПОЗ может быть вызвано ВПФ, но с ненулевой вероятностью может развиваться и самостоятельно. В этих случаях следует ожидать, что величина n01 будет относительно мала, но не строго равна нулю. Еще точнее – следует говорить о малой вероятности одной ситуации относительно других. Как только в анализ включаются относительные вероятности, следует использовать вероятностную логику Байеса для оценки убеждений.
2.1. Вероятности и риски
Сравнительные вероятностные оценки ситуации – это предмет вероятностной логики Байеса. В традиционной эпидемиологии такой подход сводится к сопоставлению апостериорного и априорного рисков. Другое название соответствующих характеристик – безусловная и условная вероятности.
Безусловная вероятность (априорный риск) обнаружить больного Р(ПОЗ=1) – это доля больных среди всех обследуемых работников:
Р(ПОЗ=1) = n*1 / n** .
Более информативна величина вероятности заболевания среди тех, кто подвергался воздействию ВПФ (экспонированные работники). Это условная вероятность, которую в эпидемиологии определяют как апостериорный риск:
Р(ПОЗ=1 | ВПФ = 1) = n11 / n1*.
Частное от деления Р(ПОЗ = 1 | ВПФ = 1) на Р(ПОЗ=1) показывает уровень влияния ВПФ на вероятность заболевания ПОЗ. В эпидемиологии это относительный риск заболевания под действием ВПФ:
RP11 = (n11 * n**) / (n*1 * n1*)
Если величина RP11 близка к единице, это означает, что воздействие ВПФ незначительно: в группе подвергшихся такому воздействию риск заболеть ПОЗ такой же, как и во всей обследуемой группе. Значимое превышение RP11 над единицей означает сильную связь ПОЗ с ВПФ: уровень заболеваемости среди подвергшихся действию ВПФ существенно больше, чем в среднем по обследуемой группе. В свете сказанного фактор RP11 определяет коэффициент доверия Байеса к гипотезе о положительной связи ПОЗ с ВПФ.
Подчеркнем, что речь идет именно о силе связи ПОЗ с ВПФ. К такому же результату приводят аналогичные оценки, проведенные «в другом направлении». Конкретно: рассмотрим априорную вероятность обнаружить в обследуемой группе работников, подвергшихся действию ВПФ:
Р(ВПФ=1) = n1* / n**
Если такой же расчет провести для группы больных ПОЗ, то условная (апостериорная) вероятность равна:
Р(ВПФ=1 | ПОЗ = 1) = n11 / n*1
и относительный риск экспонирования Р (ВПФ = 1 | ПОЗ = 1) / Р(ВПФ=1) определится той же формулой, что и относительный риск заболевания RP11.
Такая симметрия относительного риска не дает формальных оснований для суждения о направленности причинно-следственных отношений в паре ВПФ – ПОЗ. Разумеется, исходя из общих представлений, можно утверждать, что ВПФ – причина, а ПОЗ – следствие, но сам по себе коэффициент доверия Байеса RP11 не дает оснований для такого заключения.
Можно утверждать однако, что ТС содержат информацию о направлении причинно-следственных отношений. Для этого следует рассмотреть другие относительные риски заболевания. Например, риски обнаружить больных в группе неэкспонированных работников. Априорная вероятность Р(ПОЗ=1) определена выше, апостериорная
Р(ПОЗ=1 | ВПФ = 0) = n01 / n0*
Соответственно, относительный риск обнаружить больных в группе неэкспонированных работников:
RP01 = Р(ПОЗ = 1 | ВПФ = 0) / Р(ПОЗ = 1) = (n01 * n**) / (n0* * n*1)
Это же соотношение определяет относительный риск обнаружить неэкспонированных в группе больных работников:
Р(ВПФ = 0 | ПОЗ = 1) / Р(ВПФ = 0) = RP01
Небольшая величина RP01 указывает на небольшую вероятность заболеть ПОЗ в отсутствие ВПФ. То же самое, иными словами – наблюдаемые случаи ПОЗ в основном обусловлены воздействием ВПФ. Так интерпретируемую величину RP01 можно считать коэффициентом доверия Байеса к гипотезе о зависимости ПОЗ от ВПФ.
Аналогично определяются относительные риски обнаружить здоровых работников в группе экспонированных (и экспонированных в группе здоровых):
RP10 = (n10 x n**) / (n1* x n*0)
а также здоровых работников в группе неэкспонированных (и наоборот – неэкспонированных в группе здоровых):
RP00 = (n00 x n**) / (n0* x n*0)
Можно ожидать, что последняя величина близка к единице, т.к. соответствует вероятности остаться здоровым в нормальных условиях (ВПФ = 0), что на работе, что «в жизни».
2.2. Результаты
Подведем краткий итог полученным оценкам. В принятых выше обозначениях численности различных групп:
больные экспонированные ВПФ:
RP11 = RP(A=1|B=1) = P(A=1|B=1) / P(A=1) = P(B=1|A=1) / P(B=1) = n11 x n** / (n0* x n1*) ,
здоровые неэкспонированные ВПФ
RP00 = RP(A=0|B=0) = P(A=0|B=0) / P(A=0) = P(B=0|A=0) / P(B=0) = n00 x n** / (n*0 х n0*),
экспонированные ВПФ, но здоровые
RP10 = RP(A=1|B=0) = P(A=1|B=0) / P(A=1) = P(B=0|A=1) / P(B=0) = n10 x n** / (n1* х n*0),
больные неэкспонированные ВПФ
RP01 = RP(A=0|B=1) = P(A=0|B=1) / P(A=0) = P(B=1|A=0) / P(B=1) = n01 x n** / (n0* х n*1).
3. Натурные данные
3.1. Продемонстрируем возможности использования ТС для анализа конкретной ситуации с бронхолёгочной патологией у рабочих, занятых добычей, транспортировкой и обогащением апатит-нефелиновых руд в климатических условиях Крайнего Севера. Исследование различных групп рабочих предприятия ООО «Апатит» (Мурманская область) описано в работах [5, 6]).
При проведении изучения структуры хронических бронхолёгочных заболеваний углублённые медосмотры были организованы для 2238 работников подземных рудников (основная группа). В качестве группы контроля были обследованы 790 работников железнодорожного цеха (ЖДЦ). Хронические бронхолёгочные заболевания (ХБЛЗ) дифференцировались по нозологическим формам, но в связи с иллюстративностью последующего ниже этого делаться не будет. Авторы [20] выделяли «группу риска», в которую включались лица с некоторыми признаками респираторной патологии, недостаточными для установления диагноза какого-либо ХБЛЗ. Ниже эта группа будет объединена с группой «здоровые лица», т. е. «сомнительные» случаи будут причислены к «здоровым».
В рамках принятых приближений ТС результатов обследования показана в табл. 2.1.
Таблица 1.3. ТС состояния респираторного здоровья работников
Клиническая группа: |
Больные ХБЛЗ (ПОЗ=1) |
Здоровые (ПОЗ=0) |
Всего по факторам |
Группы риска: |
|||
Под. рудники (ВПФ = 1) |
n11 = 387 |
n10=1851 |
n1* = 2238 |
ЖДЦ (ВПФ = 0) |
n01 = 55 |
n00 = 735 |
n0* = 790 |
Всего по заболеваемости |
n*1 = 442 |
n*0 = 2586 |
n** = 3028 |
Оценим статистические характеристики ситуации - критерии Q и Х2 (см. выше § 1).
Первый из них определяет связность двух переменных – ПОЗ и ВПФ. Рассчитанная величина Q = 1,0 значительно больше критического Qcr = 0,3 , которое принято считать свидетельством значимой связи переменных.
О сильной связи ПОЗ с ВПФ свидетельствует и большая рассчитанная величина Х2 = 50, которая соответствует практически абсолютной надежности гипотезы о статистически значимой (с нулевым р-значением) зависимости переменной ПОЗ от ВПФ.
3.2. Оценки коэффициентов доверия Байеса демонстрируют их преимущество в отношении наглядности и привязки к логике возникновения исследуемой ситуации.
Относительные вероятности, рассчитанные как описано выше (в п. 2), таковы:
больные среди экспонированных RP11 = 1,185;
здоровые среди экспонированных RP10 = 0,968;
здоровые среди неэкспонированных RP00 = 1,089;
больные среди неэкспонированных RP01 = 0,477.
Видно, что относительная вероятность заболеть под влиянием ВПФ (RP11) заметно больше единицы, а без такого влияния (RP01) – значимо меньше единицы. Относительная вероятность заболеть ПОЗ возрастает в результате воздействия ВПФ более чем вдвое. Примерно такое же соотношение и между условными вероятностями: P(B=1|A=0) = 0,070 и P(B=1|A=1) = 0,173. Вполне надежно заключение о существенном влиянии ВПФ на заболеваемость ПОЗ. Более того, отношение RP11/RP01 ≈ 2,5 дает количественную оценку влияния улучшения условий труда на заболеваемость ХБЛЗ работников.
3.3. В качестве другого примера анализа ТС для оценки воздействия ВПФ на ПОЗ можно привести результаты обследования работников, занятых в сварочном производстве, на трех крупных предприятиях машиностроения в г. Санкт - Петербурге: ОАО «Ижорские заводы», ФГУП «Адмиралтейские верфи» и ОАО судостроительный завод «Северная верфь» [7]. Для анализа использовались данные статистики заболеваний с временной утратой трудоспособности за 2007, 2008, 2009 гг. Техника пересчета их в ТС заболеваемостей описана в работе [8]. Пересчет этих данных в вероятности/риски обнаружить больного или здорового работника производится в рамках моделирования заболеваемости простой цепью Маркова с двумя состояниями. Результаты приведены в таблице 2.2.
Таблица 2.2. Таблица сопряженности состояния респираторного здоровья работников сварочных производств
Клиническая группа: |
Больные (ПОЗ=1) |
Здоровые (ПОЗ=0) |
Всего по факторам |
Группы риска: |
|||
Сварщики (ВПФ = 1) |
6,6 |
163,4 |
170 |
Контроль (ВПФ = 0) |
5,5 |
164,5 |
170 |
Всего по заболеваемости |
12,1 |
327,9 |
n** = 340 |
Здесь статистические характеристики ситуации - критерии Q и Х2 существенно другие.
Рассчитанная величина Q = 0,09 значительно меньше критической Qcr = 0,3. Это свидетельство слабой связи заболеваемости и экспонированности работников. О том же свидетельствует и небольшая рассчитанная величина Х2 = 0,1 . Она соответствует о практически абсолютной несостоятельности гипотезы о статистически значимой (с р = 0,75) зависимости переменной ПОЗ от ВПФ.
О том же свидетельствуют оценки коэффициентов доверия Байеса. Именно относительные вероятности таковы:
больные среди экспонированных RP11 = 1,091;
здоровые среди экспонированных RP10 = 0,997;
здоровые среди неэкспонированных RP00 = 1,003;
больные среди неэкспонированных RP01 = 0,909.
Видно, что все относительные вероятности близки к единице. Это можно интерпретировать как свидетельство слабого влияния ВПФ на заболеваемость ПОЗ. Другими словами, те уровни, до которых снижены ВПФ на обследованных предприятиях машиностроения, являются допустимыми в том отношении, что не ведут к заметному росту ПОЗ по сравнению с «нормальными» условиями.
Заключение
Специфика целей и задач профэпидемиологии определяет специфику клинических проблем и методов их решения, которых не было в традиционной эпидемиологии инфекционных заболеваний. Необходимость строгих доказательств и количественных характеристик причинно-следственной связи между заболеванием и воздействием ВПФ требует введения в профэпидемиологию элементов доказательной медицины.
В работе описаны методы рационализации диагностики ПОЗ, подразумевающие специальную технологию сбора, анализа и интерпретации данных эпидемиологических исследований.
Основным моментом в таком подходе является группировка объектов исследования в ТС, которые являются наиболее наглядным и универсальным средством изучения статистических связей. Статистически значимое количество единичных данных об отдельных объектах наблюдения образует комплекс статистических результатов. Для выявления общих черт и закономерностей исследуемых явлений используется логика Т. Байеса оценки вероятностных убеждений. При этом оцениваются изменения вероятности события в зависимости от того, в какой группе определяется эта вероятность. Первоначальная (априорная) оценка вероятности, сделанная для большой (неограниченной) группы меняется на более специфическую (апостериорную) вероятность для исследуемой (ограниченной) группы. Следующий шаг – инверсия результата: вынесение суждения об уровне внутренней связи событий по относительной вероятности их проявления в выбранных группах.
Показано, что оценки силы вероятностной связи ПОЗ с ВПФ, основанные на коэффициенте Yule's Q и статистике Фишера X2, приводят к тем же качественным выводам, что и анализ Т. Байеса апостериорной вероятности, однако последний позволяет наглядно проследить логику возникновения ситуации, и дает количественную меру воздействия ВПФ, т.е. позволяет достоверно диагностировать заболевание в качестве профессионально обусловленного.
Помимо конкретных результатов, предлагаемые методы анализа, основанные на расширении логики Т. Байеса, открывают новые возможности количественной характеристики ситуации с ПОЗ в рабочем коллективе [9], [10].
Список литературы:
-
Федорович Г. В. Рациональная эпидемиология профессиональных заболеваний (Модели и методы). Saarbrűcken, Deutschland.: Palmarium Academic Publishing, 2014: Р. 343. ISBN-13: 978-3-639-82722-4.
-
Ломовской Р. А. Статистический анализ данных: методы и приложения в научных исследованиях. Актуальные исследования. 2023. – № 15 (145). – Ч. I. – С. 29–34.
-
Аптон Г. Анализ таблиц сопряженности. М.: Финансы и статистика, 1982. – 143 с.
-
Хей Дж. Введение в методы байесовского статистического вывода. — М.: Финансы и статистика, 1987. – 336 с.
-
Сюрин С. А. Вдох или выдох // Безопасность и охрана труда. – 2013 г. – № 2. – С. 67–72.
-
Сюрин С. А. Особенности формирования профессиональной патологии у работников различного передела никеля в условиях Крайнего Севера. – Безопасность и охрана труда. – 2012. – № 1. – С. 50–51.
-
Кусраева З. С. Современный подход к оценке профессионального риска при выполнении электродуговой сварки и резки металлов // Доклад на XI съезде гигиенистов. – Москва, 2012.
-
Федорович Г. В. Риск-обоснование диагностики профзаболеваний. – Безопасность и охрана труда. – 2018. – № 2. – С. 44–56.
-
Федорович Г. В. Эпидемиологический анализ характеристик профессионального риска. – Безопасность и охрана труда. – 2012. –№ 3. – С. 49–53.
-
Федорович Г. В. Эпидемиологические методы диагностики профессиональных заболеваний. – Безопасность и охрана труда. – 2018. – № 3. – С. 20–28.