Г.В. Федорович Вероятностная логика идентификации заболевания в качестве профессионального (№1, 2019)

Скачать выпуск "Безопасность и охрана труда" №1, 2019

УДК 331.45

Вероятностная логика
идентификации заболевания в качестве профессионального

Г.В.Федорович, д.ф-м.н,
ООО «НТМ-Защита»
e-mail: fedorgv@gmail.com

Реферат

В работе проведено сопоставление двух способов интерпретации данных о заболеваемости, представляемых в форме таблиц сопряженности. Эти данные могут интерпретироваться либо в принятой в эпидемиологии вероятностной трактовке (риски, относительные риски, сила связи и пр.), либо в терминах вероятностной логики. В последнем случае рационализация профпатологии приводит к новой системе понятий (условные и безусловные вероятности, отношения правдоподобия, статистические ансамбли и т.д.), внутри которой только и возможны адекватное количественное описание и непротиворечивые заключения о заболеваемости на производстве.

Такой подход предпочтителен по очевидной причине: при анализе результатов статистических исследований чрезвычайно сложных и вариабельных объектов (организм человека) следует отказаться от детерминированной логики непосредственного сопоставления данных с наперёд заданным шаблоном. Адекватным инструментом здесь является более гибкая, вероятностная (Байесовская) логика, использующая для сравнения условные вероятности. Она является инструментом работы с параметрами, случайными по своей природе. Действия с вероятностью  наблюдаемых данных используются для пересмотра "степени доверия" к начальным гипотезам. Такая логика позволяет непротиворечиво и эффективно интегрировать различные статистические показатели в единый количественный критерий степени доверия к гипотезе о вредности и опасности производственных условий.

Ключевые слова

Теорема Байеса, гигиена труда, эпидемиология, профессиональные заболевания, профпатология, риск, вероятность.

 

Probabilistic logic of occupational disease identification

G.V.Fedorovitch,
Ph.D., Technical director, NTM Ltd

Abstract

The paper compares two ways of interpreting morbidity data presented in the form of contingency tables. These data can be interpreted either in the probabilistic interpretation adopted in epidemiology (risks, relative risks, strength of communication, etc.) or in terms of probabilistic logic. In the latter case, the rationalization of occupational pathology leads to a new system of concepts (prior and posterior probabilities, likelihood ratios, statistical ensembles, etc.), within which only an adequate quantitative description and consistent conclusions about morbidity in production are possible.

Such an approach is preferable for an obvious reason: when analyzing the results of statistical studies of extremely complex and variable objects (the human body), it is necessary to abandon the deterministic logic of direct comparison of data with a predetermined pattern. Adequate tool here is a more flexible, probabilistic (Bayesian) logic, using conditional probabilities for comparison. It is a tool for working with parameters that are random in nature. Actions with probability of observable data are used to revise the "degree of confidence" in the initial hypotheses. This logic allows us to consistently and effectively integrate various statistical indicators into a single quantitative criterion of the degree of confidence in the hypothesis of harmfulness and danger of production conditions.

Keyword

Bayesian inference, occupational health, epidemiology, occupational diseases, occupational pathology, risk, probability.

 

Введение.

В профпатологии существует определенное несоответствие между сложностью объекта изучения (человеческий организм) и простотой требуемого от врача решения: является ли («да – нет») заболевание профессиональным. Решение должно быть не только однозначным, но и обоснованным. Последнее означает, в частности, что решение может быть принято или отвергнуто в зависимости от того, насколько оно согласуется с данными обследования пациента. Решение, которое не может быть сопоставлено с реальностью, не представляет никакого практического интереса. Вообще говоря, подчинение выводов опытным данным является тем «золотым правилом», которое главенствует в любой научной дисциплине. В «классической» эпидемиологии это правило выполняется не всегда.

Настоящая ситуация с идентификацией заболевания в качестве профессионального является серьезной проблемой в профпатологии. Нет нормативных документов, ясно и однозначно определяющих критерии экспертизы профпригодности и связи заболевания с профессией. Более того – противоречива сама логика принятия таких решений. Дело в том, что решение необходимо однозначно императивное, несмотря на то, что сам объект профпатологии (организм человека) чрезвычайно сложен и вариабелен. Последнее требует индивидуального подкрепления экспертных заключений, а формулировка этих заключений должна быть по возможности «мягкой». В противном случае указанные два взаимоисключающих обстоятельства (вариабельность объекта и требование жесткости выводов) могут привести, и, как будет показано ниже, приводят к противоречивым и даже абсурдным выводам.

В работе предлагается использовать вероятностную логику Байеса для вынесения суждений об этиологии исследуемого заболевания. Выводы напрямую связаны с применением особого подхода к статистическому анализу. Он основан на изменении доверия к исходной гипотезы об исследуемом явлении или процессе в зависимости от поступления новой информации. В профпатологии вероятностная логика дает возможность проследить, как меняется уровень доверия к априорному диагнозу после принятия во внимание дополнительных данных о пациенте. Фактически именно эта процедура подчинения выводов опытным данным и является вероятностным аналогом проверки соответствия теории и эксперимента в точных науках.

Стоит отметить, что практическая ценность теоремы Байеса в значительной мере повлияла на дальнейшее развитие отдельных отраслей сферы информационных технологий, а также преобразила существовавшие подходы к принятию основанных на экспертных оценках и статистическом моделировании решений в различных областях деятельности. В профпатологии это путь к ее рационализации, когда решения о применении диагностических, профилактических и лечебных действий принимаются исходя из результатов комплексной количественной оценки рисков. Это часть общего процесса перехода от «импрессионистской» профпатологии, основанной на мнении и впечатлении, к профпатологии, основанной на рациональном анализе данных.

Для наглядной иллюстрации возможностей применения логики Байеса, в статье рассмотрены примеры реальных исследований заболеваемости на производстве.

 

§ 1. Заболеваемость горнорабочих Кольского Заполярья.

 

1.1. Относительный риск заболевания. В работе [1] была предложена рационализация диагностики заболевания в качестве профессионального, основанная на оценке относительного риска зарегистрированного у работника нарушения здоровья. Методика наиболее наглядна, если для оценки риска использовать эпидемиологические таблицы сопряженности (далее – ТС). Возможности использования ТС продемонстрированы на реальном примере – для анализа бронхолегочной патологии у рабочих, занятых добычей, транспортировкой и обогащением апатит-нефелиновых руд в суровых климатических условиях Крайнего Севера. Исходные статистические данные взяты из работы [2],в которой изучалась структура хронических бронхолегочных заболеваний у различных групп рабочих предприятия ООО «Апатит» (Мурманская обл.).

При проведении углубленного медосмотра были обследованы 2238 работников подземных рудников (основная группа). В качестве группы контроля были обследованы 790 работников железнодорожного цеха (далее - ЖДЦ). Хронические бронхолегочные заболевания (далее - ХБЛЗ) дифференцировались по нозологическим формам, однако, в связи с иллюстративностью последующего, ниже этого делать не будем. Авторы [2] выделяли «группу риска», в которую включались лица с некоторыми признаками респираторной патологии, недостаточными для установления диагноза какого-либо ХБЛЗ. Ниже эта группа будет объединена с группой «здоровые лица», т.е. «сомнительные» случаи будут причислены к здоровым.

В рамках принятых предположений ТС имеет вид Табл.1.

 

Таблица 1.
ТС состояния респираторного здоровья работников

Клиническая группа: Больные ХБЛЗ
(Бол=1)
Здоровые
(Бол=0)
Всего по факторам
Группы риска:
Подз.рудники (ВПФ = 1) n11 = 387 n10=1851 n1* = 2238
ЖДЦ (ВПФ = 0) n01 = 55 n00 = 735 n0* = 790
Всего по заболеваемости n*1 = 442 n*0 = 2586 n** = 3028

 

Анализ данных Табл.1 позволяет утверждать следующее:

– Оценочный риск (безусловная вероятность) ХБЛЗ в обследованной группе

Р(Бол=1) = n*1/n** = 0,146 (1)

– Риск возникновения ХБЛЗ в группе, подвергающейся воздействию ВПФ (условная вероятность), составляет

Р(Бол=1|ВПФ=1) = n11/n1* = 0,173 (2)

– Риск возникновения ХБЛЗ в группе, не подвергающейся воздействию ВПФ (условная вероятность), составляет

Р(Бол=1|ВПФ=0) =n01/n0* = 0,07 (3)

– Обусловленный действием ВПФ относительный риск заболевания

RR = Р(Бол=1|ВПФ=1) / Р(Бол=1|ВПФ=0) = 2,48 (4)

Согласно Руководству [3], найденная величинаRRне свидетельствует о высокой степени причинно-следственной связи нарушений здоровья с работой. Этот результат представляется сомнительным, учитывая вредность условий труда горнорабочих подземных рудников. Ситуация не улучшается даже если в анализ вовлекаются новые данные относительно факторов, влияющих на заболеваемость работников.

 

1.2. ТС для комплексного воздействия этиологических факторов. Отличительной чертой эпидемиологии профзаболеваний является комплексный характер вредных воздействий на работника. На большинстве вредных производств обычно одновременно имеют место неблагоприятные микроклиматические условия, повышенные уровни шума, вибрации, концентраций вредных химических веществ (в том числе АПФД) в воздухе рабочей зоны и пр. Более того, не только условия труда, но и такой непроизводственный фактор, как, например, курение, способен оказать неблагоприятное влияние на уровень заболеваемости работников [4]. Этим производственные условия отличаются от «классических» эпидемиологических ситуаций, когда эпидемию вызывает, как правило, какой-либо один (например – инфекционный) агент.

Рассмотрим возможность использования ТС для анализа комплексного воздействия ВПФ. Будем использовать реальные данные по уровням ХБЛЗ. Для определения влияния загрязнения воздуха рабочей зоны вредными химическими веществами, АПФД, других ВПФ, а также воздействие курения работников на уровень заболеваемости ХБЛЗ в работе [4] было обследовано 1300 работников Кольской горно-металлургической компании. Обследуемые работники были разделены на группы курящих и некурящих, а также в зависимости от воздействия ВПФ. Результаты (численность групп работников с учитываемыми признаками) сведены вТабл.2, это пример многомерной (2х2х2) ТС.

 

Таблица 2.
Численности здоровых и больных ХБЛЗ

ВПФ Курение Здоров Болен
нет нет 942 58
есть 144 128
есть нет 412 89
есть 216 311

 

Недостающая в работе [4] информация о контрольной группе (не подвергающихся воздействию ВПФ и не курящих) была восполнена данными статистической отчетности по стране в целом [5].

Предложенные в [1] и использованные выше обозначения для содержимого клеток ТС естественно обобщаются на случай трехмерной 2х2х2 таблицы. Будем отмечать входные переменные индексами i (воздействие ВПФ) и j (курение). Равенство нулю индекса обозначает отсутствие соответствующего воздействия, а индекс равный единице обозначает его наличие. Выходную переменную отклика (заболеваемость) будем отмечать индексом k так, что k = 0 отмечает количество здоровых, а k =1 отмечает количество болеющих. Сами количества людей, попавших в ту или иную группу, будем обозначать переменной nijk с соответствующими индексами. Например, число n000 обозначает количество здоровых людей, не подвергающихся воздействию ВПФ и не курящих. Соответственно, число n111 обозначает количество больных, подвергающихся воздействию ВПФ и курящих. Аналогично интерпретируются числа n с другими индексами. Трехмерная таблица чисел {nijk} дает полное описание ситуации с влиянием входных переменных (вредных воздействий) на уровень отклика (заболеваемости) в обследуемой группе. Для наглядного представления ситуации, привяжем числа nijk к вершинам куба, совмещенного с началом координатной системы { i, j, k } (см. Рис. 1).

 

 

Так же, как и для 2х2 ТС, будем использовать различные суммы чисел nijk по индексам. Именно, будем ставить значок * вместо того индекса, по которому произведено суммирование. Смысл этих чисел очевиден: например, n*jk представляет собой числа здоровых (k=0) или больных (k=1) людей, не курящих (j=0) или курящих (j=1), причем – безотносительно к воздействию (либо к его отсутствию) ВПФ. Суммы n**k определяют числа здоровых (k=0) или больных (k=1) людей, безотносительно к воздействию (либо к его отсутствию) ВПФ или курения. Наконец, сумма n*** определяет общее число людей, вошедших в обследуемую группу.

Стоит отметить, что суммирование nijk по одному из индексов переводит исходную 2х2х2 ТС в таблицу меньшей (2х2 ) размерности, которую можно анализировать описанными выше методами. В статистике этот прием называется «сжатием» таблицы по индексу суммирования.

Перейдем к анализу рисков по данным таблицы 2х2х2. Использование ТС в виде, представленном на рисунке, делает очевидной оценку рисков заболевания под действием различного набора {i,j} факторов. Следует выбрать соответствующее этому набору вертикальное ребро куба и поделить число, попавшее на верхнюю грань (количество больных) на сумму чисел на этом ребре. Используя очевидную индексацию Rij для обозначения риска заболевания под действием факторов i и j , получаем Rij = nij1/nij*:

 

Таблица 3.
Риски Rij заболевания ХБЛЗ под действием различных факторов

ВПФ\курение Нет (j=0) Есть(j=1)
Нет (i=0) 0,058 0,471
Есть(i=1) 0,178 0,590

 

Сами по себе риски не репрезентативны. А относительные риски заболеваний ХБЛЗ можно подсчитывать по-разному. Например, можно выбрать группу подвергающуюся воздействию ВПФ, но не курящих. Для них контрольной будет группа не подвергающихся воздействию ВПФ и не курящих. При таком способе оценки влияния ВПФ относительный риск заболевания равен RR = R10/R00 3,1 . Можно, однако, рассуждать по-другому: выберем группу курящих, подвергающихся воздействию ВПФ, с риском заболеть R11. Для них контрольной будет группа курящих, но не подвергающихся воздействию ВПФ, с риском заболеть R01 и относительный риск заболевания под действием ВПФ будет оцениваться величиной RR 1,25 . Это почти втрое меньше, чем относительный риск заболевания для некурящих. Придерживаясь логики «классического» анализа ТС в эпидемиологии, можно прийти к абсурдному выводу о том, что курение предотвращает заболевание ХБЛЗ под действием ВПФ.

Заметим, что выбор курения в качестве дополнительной к ВПФ причины заболевания непринципиален. Заболеваемость ХБЛЗ, оценка риска для которой проделана выше в п.1.1, также можно рассматривать как результат комплексного воздействия на работников ВПФ и суровых климатических условий Крайнего Севера. Полученная (сравнительно небольшая) оценка величины относительного риска RR 2,5 может объясняться неудачным выбором работников ЖДЦ в качестве контрольной группы. Ситуация полностью аналогична оценке относительного риска заболевания под действием ВПФ в группе курящих, только с заменой курения на суровые климатические условия.

Если, однако, определение степени связи заболеваний с воздействием ВПФ обуславливать специальными требованиями к контрольной группе, это существенно усложнит процедуру идентификации заболевания в качестве профессионального, лишив ее однозначности, наглядности и кажущейся очевидности.

 

§ 2. Байесовский анализ заболеваемости горнорабочих

Причиной противоречивости выводов «классического» эпидемиологического анализа влияния ВПФ на заболеваемость работников может быть требование излишней императивности профпатологического решения, противоречащее сложности и вариабельности объекта исследования – организма человека. Представляется необходимым определенное «смягчение» требований к формулировке этого решения, при сохранении, разумеется, логической строгости выводов.

Удобный аппарат для вынесения непротиворечивых суждений об этиологии исследуемого заболевания предлагает вероятностная логика Байеса. Она напрямую связана с применением особого подхода к статистическому анализу, направленному на оценку изменения доверия к исходной гипотезе об исследуемом явлении или процессе в зависимости от поступления новой информации. В профпатологии вероятностная логика дает возможность проследить, как меняется уровень доверия к априорному диагнозу после принятия во внимание дополнительных данных о пациенте. Фактически именно эта процедура подчинения выводов опытным данным и является вероятностным аналогом проверки адекватности теории по результатам эксперимента в точных науках.

 

2.1. Основные принципы и приемы Баесовского анализа. ТС удобно демонстрировать на разобранном выше (см. п.1.1) простейшем примере ХБЛЗ у различных групп рабочих, занятых добычей, транспортировкой и обогащением апатит-нефелиновых руд на предприятии ООО «Апатит» [2]. Безусловные вероятности Р(Бол) и Р(ВПФ) отождествляются с априорными вероятностями, а условные Р(Бол|ВПФ) и Р(ВПФ|Бол) можно рассматривать как апостериорные. Как таковые, они удовлетворяют соотношению, известному как теорема Байеса. Например:

Р(Бол|ВПФ) =Р(ВПФ|Бол)хР(Бол)/Р(ВПФ) (5)

Использование вероятностной логики Байеса для анализа данных в ТС открывает новые возможности, так как она изначально ориентируется на общую концепцию исследований в точных науках: выдвижение гипотез и поиск реальных свидетельств (данных), подтверждающих или нет эти гипотезы. Например, соотношение (5), выражающее теорему Байеса для случая оценки воздействия ВПФ на здоровье работников, может быть интерпретировано следующим образом.

Гипотеза о том, что работник болен, априори справедлива с вероятностью Р(Бол=1) = 0,146 , определяемой формулой (1). Если становится известно, что работник подвергается воздействию ВПФ, вероятность гипотезы о том, что он болен возрастает до значения Р(Бол = 1 | ВПФ = 1) = 0,173 (см. формулу (2)). Этот рост вероятности в  1,2 раза обусловлен появлением новой информации о влиянии ВПФ на работника. Иными словами, учет того, что на работника влияет ВПФ, укрепляет априорную гипотезу о том, что он болен. Т.е. апостериорная гипотеза о влиянии ВПФ на заболеваемость работников более убедительна, чем априорная. Обращаясь к теореме Байеса, можно увидеть, что увеличение достоверности апостериорной гипотезы по сравнению с априорной, определяется появлением в формуле (5) фактора

Ф+ = Р(ВПФ=1|Бол=1) / Р(ВПФ=1) = 1,18 (6)

Для того, чтобы убедиться, что этот результат не случаен, рассмотрим противоположную гипотезу о том, что ВПФ не вызывает заболевания. Априорная вероятность гипотезы об отсутствии у работников заболеваний довольно велика:

Р(Бол = 0) = n*0 / n** = 0,854 (7)

Однако, если известно, что работник подвергается действию ВПФ, то апостериорная вероятность остаться здоровым Р(Бол = 0 | ВПФ = 1) = 0,827. Она меньше, чем (7) за счет фактора:

Ф- = Р(ВПФ=1|Бол=0) / Р(ВПФ=1) = 0,916 (8)

Таким образом, учет информации о влиянии на работника ВПФ уменьшает доверие к гипотезе о том, что влияние ВПФ не увеличивает вероятность заболевания. Оба этих результата (6) и (8) могут рассматриваться как экспериментальное подтверждение гипотезы о влиянии ВПФ на заболеваемость. Обычно результаты (6) и (8) объединяются в коэффициент доверия Байеса КВ = Ф+ / Ф- равный в нашем случае 1, 22 .

 

2.2. Байесовский анализ комплексного воздействия этиологических факторов.

Возможности и результаты применения вероятностной логики для анализа комплексного воздействия вредных факторов продемонстрируем на том же примере, что и выше в § 1 (п. 1.2).

Степень доверия (отношение правдоподобия)к гипотезе о влиянии набора факторов {i,j} на появление болезни, определяется по формуле

Фij+ = P(i,j | Бол=1) / Р(i,j) = (nij1 / n**1) / (nij* / n***) (9)

Заметим, что тот же результат получается, если для определения величины Фij+ использовать соотношение Фij+ = P(Бол=1| i,j) / Р(Бол=1) и определить априорную вероятность заболевания отношением

Р(Бол=1) = n**1/n*** = 0,255 (10)

При таком подходе величина Фij+ получается делением значений рисков заболевания Rij= Р(Бол=1| i,j) из Табл.3 на величину априорной вероятности заболевания (10). Результат представлен в Табл.4.

 

Таблица 4.
Отношение правдоподобия Фij+
для гипотезы о связи заболевания
с вредными факторами ВПФ (i)либо курение (j).

ВПФ\курение Нет (j=0) Есть(j=1)
Нет (i=0) 0,23 1,85
Есть(i=1) 0,70 2,32

 

Видно, что доверие к гипотезе растет, если рассматривается влияние курения и уменьшается для воздействия ВПФ.

Если рассмотреть обратную гипотезу – об отсутствии влияния вредных факторов на заболеваемость, значения отношений правдоподобия для нее представлены в Табл. 5.

 

Таблица 5.
Отношение правдоподобия Фij-
для гипотезы об отсутствии связи заболевания
с вредными факторами ВПФ (i)либо курение (j).

ВПФ\курение Нет (j=0) Есть(j=1)
Нет (i=0) 1,26 0,71
Есть(i=1) 1,10 0,55

 

Как и следовало ожидать, информация о воздействии вредных факторов увеличивает доверие к гипотезе об отсутствии влияния ВПФ и уменьшает его по отношению к гипотезе об отсутствии влияния курения

Результат расчета коэффициента доверия Байеса КВ = Ф+ / Ф- для положительной гипотезы приведен в Табл. 6.

 

Таблица 6.
Коэффициент доверия Байеса
для гипотезы о существовании связи заболевания
с вредными факторами ВПФ (i)либо курение (j).

ВПФ\курение Нет (j=0) Есть(j=1)
Нет (i=0) 0,18 2,60
Есть(i=1) 0,63 4,21

 

Результат укрепляет ранее сделанные выводы о существовании связи заболеваемости с курением и сомнительности такой связи с ВПФ. Можно сомневаться в справедливости этого вывода, однако нельзя не признать непротиворечивость метода и результатов анализа, использующего вероятностную логику.

 

Заключение.

Большая часть задач в фундаментальных и прикладных науках сводится к поиску причинно-следственных связей, основанных на контролируемых экспериментах. Однако, в санитарно-гигиенических исследованиях данные практически всегда содержат неопределенность. Статистические методы предоставляют инструменты для формулировки выводов, несмотря на неопределенность в данных. Они дают возможность проследить – как изменяется доверие к исходной гипотезе в зависимости от поступления новой информации. Фактически именно эта процедура подчинения выводов опытным данным и является вероятностным аналогом принятого в точных науках «золотого правила» проверки адекватности теории результатами эксперимента.

Для иллюстрации возможностей вероятностного анализа эпидемиологических данных использовались результаты исследования структуры хронических бронхолегочных заболеваний у различных групп рабочих предприятия ООО «Апатит». Отличительной чертой эпидемиологии профзаболеваний является комплексный характер вредных воздействий на работника. Этим производственные условия отличаются от «классических» эпидемиологических ситуаций, когда эпидемию вызывает, как правило, какой-либо один (например – инфекционный) агент. Показано, что при этом «классические» эпидемиологические подходы могут приводить к противоречивым и заведомо абсурдным выводам.

Удобный аппарат для вынесения непротиворечивых суждений об этиологии исследуемых заболеваний предлагает вероятностная логика Байеса. Она дает возможность проследить, как меняется уровень доверия к априорному диагнозу после принятия во внимание дополнительных данных о пациенте. На результатах натурных исследований показано, что апостериорная гипотеза о влиянии ВПФ на заболеваемость работников более убедительна, чем априорная. И наоборот, убедительность гипотезы об отсутствии влияния ВПФ на заболеваемость падает, если привлекаются реальные данные о влиянии ВПФ на работников.

Использование вероятностной логики приводит к новой системе понятий (априорные и апостериорные вероятности, отношения правдоподобия, статистические ансамбли и т.д.), внутри которой только и возможны адекватное количественное описание и непротиворечивые заключения о заболеваемости на производстве.

 

Литература

  1. Федорович Г.В. Риск-обоснование диагностики профзаболеваний // Безопасность и охрана труда, № 2, 2018 г., с.50 – 51.
  2. Сюрин С.А., Буракова О.А. Респираторная патология в горно-химической промышленности Крайнего Севера // Безопасность и охрана труда, № 4, 2011 г., с.56 – 59.
  3. Р 2.2.1766-03 «Руководство по оценке профессионального риска для здоровья работников.  Организационно-методические основы, принципы и критерии оценки» // М., - Минздрав РФ, 2004 г. – 17 с. 
  4. Сюрин С.А. Вдох или выдох // Безопасность и охрана труда, № 2, 2013 г., с.67 – 69.
  5. Россия в цифрах 2010 /Краткий статистический сборник. - М.: Росстат-2010.-560 с.