Бурное развитие высоких технологий в биологии и медицине, появление на диагностическом рынке большого числа новых тест-систем привело к становлению лабораторной диагностики как самостоятельной научной дисциплины. Подавляющее большинство научных клинических работ, посвященным вопросам дифференциальной диагностики заболеваний или новым методам лечения, базируется именно на лабораторных данных. Высокая экономическая затратность современных лабораторных исследований предполагает разработку оптимальных диагностических алгоритмов и выбор наиболее чувствительных и специфичных тестов.
Изучение всевозможных биохимических, иммунологических, морфометрических показателей при различных нозологиях и фазах заболевания вносит вклад в создание информационного образа болезни. Корректный статистический анализ медико-биологических данных является основой для дальнейшего научного поиска и разумного применения полученных знаний на практике. Современное состояние развития вычислительной техники и уровень цен на ПК, доступный медучреждению и/или медработнику, проникновение информационных технологий в медицину создают предпосылки для развития доказательной медицины, перехода от описательного подхода к аналитическому.
Оценим уровень использования статистических методов в медицине на примере статей в журнале “Клиническая лабораторная диагностика”. Проанализировали 100 оригинальных статей: 50 за 2003 г., 50 из произвольно взятых номеров журнала за 2000 – 2002 гг. Не рассматривали короткие сообщения и тезисы докладов, где авторы могли быть лимитированы пространством, а также статьи химической и метрологической направленности.
Как описаны применяемые авторами статистические методы? В 80% случаев самыми общими формулировками, с не всегда грамотным написанием названий программных продуктов и операционных систем, наподобие “данные подвергались статистической обработке с помощью пакета прикладных программ…”. 10% авторов явно сообщали только о применении t критерия Стьюдента, 10% указывали на применение и других статистических процедур, в частности непараметрических методов. Надеяться на корректный анализ данных во всех случаях применения статистики “без опознавательных знаков” не приходится. Встречались курьезы, например: выявлена логнормальная форма распределения показателей, приведены графики распределения и далее сравнения выборок проведены по критерию Стьюдента.
В десятке работ встречались множественные сравнения, как в несвязанных, так и в связанных группах, и только в одной из них указано на применение непараметрического дисперсионного анализа Краскела-Уоллиса.
Чрезвычайно бедно представлены работы с многомерными методами статистики. Обнаружено 5 статей с применением дискриминантного, кластерного и множественного регрессионного анализа. К сожалению, авторы не обосновывали уместности использования линейных моделей.
Значительное количество лабораторных тестов дают дихотомический ответ: есть или нет возбудитель инфекционного заболевания, опухолевые клетки и т.п. Сложилось впечатление, что такие данные вообще не подвергались статобработке.
Форма выражения данных в подавляющем большинстве случаев (90%) M±m, реже M±σ. У нескольких авторов даже качественные бинарные данные представлены в такой форме. У большинства авторов m — ошибка среднего, хотя об этом нигде в тексте не сообщается. У некоторых при том же обозначении m – среднеквадратическое отклонение, о чем можно судить по соизмеримости или даже превосходстве m над M. Таким образом, несмотря на существующие в литературе рекомендации по обозначениям статистических показателей (m – ошибка среднего, s – среднеквадратическое отклонение выборки) и уместности приведения той или иной описательной статистики, ясности и однозначности в медицинских публикациях нет. В ряде статей приведены в дополнение к “традиционной” форме выражения результатов и диапазоны рассматриваемых величин, правда, без указания min-max или квантилей. Некоторые авторы представили то или иное графическое выражение вариационных рядов. В 2х статьях приведены медианы.
Насколько фатально некорректное применение параметрических методов статистики, в частности столь популярного t критерия Стьюдента? По нашим наблюдениям, близкие к гауссовым формы распределения показателей метаболизма, иммунного ответа и др. чаще встречаются у здоровых людей в контрольных группах. Даже при самых незначительных патологических состояниях возрастает дисперсия показателей и изменяется их форма распределения, что делает применение t критерия неприемлемым. С биологической точки зрения происходит переход с нормальной системы регулирования гомеостаза на аварийную. В ряде случаев единственными отличиями “больных” и “здоровых” групп являются только формы распределения исследуемых показателей (не все в живой природе подчиняется концепции сдвига!), что может иметь самостоятельный клинический и биологический интерес.
Отметим, что ряд лабораторных показателей, например, уровни общего иммуноглобулина E, опухолевых маркеров, антител к возбудителям инфекционных заболеваний в сыворотке крови и у практически здоровых людей имеют асимметричную со сдвигом вправо форму распределения. Еще больше внимательности в оценке биологической вариации требуется от исследователя при изучении таких биологических жидкостей как – ротовой жидкости, семенной плазмы, пунктатов кист и т.п.
В случае достаточно больших (по медицинским меркам) выборок – от 100 наблюдений и более и умеренной асимметрии распределений применение критериев Стьюдента и Манна-Уитни-Вилкоксона дают схожие результаты относительно средних тенденций в сравниваемых выборках. Это значит, что читателю научных статей не нужно огульно отбрасывать все достигнутое с помощью критерия t Стьюдента, достаточно критического анализа цифр и достигнутых уровней значимости. (А “писателю” стоит все-таки двигаться вперед и применять адекватные методы математической обработки. Ведь нет сомнений в необходимости перехода от ручных лабораторных методик к автоматизированным, хотя грубые патологические состояния и “по старинке” можно диагностировать.)
При трудоемких, дорогостоящих исследованиях или нетипичных случаях заболевания небольшие выборки в 20-30, а то и 10-15 наблюдений не редкость. В таких случаях некорректное применение t критерия Стьюдента может привести к “ложнозначимым” результатам за счет большого вклада выпадающих значений на среднее в группе (конкретнее на xi/n). Подобную картину можно наблюдать не только при анализе собственных лабораторных данных, но и при моделировании на компьютере асимметричных распределений, например, логнормального или гамма с помощью генератора псевдослучайных чисел и последующем сравнении выборок, взятых из заведомо одной генеральной совокупности.
Попробуем взглянуть на проблему с другой стороны. С каким математическим багажом начинает свою работу аспирант, ординатор, соискатель, возможно, с практическим опытом и зрелыми клиническими идеями? С полугодовалым курсом высшей математики, оторванным от практических задач и успешно забытым с первого курса и элементами статистики из курса социальной гигиены. В отличие от студента-биолога классического университета, который выполнял курсовые и дипломные работы и анализировал полевой или лабораторный экспериментальный материал в рамках учебной программы, увлеченный наукой студент-медик мог заниматься этим лишь факультативно. Единичные лекции для аспирантов по математико-статистической обработке медицинских данных могут лишь дать толчок к самостоятельному изучению и применению статистических процедур.
Источник знаний, как известно, книга. Заглянем на полки одной из ведущих книготорговых фирм г. Самары. Свыше сотни книг по статистике можно найти в разделах: экономика, финансы, маркетинг, менеджмент, социология, психология и лишь единичные по медицине. Последние, вероятно по своей малочисленности, не сгруппированы в один раздел медицинской статистики, а разбросаны по направлениям: биохимия, лабораторная диагностика, организация здравоохранения. Большинство книг с теоретическим обоснованием тех или иных статистических подходов без базовой математической подготовки изучать затруднительно. А книги по практическому применению статистики в экономических или общественных науках, содержат не показательные для врача примеры. И остается врачу-исследователю изучать математические методы в биологии и форму описания результатов по публикациям в научных журналах и диссертационных работах своих коллег.
Как нельзя научиться лечить только по книгам, как и обрабатывать данные и, главное, грамотно интерпретировать полученные цифры нельзя без практической деятельности. По нашему опыту, большинство молодых ученых медиков за время аспирантуры успевает усвоить только азы статобработки и применяют их для описания данных и подтверждения гипотез, сформированных интуитивно. Описания групп больных и здоровых ведутся с позиции сдвига показателей: в одной группе уровень больше, в другой – меньше. На этом основании даются практические рекомендации целесообразности практического применения лабораторных тестов. Анализ взаимосвязей лабораторных показателей, как правило, ограничивается расчетом парных коэффициентов корреляций в изучаемых группах, многие из которых не легко находят биологическое объяснение. Большинство врачей не осознает необходимости рассматривать частные и множественные корреляции вследствие недостатка статистических знаний.
Упомянем вкратце и менее массовые ошибки, сложности, недопонимания, встречавшиеся в нашей практике: особенности множественных сравнений; особенности интерпретации различий в связанных и несвязанных выборках; различия между клинической и статистической значимостью (например, в популяционных исследованиях экологически неблагополучных регионов небольшие различия в лабораторных показателях оказываются статистически значимыми); ретроспективный анализ лабораторных данных, полученных с помощью различных тест-систем.
Итак, несмотря на постепенную компьютеризацию медицины и наличие коммерческого статистического программного обеспечения, уровень использования достижений математической науки в медицине, в частности в лабораторной диагностике, остается невысоким. Широко применяются не самые эффективные для биологических показателей описательные статистики, необоснованно мало публикаций с системным подходом и многомерными методами анализа и моделирования.
Каковы первоочередные задачи в совершенствовании математико-статистической обработки медицинской информации? Преодоление статистической безграмотности в медицине и имеющихся стереотипов в анализе лабораторных данных;создание в биомедицинских НИИ лабораторий биостатистики; применение адекватных математических моделей и статистических методов; комплексное восприятие человеческого организма; статистическое моделирование состояния здоровья отдельного человека и общества в целом.