Плохая наука // Некорректные исследования приводят к ложному знанию, а иногда — к гибели людей⁠⁠

Мир каждый день заставляет нас задавать вопросы. Если ответ не удаётся найти в интернете, приходится проводить исследование. В идеале его нужно организовать так, чтобы можно было уверенно сказать: сей факт установлен, гипотеза подтверждена. Собственно, этим научное знание отличается от обыденных рассуждений на кухне. Но бывает, что строгая система проверки научных фактов всё-таки даёт сбой.

Опубликовано в журнале "Кот Шрёдингера": http://kot.sh/statya/241/plohaya-nauka

Автор: Юлия Кондратенко

Иллюстрации: Алексей Таранин

За сотни лет наука как система отработала методы избавления от ошибок, подтасовок, неверных интерпретаций. Тем не менее ошибки случаются. Хорошо, если их отлавливают ещё во время работы или обсуждения на семинаре в лаборатории. Если этого не произошло, некорректные результаты могут «зарубить» до их публикации в научных журналах: там есть правила, по которым всякая статья рецензируется, то есть отправляется на оценку независимым специалистам. Рецензенты могут принять статью, отклонить либо отправить на доработку. Но они тоже не боги и не могут знать всего. Если и они пропускают ошибку, то весь научный мир узнаёт, например, что «скорость активации трансляции РНК-4 вируса мозаики люцерны зависит от длины 3’-нетранслируемой последовательности». Механизм трансляции не шутка, если у вируса он зависит от три-штрих-части, то, возможно, и у остальных организмов аналогично. А это уже переворот в науке молекулярной биологии. Что происходит дальше? Множество людей, работающих в этой области, учтут такую новость, станут проводить исследования, предполагая, что такая зависимость есть. А потом, спустя годы выясниться, что выводы исходной статьи были неверны.

И это самый простой случай — бывает, что некорректно полученные данные на годы тормозят перспективные исследования: понапрасну тратятся горы денег, распространяются заблуждения, и иногда гибнут люди. Какие ошибки при планировании экспериментов допускают даже маститые учёные?

Маленькая выборка

В конце 70-х годов США страдали от сильнейшей нехватки нефти. В этих условиях правительства многих штатов разрешили водителям поворачивать направо на красный свет — это позволяло меньше стоять на перекрёстках и экономить топливо. Сразу возник вопрос: не спровоцирует ли новое правило рост числа аварий? В разных городах стали проводить исследования, сравнивая число дорожных происшествий до и после нововведения. Одним из первых свои результаты представил консультант департамента автомобильных дорог и транспорта штата Виргиния по фамилии Паркер. По его данным, до изменения правил на 20 перекрёстках произошло 308 происшествий, а после нововведения — 337. Разницу консультант справедливо назвал статистически незначимой, а начальник департамента отправил отчёт губернатору, указав, что существенного увеличения числа аварий исследование не выявило.

Конечно, одной работой по такому важному вопросу исследования не ограничились. В следующем году вышла ещё одна статья (19 аварий до разрешения поворачивать на красный и 24 после), а затем — ещё и ещё (287 аварий и 313, 74 и 82, 81 и 87). Все исследования показали, что после изменения правил аварий стало больше. Однако все результаты были статистически незначимыми: различия в числе аварий лежали в пределах ожидаемых случайных флуктуаций.

Новое правило ввели в США почти повсеместно, и вскоре накопилось достаточно данных, чтобы уверенно сказать: частота дорожных происшествий из-за него резко повысилась (почти в два раза). Так почему первые исследования не выявили столь ощутимый эффект? Проблема в том, что не каждая установленная зависимость является статистически достоверной.

Отделить случайность от неслучайности помогают математические критерии. Ещё до начала эксперимента учёный должен выбрать небольшое число (0,05 или меньше), называемое p-value. Это число означает вероятность получить необычный набор результатов в самом обычном и предсказуемом эксперименте. Например, если мы бросаем монетку десять раз и получаем только четыре решки, у нас недостаточно данных, чтобы сказать, что у монетки смещён центр тяжести, вот, если бы подбросили монетку тысячу раз и выпало бы четыреста решек, то можно было бы говорить о закономерности. Отклонение от ожидаемого нейтрального результата может быть слишком маленьким, чтобы отличить его от случайности.

С небольшой вероятностью экзотические данные можно получить в любом эксперименте. P-value выбирается по правилам, принятым в данной области работ, — для этого есть специальные таблицы. Если выбрано очень маленькое значение p-value, то меньше шансов получить ложноположительный результат, то есть увидеть закономерность там, где её нет («ошибка первого рода»). Но выбирать слишком низкое значение тоже нельзя: можно ошибочно принять существенное различие за случайность и совершить «ошибку второго рода».

Что бы быть уверенными в том, что выявленная закономерность действительно существует, а не является просто погрешностью, разработан мощный математический аппарат. Существует, например, больше десятка статистических критериев, позволяющих определить подтвердилась гипотеза или нет: критерий Пирсона, критерий Колмогорова, Z-тест, U-критерий Манна-Уитни, критерий Уилкоксона, t-критерий Стьюдента и так далее.

Результаты, полученные на маленьких выборках, не позволяют ни подтвердить, ни опровергнуть гипотезу. Так было с первыми исследованиями поворотов на красный свет: статистически значимый эффект обнаружен не был, но авторы не имели права заявлять, что его нет. Небрежность со статистикой может стоить человеческих жизней.

Правый поворот на красный свет сейчас запрещён в большинстве стран с правосторонним движением. Но не в США.

Нет контрольного эксперимента

В 1998 году в авторитетном медицинском журнале Lancet вышла одна из самых печально знаменитых научных работ — исследование Эндрю Вейкфилда и группы его коллег: комплексная прививка от кори, свинки и краснухи может вызвать аутизм у детей. Авторы опросили родителей двенадцати детей с симптомами аутизма и выяснили, что у восьми из них заболевание проявилось вскоре после вакцинации, до которой они были здоровы. Кроме того, у детей обнаружились повреждения стенки кишечника, и авторы предположили, что аутизм, вызываемый прививкой, особенный и характеризуется ещё и специфическим заболеванием пищеварительного тракта. На пресс-конференции, предшествовавшей публикации работы, Эндрю Вейкфилд предостерёг родителей от использования этой вакцины.

Его выступление вызвало настоящий взрыв паники по всему миру, развитие движения антипрививочников и, как следствие, вспышки кори, которая до этого считалась практически побеждённой болезнью. С тех пор выводы Вейкфилда опровергло множество исследований, в том числе весьма масштабных. В результате журнал Lancet в 2010 году отозвал скандальную публикацию. До сих пор многие родители боятся, что из-за прививок у детей разовьётся аутизм, а движение антипрививочников живёт и здравствует.

Работа Вейкфилда — классический пример отсутствия контрольного эксперимента. Контроль — это опыт, который должен подтвердить, что наблюдаемый эффект объясняется именно исследуемыми причинами. В нём всё должно быть так же, как и в основном эксперименте, за исключением этой причины.

Допустим, вам пришла в голову гипотеза: после прослушивания классической музыки коровы дают более высокие удои. Чтобы это проверить, нужно взять две группы коров одной и той же породы, возраста и массы, с примерно равными удоями до начала эксперимента. Обе группы нужно помести в абсолютно идентичные стойла и кормить одной и той же пищей. У этих двух групп всё должно быть одинаковым, кроме одного — одним дают слушать Баха с Бетховеном, а другим нет. И, если у экспериментальной группы (те, где была музыка) удои окажутся выше, чем у контрольной (которую не подвергали воздействию), то можно говорить о существовании зависимости.

Вейкфилд исследовал детей с аутизмом и предположил, что их болезнь вызвана прививкой. В этом случае контрольную группу должны были составить дети, не получали прививку. Если среди них количество аутистов оказалось бы меньше, то это свидетельствовало бы в пользу выводов Вейкфилда. Но это не было сделано. Последующие исследования других учёных поставили данные о связи прививки и аутизма под сомнение.

Нарушение чистоты эксперимента

В 2012 году журнал Food and Chemical Toxicology опубликовал статью Жиль-Эрика Сералини, в которой утверждалось, что потребление генетически модифицированной кукурузы вызвало рак у подопытных крыс. Это была не первая работа, в которой учёный указывал на вред ГМО, но к новой статье прилагались ужасающие фотографии крыс с огромными опухолями, моментально разлетевшиеся по Сети и напечатанные во множестве газет.

Однако сразу после публикации на автора посыпались вопросы. Главный из них: почему Сералини использовал линию крыс, склонную к заболеванию раком? Сералини проводил опыты на крысах Sprague-Dawley, известных своим спокойным характером, удобством в обращении, а также предрасположенностью к онкологическим заболеваниям. По данным одного из исследований, у самцов этой линии вероятность развития опухолей в нормальных условиях составляет 80%, у самок — 70%. Средняя продолжительность жизни мышей этой линии два года, и именно столько длился эксперимент Сералини — за это время у большей части подопытных животных по естественным причинам развился рак.

Учёный включил в рацион крыс трансгенную кукурузу, причём у одной из групп её доля в рационе была больше, у другой меньше. Контрольная группа крыс эту кукурузу не употребляла вовсе — и опухоли у них развивались реже, а смертность была не такой высокой. Но всё же разница между группами в основном и контрольном экспериментах была небольшой, её вполне можно было объяснить случайной флуктуацией. Подтверждалось это предположение и отсутствием зависимости между дозой ГМО-кукурузы в пище животного и риском возникновения опухоли: у крыс, в рационе которых трансгенов было меньше, опухоли развивались чаще, чем у грызунов, получавших больше кукурузы.

Вскоре Сералини опубликовал в том же журнале статью с оправданиями, но ему не удалось убедить научное сообщество в корректности своих экспериментов. В 2013 году Food and Chemical Toxicology отозвал его скандальную работу, несмотря на бурные протесты автора. Интересно, что год спустя это исследование принял к публикации другой, значительно менее престижный журнал. Работу даже не стали повторно отправлять на рецензирование, раз уж она однажды его прошла. Действия редакторов этого журнала вызвали в научном сообществе недоумение.

Исследование Сералини, конечно, принесло много вреда, внушив людям страх перед генетически модифицированными продуктами. Но, как ни странно, был и положительный эффект. Во-первых, эта история в очередной раз привлекла внимание к проблемам системы рецензирования, которая способна пропустить такие некачественные работы. Во-вторых, завязалась плодотворная дискуссия между учёными и институтами контроля безопасности потребителей. Они трогательно сошлись во мнении, что дизайн эксперимента некорректен. Если бы каждой научной работе уделялось столько внимания, учёным пришлось бы научиться ставить образцово-показательные эксперименты.

И до, и после знаменитой публикации Сералини было опубликовано множество работ, опровергающих связь между употреблением генетически модифицированных продуктов и риском возникновения рака. Согласно исследованиям, ни у самих животных, употреблявших ГМО, ни у их потомков вплоть до пятого колена никаких нарушений не возникало.

Неподходящие методы

Примета нашего времени — повсеместное распространение гаджетов, без которых жителя развитых стран уже невозможно представить. При этом у нас до сих пор нет полной уверенности, что частое использование мобильного телефона не вредит здоровью. Причина всё та же: корректный эксперимент поставить сложно, а корректный эксперимент на людях — ещё сложнее.

Сотовые телефоны излучают волны в радиочастотном диапазоне. Их энергия слишком мала, чтобы повредить ДНК, но всё-таки когда мобильник находится близко к телу, какое-то излучение нашими тканями всё-таки поглощается. Не может ли частое использование мобильного телефона спровоцировать рак? Было проведено много исследований, в том числе довольно масштабных… и у всех были недочёты, из-за которых мы не можем быть полностью уверены в безопасности мобильных телефонов и безбоязненно разговаривать по ним три-четыре часа в день.

В ходе международного исследования Interphone было опрошено 10 000 жителей из 13 стран; у половины респондентов опухоли были, у половины нет. Участники эксперимента рассказали, как давно они пользуются телефоном, как часто и сколько в среднем длится звонок. Исследование не выявило связи между этими параметрами и риском развития рака. Тем не менее выстроенные по этой схеме эксперименты многим кажутся неубедительными, ведь информация, на которую они опираются, воспроизводится по памяти. Искажения возникают и из-за того, что больные раком люди начинают искать причину своего заболевания, и им может показаться, что они действительно слишком много разговаривали по телефону.

Модель, использованная учёными из Дании, основана на более объективных принципах: авторы в течение многих лет получали данные о состоянии здоровья группы испытуемых. Такой дизайн эксперимента лучше подходит, когда нам нужно понять динамику какого-то процесса: вот пользуется человек телефоном, пользуется, и в какой-то момент у него развивается рак. Но, к сожалению, исследователи лишь узнавали, есть ли у респондента телефон, а ведь это не гарантирует, что он вообще его использует. И никакой информации о том, как часто участники эксперимента пользовались мобильными. Как бы то ни было, связь между наличием телефона и шансом заболеть раком не обнаружена.

Исследования третьей группы учёных — из Швеции — включали данные не только для мобильных телефонов, но и для стационарных, потому что руководитель группы и их считал опасными. Эти исследования одни из немногих, в которых утверждается, что связь между телефоном и раком всё-таки есть. Однако они тоже вызывают сомнения: количество опухолей мозга в Швеции в те годы не выросло, несмотря на взрывное распространение мобильных телефонов.

В подавляющем большинстве работ связь между использованием мобильного телефона и риском развития рака не выявлена. Но почему так сложно поставить хороший эксперимент? Проблема в том, что ситуация меняется очень быстро: данные, полученные пять лет назад, уже плохо применимы — сегодня многие чувствуют себя неуютно, если им приходится хотя бы полчаса обойтись без телефона. В то же время опухоли порой формируются десятки лет, и чтобы сказать что-то наверняка, нужны долгосрочные исследования.

Получается противоречие: нужны длительные исследования того, что быстро и масштабно меняется. Авторы Interphone не учли, что использование телефона скоро перестанет быть событием, которое откладывается в памяти (никто ведь не помнит, сколько времени он сегодня сидел на стуле или смотрел в окно), а учёные из Дании не знали, что интенсивность использования мобильных телефонов скоро станет сильно варьироваться. Но именно тогда, когда мир вокруг резко и кардинально меняется, особенно важно ставить аккуратные эксперименты и добиваться чётких ответов на вопросы.

Неподходящие сотрудники

В августе прошлого года стало известно о гибели японского биолога Ёсики Сасаи. Учёный повесился в здании института RIKEN, в котором работал. В предсмертной записке он написал, что устал от несправедливой травли в СМИ и ответственности за происходящее в институте и лаборатории.

Газеты и Сеть действительно много писали о сомнительной публикации, соавтором которой был Ёсики Сасаи. В статье, опубликованной в Nature, описывался новый, очень простой метод получения стволовых клеток из клеток крови — с помощью получасовой инкубации в растворе лимонной кислоты. Публикация вызвала ажиотаж в научном мире. Новый метод позволил бы получать стволовые клетки в огромных количествах — речь шла о прорыве в развитии клеточной биологии и регенеративной медицины. К сожалению, воспроизвести результаты японских учёных другим исследовательским группам не удалось.

Институт RIKEN начал внутреннее расследование, в ходе которого выяснилось, что одна из соавторов публикации — Харуко Обоката — подтасовала рисунки. Ёсики Сасаи курировал работу молодой сотрудницы и нёс ответственность за её действия. Увы, он не мог предположить, что она представит ему фальшивые результаты.

Nature отозвал статью, указав на неточности в подписях к рисункам. После многочисленных сообщений о том, что применить новый метод не удаётся, оставалась надежда, что хотя бы сама Харуко Обоката сможет воспроизвести собственные результаты. Была созвана специальная комиссия. Исследовательнице не удалось продемонстрировать наблюдателям метод в действии, и институт объявил о прекращении попыток подтвердить, что стволовые клетки можно получить описанным способом. Харуко Обоката не стала оспаривать заключение экспертной комиссии о фальсификации.

В своей работе учёные неизбежно полагаются на других людей: коллег, поставщиков реактивов, рецензентов. К сожалению, точных методов для проверки того, насколько человеку можно доверять, не существует. Научное сообщество сейчас достаточно быстро реагирует на некорректные публикации, даже если на первый взгляд там всё в порядке. Чем важнее работа, тем быстрее её результаты пытаются воспроизвести в лабораториях по всему миру. Так что наука может пережить даже крупные ошибки, а вот отдельный человек не всегда.

P.S. Хотим подчеркнуть, что, несмотря на всё вышеописанное, научное знание обладает куда более высоким уровнем точности и надежности, нежели утверждения мистиков, астрологов или просто людей со «здравым смыслом».

Опубликовано в журнале «Кот Шрёдингера» №7-8 (9-10) за июль-август 2015 г.

Наука | Научпоп

7.7K постов78.5K подписчика

Добавить пост

Правила сообщества

Основные условия публикации

- Посты должны иметь отношение к науке, актуальным открытиям или жизни научного сообщества и содержать ссылки на авторитетный источник.

- Посты должны по возможности избегать кликбейта и броских фраз, вводящих в заблуждение.

- Научные статьи должны сопровождаться описанием исследования, доступным на популярном уровне. Слишком профессиональный материал может быть отклонён.

- Видеоматериалы должны иметь описание.

- Названия должны отражать суть исследования.

- Если пост содержит материал, оригинал которого написан или снят на иностранном языке, русская версия должна содержать все основные положения.

Не принимаются к публикации

- Точные или урезанные копии журнальных и газетных статей. Посты о последних достижениях науки должны содержать ваш разъясняющий комментарий или представлять обзоры нескольких статей.

- Юмористические посты, представляющие также точные и урезанные копии из популярных источников, цитаты сборников. Научный юмор приветствуется, но должен публиковаться большими порциями, а не набивать рейтинг единичными цитатами огромного сборника.

- Посты с вопросами околонаучного, но базового уровня, просьбы о помощи в решении задач и проведении исследований отправляются в общую ленту. По возможности модерация сообщества даст свой ответ.

Наказывается баном

- Оскорбления, выраженные лично пользователю или категории пользователей.

- Попытки использовать сообщество для рекламы.

- Фальсификация фактов.

- Многократные попытки публикации материалов, не удовлетворяющих правилам.

- Троллинг, флейм.

- Нарушение правил сайта в целом.

Окончательное решение по соответствию поста или комментария правилам принимается модерацией сообщества. Просьбы о разбане и жалобы на модерацию принимает администратор сообщества. Жалобы на администратора принимает @SupportComunity и общество Пикабу.

dohlokotik

7 лет назад

Я в статистике не очень, но для меня в первом примере все выглядит так, что все 4 проверки показали повышение количества аварий на 10%. Как-то это не кажется мне статистически незначимым числом. Может, стоило еще понаблюдать?

раскрыть ветку

DELETED

7 лет назад

Самая большая проблема многих исследований - невозможность повторного воспроизведения. Помню, рассказывали на лекции про группу исследователей, решивших воспроизвести работы коллег. Если я правильно помню, более чем в половине случаев это оказалось невозможным: результаты упорно не хотели получаться похожими на результаты оригинальных работ

раскрыть ветку

Oduvan44

7 лет назад

Первыми поворачивать направо под красный сигнал светофора, как принято считать, начали американцы еще в первой половине XX века, и с тех пор такая норма действует на большей части территории США. В конце 1970-х годов такие же правила появились в ФРГ. Сейчас поворачивать направо под «красный», к примеру, можно также в Канаде, Южной Корее, Китае, на Тайване, а с начала XXI века (после серии удачных экспериментов) — и на Украине. В Индии и Пакистане, где движение левостороннее, под запрещающий сигнал светофора разрешен поворот налево.

https://lenta.ru/articles/2013/04/09/trafficlights/

раскрыть ветку

DELETED

7 лет назад

Интересная статья, спасибо.
Кггда-то я и сам готовил пару материалов для этого издания...

netko

7 лет назад

Ошибки сами по себе бывают у всех, кто что-нибудь делает. Они не удивительны. Удивляет то, что описанные здесь ошибки кажутся примитивными.