Ответ на пост «Небольшое несооответсвие вам в ленту»
Давайте подумаем головой. Наша физика не знает способов передвижения быстрее, чем скорость света. Если эти объекты действительно существуют, то они действуют на принципах, неизвестных нашей науке. Ибо как эта вшивая тарелка может преодолевать расстояния размером со световые годы? Это раз. Два. Из кое-каких источников известно, что она всегда как бы в тумане, вокруг нее искажаются цвета, создаются непонятные тени. А вот фотка с Самарской Луки 2015 года. Их там полно было, но это просто показательно, я к сожалению мало что сохранил, потому что не собирался никому и ничего доказывать. Есть еще треугольные объекты, но это поделки земных военных, они дергаются и (по слухам) от них фонит радиацией, ибо технология, на которой они построены, косячная. Настоящая тарелка летит стабильно в небе и никуда не дергается, как это показано на видосах с F-18 Hornet. Вторая фотка это тот же объект, но на 15 минут позже.
Вы хотите головоломок?
Их есть у нас! Красивая карта, целых три уровня и много жителей, которых надо осчастливить быстрым интернетом. Для этого придется немножко подумать, но оно того стоит: ведь тем, кто дойдет до конца, выдадим красивую награду в профиль!
Почему левую половину графика на рисунке 34 нельзя изобразить данной частью графика, которая есть абсолютно прямой линией?
Я понимаю про правую половину, а почему нельзя соединить вершины углов каждой "ступеньки" левой половины прямой, а не плавной линией?
Как визуализировать данные? Виды графиков
Данные окружают нас повсюду. Цены на доллар и бензин, количество новорождённых в стране, температура на улице. Цифры сыпятся со всех сторон! Но гораздо приятнее смотреть на красивые картинки, чем на таблицы с числами. Как же красиво отобразить эти данные?
Гистограмма
Представьте, что у вас есть данные по зарплатам всех людей в стране. Это может быть таблица Excel с единственным столбиком. Смотреть на миллионы чисел вам уж точно не хочется! Но интересно разбить людей на категории по зарплате. Берём одну «корзину» и складываем туда все строки таблицы, в которых записано меньше 15,4 тысяч рублей. Во вторую — людей с зарплатой от 15,4 до 21,8 тысяч и так далее. Получим такую картину:
Визуализация от Коммерсантъ, 2017 год. Современные данные можно найти на сайте росстата
Хотелось бы увидеть нормальное распределение — большую часть людей в центре, немного бедных людей (вряд ли можно полностью избавиться от бедности) и богачей по краям:
К сожалению, это не так: левый «хвост» реального распределения тяжеловат. Благодаря гистограмме мы это увидели, дальше осталось лишь думать и делать выводы
Если данных совсем много, можно не визуализировать отдельные «корзины» в гистограмме, а смотреть только на сглаженную кривую (как на иллюстрации выше). Например, можно посмотреть на то, как изменялся доход на душу населения во времени:
Источник – очень интересное исследование
Стоблчатая диаграмма (bar plot)
В прошлом примере у нас было много чисел в одном столбце таблицы. Это было одно большое распределение, которое мы для удобства разбили на «корзины». Но иногда такие корзины есть в самих данных. Например, если бы у нас были данные о количестве людей, работающих в разных отраслях. Тогда мы бы смогли для каждой отрасли высотой столбца изобразить, как много человек в ней трудоустроены. Это и называется столбчатая диаграмма! Как пример – процент использования разных социальных сетей в мире в 2010-2019 годах:
Круговая диаграмма (pie chart)
Иногда данные составляют доли от чего-то целого. В примере выше, все люди, работающие в разных отраслях, в сумме составляют всё работающее население страны. Есть соблазн изобразить такие данные в виде круга и раскрасить секторы в разные цвета. Площадь сектора будет изображать количество людей, работающих в отрасли. Это называется «круговая», а на английском «пироговая» диаграмма. Например, рекомендованная диета:
Но такому соблазну лучше не поддаваться! Круговые диаграммы ужасны. Они красивы, но, как оказывается, наш мозг довольно плохо на вид оценивает площадь. Особенно если для секторов выбраны контрастные цвета или график сделан трёхмерным и под наклоном. Вот отличная иллюстрация того, как непросто оценивать круговые диаграммы:
На первом графике сектора возрастают по площади от красного к чёрному. На втором они почти одинакового размера. А на третьем — наоборот, убывают. Но на первый взгляд диаграммы кажутся почти одинаковыми! Чтобы увидеть различия приходится внимательно в них вглядываться. А мы как раз хотим упростить понимание данных. Сравните с нижней частью рисунка чтобы понять, как просто ту же информацию извлечь из стобликов
Гифка о том, как сделать круговую диаграмму лучше:
Коротко — лучше не использовать круговые диаграммы вообще, если только вы не хотите намеренно запутать людей. Но иногда их использование уместно. Например, мне кажется удобной визуализация места на диске в Ubuntu. Это не совсем классический pie chart, но суть похожа. Можно рассмотреть сколько места занимает каждая папка, а затем её подпапки:
Иногда круговые диаграммы используют с настоящими пирогами, обыгрывая английское название:
Линейный график
Отлично подходит, когда между точками на графике есть какая-то связь. Например, временная. Когда вы можете сказать, что в разных точках что-то растёт или падает, по отношению к предыдущим, это именно тот случай, когда нужно использовать линейный график! Вот, например, график количества смертей от лесных пожаров по годам:
Цены акций, количество денег у вас на счету, количество заболевших какой-нибудь болезнью — всё это можно визуализировать именно так. Иногда для тех же данных используются и другие методы. Например, уже знакомая нам столбчатая диаграмма, где все столбики помещены друг на друга:
Или можно изображать визуализировать данные как площади, помещая их друг на друга:
У этих видов графиков есть свои плюсы и минусы, но не будем останавливаться на них в этой статье. Можете предположить в комментариях, когда такая визуализация будет хорошей, а когда непонятной или некрасивой!
Точечный график (scatter plot)
На русском также называется «диаграмма рассеяния». Этот график помогает понять зависимость одной переменной от другой. Например, по одной оси откладывается площадь дома, а по второй его цена:
Видно, что в целом, чем больше площадь дома, тем дороже он стоит (переменные коррелируют). Визуально видно и исключения: по цене ниже 200 тысяч есть дома с очень большой площадью
Такой вид графика хорош ещё и тем, что он показывает сырые данные, как они есть. Иногда графики отображают только средние значения или разброс точек вокруг средних. На диаграмме рассеяния же мы видим каждый дом в виде точки!
Иллюстрация ниже показывает, почему это может быть важно. У всех графиков на ней одинаковые средние по обеим осям. Более того, на всех графиках одинаковая дисперсия и корреляция между переменными. Не пугайтесь, если не знаете термины, они просто означают разброс данных и связь между переменными
Все эти данные «одинаковые», если смотреть на средние, дисперсию или корреляцию, но благодаря простому графику очевидно, насколько они разные!
Недостаток такой визуализации в том, что она позволяет изобразить только две переменные. Если их в ваших данных три, то можно попробовать построить трёхмерный график. А если четыре? Такое изображение поймут только существа из фильмов Кристофера Нолана. А если переменных десять, то даже они не справятся
Хотя, используя разные цвета и формы точек, всё же можно изобразить на одном рисунке много переменных. На графике ниже изображены данные по возрасту актёров и актрис в фильмах. Каждая точка обозначает возраст главного актёра (по горизонтальной оси) и возраст главной актрисы (по вертикальной). Размер круга обозначает бюджет фильма, а цвета — конкретных актёров
Видно, что в актёры обычно старше актрис. Кажется, что это различие ещё больше выражено в высокобюджетных фильмах. А цвета позволяют проследить карьеру каждого актёра. Целые четыре переменные мы уместили на плоскости! И смогли увидеть в данных много интересного
На этом сегодняшняя подборка завершается. Это были только самые базовые виды графиков. В арсенале аналитика есть также скрипичные графики, «ящики с усами» и многое другое! Если вам понравится пост, то сделаю продолжение :)
Моя группа ВК и телеграм-канал
Немного о лжи и статистике
Я уже писал о том, как нечестные люди могут пользоваться статистикой, чтобы вводить в заблуждение:
Как лгать с помощью статистики
Как лгать с помощью статистики — часть 2
Но на этом хитрости маркетологов не закончились, поэтому перед вами третья часть
Корреляция значит связь?
Если вы не изучали этот вопрос подробно, подумайте, как вы воспринимаете термин корреляция? Его часто используют для того, чтобы показать связь величин. Но правда в том, что корреляция не подразумевает причинно-следственную связь. Она показывает, что две величины изменяются похоже. Связаны ли они, можно только предполагать или доказывать другими методами
Например, представим, что в неком исследовании была выявлена сильная корреляция между временем, проводимым школьниками за видеоиграми, и уровнем их агрессивности. Значит, видеоигры ведут к агрессии?
Нет, не значит! Из одной только корреляции сделать такой вывод нельзя. Можно только сделать несколько предположений:
1. Видеоигры приводят к агрессивному поведению
2. Агрессивные школьники чаще играют в видеоигры — это также может быть справедливо
3. Существует третий фактор, не учтённый в исследовании. Например, дети со строгими родителями могут быть более агрессивными, а дома прятаться в мире видеоигр
4. Связи между параметрами нет, а сильная корреляция — результат случайности
Существуют даже подборки абсурдных корреляций, чтобы показать, что из них не следует причинно-следственная связь. Вот, например, данные по расходам США на науку, космос и технологии в сравнении с уровнем суицидов от удушения. Корреляция 99%
В самом коэффициенте корреляции ничего лживого нет, это чистая математика. Все проблемы появляются при интерпретации его людьми
Скрытие малой выборки за процентами
Хорошая статистика часто требует большого количества наблюдений. Бесполезно делать выводы, основываясь на 2-3 или даже 10 случаях. Но если ваша цель — не строгая научная работа, а суровый маркетинг, то этим можно пренебречь. Но говорить в рекламе, что ваша зубная паста улучшила состояние зубов 3 из 4 человек, не очень эффективно. Зато 75% звучит гораздо лучше!
Такую уловку просто определить, если цифры уж очень круглые: 75, 80, 95 процентов. Но может быть сложнее, если выборка состояла из менее красивого числа — например, шести наблюдений
Маркетинговые графики
Все приёмы, описанные мной в этом и предыдущих постах легко раскусываются людьми, понимающими, как работает статистика. Но они не являются явной ложью: лишь затруднением интерпретации (как отсчёт оси y не с нуля из первого поста) или ошибкой интерпретации, намеренной или случайной. Но мне довелось побывать на бизнес-тренинге, но котором я услышал то, что заставило мои брови поползти на лоб, натянув кожу так, что руки поднялись писать этот пост. Цитата:
Если вы показываете график с доходом вашей компании, то линию через точки можно провести по разному. Можно сделать это плавно или заставить выглядеть чуть выгоднее. А в самом конце, где точки заканчиваются, будет эффектно провести линию вверх, добавив стрелку, чтобы показать, насколько значимым будет ваш рост!
Я даже не мог подумать о такой уловке раньше, потому что это идёт в разрез с миром вокруг меня. В науке за такой график выступающего самого порвут на гистограмму, даже на студенческой конференции. Но на тренинге дальше я ещё не раз наблюдал подобную визуализацию от других людей. Такие вот дела
Если интересны посты об образовании и науке, заглядывайте в мою группу ВК и канал телеграм
Как лгать с помощью статистики — часть 2
Продолжаем разбирать, как можно ввести в заблуждение людей, некорректно используя статистику. Предыдущий пост
Выбор среднего
Часто в новостях и рекламе можно услышать слово «среднестатистический». Но что такое среднее? Существует среднее арифметическое, среднее геометрическое, среднее гармоническое и список можно продолжать! А неподходящий (случайно или осознанно) выбор среднего может существенно исказить результаты
Рассмотрим такой пример. Пусть у нас имеются три человека: бабушка Елена Анатольевна с пенсией 8000, сисадмин Вася с зарплатой 40000 и миллионер Павел Умнов, зарабатывающий в месяц ровно миллион
Если мы попросту вычислим среднее арифметическое, сложив их зарплаты и поделив на 3, то получим, что оно равно 350 тысяч рублей! Осталось обрадовать этой новостью бабушку
На логарифмической шкале эти значения даже не выглядят слишком далёкими друг от друга. Красная линия — среднее арифметическое
Для таких случаев лучше подходит такое среднее, как медиана. Это значение, которое делит все наши данные на две равные части (по количеству). Медианным значением для этого примера была бы зарплата сисадмина Васи — 40000. До неё и после неё находится одинаковое количество людей (по одному). Тогда Васю мы могли бы назвать человеком со среднестатистической зарплатой, всех получающих менее Васи — с небольшим достатком, больше — богатыми
Однако, с помощью медианы можно было бы наоборот скрыть очень выдающиеся (в большую или меньшую сторону) значения
Сложение нескладываемого
Вспомните пятибалльную систему оценивания в школе. Представьте, что семиклассник Данил написал диктант на 5, а его одноклассник Леонардо решил написать его справа налево и получил двойку. Делим 5 на 2 и получаем, что Данил написал диктант в 2,5 раза лучше! Верно?
Неверно. Баллы — это придуманная номинальная переменная, которая выражает цифрами словесные оценки отлично, хорошо и так далее. «Неудовлетворительно» ровно в 2,5 раза хуже, чем «отлично»?
Таким образом, считать средние баллы по оценкам или для каких-нибудь тестов математически не имеет смысла
Предвзятая выборка
По данным интернет-голосования 100% людей пользуются интернетом
Ещё до всякой статистики можно солгать, если неправильно собрать данные. Классический пример — президентская гонка США 1948 года: Дьюи против Трумана. Газета Chicago Tribune сразу после закрытия избирательных участков провела опрос, обзвонив огромное количество людей. А по результатам, предсказывающим оглушительный успех Дьюи выпустила газету с заголовком «ДЬЮИ ПОБЕЖДАЕТ ТРУМАНА». На фото — смеющийся Труман, победитель выборов 1948 года, с этой самой газетой в руках
Что пошло не так? Газета обзвонила достаточное для выборки число избирателей, причём действительно случайных. Неверным был лишь сам подход — телефон в то время не был доступен небогатому населению, основная масса которого и составляла поддержку Трумана
Ещё одним примером являются зарплаты выпускников, обещаемые вузами. В США дело доходило даже до судов — выпускники утверждали, что данные по зарплатам искусственно завышены. Но дело совершенно в другом: просто данными о своём заработке с вузом делятся только люди, довольные им
Ищу зарплату гендиректора по гибкому графику без опыта работы
«Наглядная» визуализация
Есть тысяча и один способ приукрасить данные. Например, наглядно их визуализировать. Это может помочь чтению скучных графиков, а если сделать это с долей хитрости, то и более выгодно их преподнести
Вот график потребления количества пива в США в миллионах баррелей и доли компании Schlitz. Он действительно впечатляет!
Но приведём этот график в более строгий вид: отобразим данные точками и начнём ось y от нуля:
Уже не кажется таким внушительным. При изображении точек графика в виде бочек, люди визуально воспринимают не верхушки бочек, а их объём. А при увеличении стороны бочки в 2 раза объём увеличивается в 8 раз! С таким размахом помогает начинающаяся со 100 ось y
Вот ещё один пример. Замечательная инфографика, которая показывает сколько денег тратится на борьбу с заболеваниями и смертность от них
Идея великолепна. Однако присмотритесь внимательнее к цифрам. Цена при оранжевом круге примерно в 2 раза меньше, чем при розовом. Но розовый круг больше в 4 раза!
Авторы предпочли сделать зависимым от цены радиус круга. Но мы визуально воспринимаем вовсе не радиус, а площадь фигуры! А формула площади круга зависит от радиуса квадратично
Ещё лучше эту инфографику можно сделать, если расположить одинаковые болезни на одной линии. Так выглядит исправленная версия:
Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно
Пример качественной визуализации
На графике размер армии Наполеона. Крайняя правая точка — Москва, откуда начинается отступление, показанное чёрной полосой. К графику отступления также привязан график времени и температуры. Крайне наглядно!
После двух статей на эту тему вот вам задачка: скажите, что не так с этим графиком?
Если интересны посты про науку, заглядывайте в мою группу ВК и канал телеграм
Что надо успеть за выходные
Выспаться, провести генеральную уборку, посмотреть все новые сериалы и позаниматься спортом. Потом расстроиться, что время прошло зря. Есть альтернатива: сесть за руль и махнуть в путешествие. Как минимум, его вы всегда будете вспоминать с улыбкой. Собрали несколько нестандартных маршрутов.