неділя, 4 жовтня 2015 р.

How to Lie With Statistics

Книгу Darell Huff. How to Lie With Statistics також знайшов на цьогорічному Форумі Видавців. Також російський переклад. Дарелл Хафф. Как лгать при помощи статистики. Знайомимось із конспектом.

Цитати на форзаці

Существуют три вида лжи: ложь, наглая ложь и статистика.
- Бенджамин Дизраэли

Придет время, и статистическое мышление станет таким же необходимым качеством для истинного гражданина, как умение читать и писать.
- Герберт Уэлс

К читателю

Цитати

... появилось множество способов "огибать правду" или же показывать реальность таким образом, что даже знающему человеку сложно распознать скрывающуюся за ней ложь.

В искажении статистики заинтересованы все, кто ищет способы исказить общественное мнение и воспользоваться этим в целях общественного обогащения. 
... хочет скрыть настоящие цифры, потому как они отражают крайне неприглядные факты. ... 

... статистика оказывается объектом прямого манипулирования в всех случаях, когда она является частью процессов принятия решений государственного масштаба.

... фонд "Хамовники"...

Книга Даррелла Хаффа хороша... тем, что она учит критическому мышлению, она учит отношению к цифрам не как к "сакральному знанию", а как к инструменту, с помощью которого осуществляется манипулирование нашим мнением.

... важной проблемой существующей практики статистического учета является технологическое отставание совбеменной статистики. В ситуации, когда государство все более автоматизируется и сбор многих показателей не требует выборочных опросов организаций или их тотальной переписи, все острее встает вопрос автоматизации озвлечения статистических данных из государственных информационных систем.

Що зрозумів

  1. Державна статистика недостовірна
  2. Статистика використовується для маніпуляцій
  3. На державному рівні існує технологічне відставання статистики

Що необхідно уточнити

  1. Що ж таке фонд "Хамовники"? Є посилання на їхній сайт http://khamovniky.ru
  2. Хто такий  Бенджамин Дизраэли?
  3. З якого твору взята цитата Герберта Уэлса?

Введение

Цитати

"Графическое представление данных" Уилларла Бринтона.

Средние величины, зависимости, тенденции и графики не всегда есть то, чем кажутся. Подчас в них таится много больше интересного, чем видно на первый взгляд, а иногда и куда как меньше.

Таинственный язык статистики, столь притягательный в условиях культуры, которая ставит во главу угла факты, используют для того, чтобы создавать сенсации, преувеличивать, сбивать с толку и чрезмерно упрощать.

Эта книга - своего рода руководство для начинающих, в котором изложены азы применения статистики в целях обмана.

Полагаю все же, что смогу оправдать ее в манере бывшего грабителя, опубликовавшего мемуары, в сущности представляющие собой учебный курс на тему о том, как подобрать отмычку к замку и научиться ступать безшумно: жуликам и ворам все эти трюки и так давно известны, а порядочные люди должны узнать о них, чтобы уметь защитить свой дом от непрошенных гостей.

Що зрозумів

  1. Необхідно ознайомитись із випадками застосуввння статистики для обману, щоб правильно її застосовувати.

Глава 1. Выборка изначально необъективна

"Средний выпускник Йельского университета 1924 г. зарабатывает $25 111 в год"

.. при первом настороженном взгляде на эту цифру бросаются в глаза две особенности. Сама цифра на удивление точна. И потом, она неправдоподобно велика. Маловероятно, чтобы средний доход любой сколько-нибудь обширной группы был бы известен с точностью до последнего доллара.

Кроме того, этот восхитительный средний показатель рассчитан несомненно, на основании тех сумм, которые, как сообщили сами выпускники Йеля, они зарабатывают.

... где гарантия, что ... все данные, представленные этими выпускниками, соответствуют действительности?

А теперь давайте разберемся в возможной причиной серьезной ошибки: почему эти самые $25111 указываются в качестве среднего дохода неких людей, чей фактический средний доход с таким же успехом может быть и вполовину меньше названной суммы?

... размер дохода вычислен на основе выборки, составленной из всех выпускников, адреса которых были известны и которые ответили на анкету. Репрезентативная ли это выборка? Иными словами, можно ли считать эту группу выпускников равной с точки зрения доходов группе выпускников, не представленных в выборке, то есть тех, чьи адреса не удалось раздобыть, и тех, кто не пожелал заполнить анкету?

Вполне правдоподобной представляется догадка, что найти не удалось имена тех выпускников, кто двадцать пять лет назад покнул стены Йельского университета с дипломом бакалавра гуманитарных наук, но так и не сумел заявить о себе чем-нибудь выдающимся.

... результат выборочного исследования не может быть лучше выборки, на которой оно основано.

Чтобы данные выборочного исследования имели значительную ценность, они должны основываться на репрезентативной выборке, то есть на выборке, из которой устранены все возможные источники предвзятости.

Подвергайте такому осмыслению все прочитанное, и тогда вы сумеете оградить себя от великого множества сведений, не имеющих под собой реальной почвы.

Базовая выборка относится к категории случайной (вероятностной) выборки. Она отбирается произвольным образом из генеральной совокупности, под которой статистики понимают весь обследуемый массив.

Проверить, действительно ли выборка имеет случайный (произвольный) характер, можно с помощью такого вопроса: каждое ли имя или предмет из обследуемой совокупности имеют равный шанс попасть в выборку?

Безупречно случайная - единственный тип выборки, которую можно исследовать при помощи статистических методов с полной уверенностью в надежности результата. Но у нее имеется один недостаток. Получить такую выборку для множества надобностей настолько трудно и дорого, что чисто материальные соображения заставляют отказаться от этой идеи. Более экономической заменой ... будет стратифицированная случайная выборка.

Чтобы получить стратифицированную выборку, вы должны разбить генеральную совокупность на несколько групп (страт) пропорционально известному показателю их распространенности в совокупности.

Как на условиях стратификации получить вероятностную выборку? Самое очевидное решение - сначала переписать всех, кто входит в страту, а затем найти и опросить выбранных из этого списка случайным образом. Но это слишком уж дорогостоящая процедура.

В итоге проведениие опроса сводится к стараниям побороть источники необъективности, и эту битву ведут все до единой почтенные организации, занимающиеся проведением опросов. ... эту битву никто и никогда не выигрывает.

... пример предвзятости, обусловленной некими неизвестными факторами. ... самым сильным действующим фактором будет тенденция, которую никогда не следует сбрасывать со счетов, когда знакомишься с результатами социологических опросов: делание респондента угодить интервьюеру.

... сильнейшая неприязнь к опросам общественного мнения наблюдается в кругах либералов и сторонников левых идей, где довольно-таки прочно укоренилось мнение, что социологические опросы в большинстве своем - подтасовки и надувательство.   

Що зрозумів

  1. Результат вибіркового дослідження не може бути кращим за вибірку.
  2. Базова вибірка випадкова. Перевірка: чи кожний учасник вибірки має рівні шанси попасти у вибірку?
  3. Другий тип вибірки стратифікована випадкова вибірка. Ідеал - виписати всіх, хто входить в страту і вибрати випадково із цього списку.
  4. Особистості опитувача та опитуваного також вносять викривлення в результат.

Глава 2. Грамотно выбранное среднее

Цитати

Когда вам рассказывают, что некое число представляет собой среднюю величину, это мало о чем вам скажет, пока вы не разберетесь, какой из трех основных видов среднего перед вами — среднее арифметическое, медиана или мода.

Если начертить кривую нормального распределения, то по форме она будет напоминать колокол, а среднее арифмети- ческое значение, медиана и мода попадут в одну и ту же точку.

Що зрозумів

  1. Використовують три види середніх значень: середнє арифметичне, медіана, мода.
  2. В нормальному розподілі ці величини співпадають
  3. При нерівномірних розподілах найближча до правди цифра - медіана, а мода показує значення, яке зустрічається найчастіше

Що необхідно уточнити 

  1. Уточняємо у вікіпедії процедуру обчислення моди та медіани

Глава 3. Нюансы, о которых скромно умалчивают

Цитати

... критерий значимости ... способ показать, насколько вероятно, что полученная в ходе испытаний цифра отражает реальный результат, а не что-то случайное.

Если ваш источник сведений сообщает и о степени их значимости, у вас будет более ясное представление о том, насколько эта информация заслуживает доверия.

Есть еще одного сорта нюанс, который предпочитают не указывать, но его отсутствие способно не меньше дискредитировать заявленные данные. Речь идет о размахе исследуемого признака или диапазоне отклонения от указанного среднего.

Этого недоразумения во многом удалось бы избежать, если бы наряду с показателем «нормы» или среднего значения был бы указан диапазон этой самой нормы.

Уж больно это напоминает старое определение лекционного способа обучения: процесс, посредством которого содержание учебника в руках учителя плавно перекочевывает в тетрадь учащегося, минуя сознание обоих.

Не доверянте особо среднестатистическим показателям, графикам и тенденциям, когда вам предъявляют их без тех важных цифр, что могли бы прояснить смысл ...  Допустим, вас устраивает величина среднегодовой температуры 16,1 C.

Но вы рискуете заледенеть от холода или свариться от жары, если не учитываете диапазон температурных колебаний в этих местах. На острове Сан-Николас тем пература колеблется в пределах от +8,3 до +30,5 °С, тогда как в пустыне амплитуда колебаний составляет от -9,4 до +40 C. Все права претендовать на близкий к вышеназванному среднегодовому показателю температуры есть и у Оклахома-Сити — за последние шестьдесят лет он держится в этом городе на уровне +15,6 °С. Но, как вы видите на приведенной ниже диаграмме, за этой комфортной прохладой скрывается амплитуда колебаний в 72,2 °С.

Що зрозумів


  1. Обов'язково розглядати критерії значущості
  2. Крім середніх значень обов'язково визначаємо діапазон розкиду

Що уточнити

  1. Оновити в пам'яті інформацію про критерії значущості

Глава 4. Много шума практически из ничего

Цитати

... единственно правильным будет рассматривать ... результаты ... выборочных исследований не сами по себе, а с учетом размаха отклонений.

... проводить сравнениямежду цифрами, имеющими маленькую разницу, бессмысленно. ... следует постоянно помнить об этом плюсе или минусе, то есть ошибке в ту или другую сторону, даже (или особенно) если ее пределы не указаны. 

Що зрозумів

  1. Усі вимірювання та розрахунки мають похибку. Необхідно враховувати її при порівнянні результатів.
  2. Немає змісту порівнювати близькі величини.

Глава 5. График - лучше не бывает

Цитати

Когда цифры приводить в табличной форме категорически не допускается, а слова, как это нередко случается, бессильны, чтобы в точности обрисовать картину, остается единственный выход — делать рисунки.

Що зрозумів

  1. Маніпуляції із графіками можуть невеликий джиттер перетворити на рідкий ріст.
  2. Уважно дивитися на масштаби графіка, а не тільки на його форму.




Немає коментарів:

Дописати коментар