16 янв. 2013 г.

Статистика голосований в Госдуме (1) - первые результаты

Когда в Государственной Думе принимался печально известный анти-Магнитский "закон Димы Яковлева",  многие обратили внимание на то, как персонально голосовали депутаты за этот закон. Многие СМИ и интернет-ресурсы писали об этом - кто и как проголосовал, поименно. Напомню, что к третьему, то есть финальному чтению этого законопроекта, противников осталась всего 7 человек из 448 имеющихся в наличии депутатов, то есть всего лишь 1,5%. Вот их имена:

  1. Алферов Жорес Иванович (КПРФ)
  2. Гудков Дмитрий Геннадьевич (Справедливая Россия - СР)
  3. Озеров Андрей Александрович (Справедливая Россия - СР)
  4. Петров Сергей Анатольевич (Справедливая Россия - СР)
  5. Пономарев Илья Владимирович  (Справедливая Россия - СР)
  6. Резник Борис Львович (Единая Россия)
  7. Смолин Олег Николаевич (КПРФ). 
Меня, честно говоря, удивила редкая степень единодушия наших народных избранников в отношении явно неадекватного закона, принимаемого с необычайной скоростью. Сразу же был понятен и огромный общественный резонанс. В любом случае, в России явно не 1,5% противников этого закона, а гораздо больше. Тем не менее, депутаты проголосовали именно так.  

Поэтому я решил посмотреть на то, как вообще голосуют наши депутаты. Хотя я не слишком слежу за политикой и не смотрю ТВ, но у меня были давно смутные догадки о том, что о чем говорят депутаты и то, что они делают  - это довольно разные вещи. К примеру, хорошо известно, что ЛДПР хотя и имеет свое номинально независимое мнение и крикливого лидера, по факту практически всегда выступает сторонником партии власти. Но одно дело - подозревать, другое дело - смотреть на ситуацию объективно, на данных. 

Это была довольно давняя идея, но по каким-то причинам несколько лет назад я не смог найти информации по этому поводу. Возможно, просто был невнимателен. Когда принимался "закон Димы Яковлева" я решил проверить сайт Госдумы еще раз и был приятно удивлен. Благодаря на удивление квалифицированному ИТ-персоналу аппарата ГД, за любым законотворческим телодвижением довольно легко и удобно смотреть. 
Во первых, есть "Система анализа результатов голосований на заседаниях Государственной Думы", на которой собственно можно найти результаты голосований по тому или иному вопросу. Для быстрой проверки результатов голосований - самое то. 
Во вторых, есть "Автоматизированная информационная система «Законопроект»", в которой можно получать автоматизированным способом (API) множество интересной информации в удобном формате, в первую очередь, списки принятых законопроектов за тот или иной период времени. 
В третьих, есть "Автоматизированная система законотворческой деятельности", в которой удобно смотреть любые телодвижения и хронологию событий по любому законопроекту, включая дополнительные материалы такие как пояснительные записки к законопроектам. Вы не поверите, но порой там встречаются абсолютные шедевры бюрократической мысли и канцелярского языка и чудеса логики! 

Когда я посмотрел на это все, то понял, что эта информация заслуживает того, чтобы ее аккуратно и бережно собрать и проанализировать. Вообще эта тема для отдельного большого исследовательского проекта. В США есть отличный проект voteview.com, на котором ученые в области политической экономии Кит Пул (Keith T Poole) и Говард Розенталь (Howard Rosenthal) собирают, анализируют и разрабатывают новые методы анализа данные по результатам голосований в Конгрессе и Сенате США. 
С помощью подобного анализа можно ответить на довольно любопытные вопросы. К примеру, насколько вообще поляризирована наша Дума. Это вообще место для дискуссий и различных мнений или мнение может быть только одно? Кто оппозиционных фракций и насколько оппозиционен? Или оппозиционность это только ширма для публики. И так далее. Я буду по мере сил и времени заниматься этим проектом и делиться результатами. За последние несколько дней я успешно решил технические вопросы получения данных с помощью отличного языка для статистического анализа R. Возможно, напишу еще более подробно именно про технические аспекты более подробно для себя и для интересующихся. Впереди - заниматься анализом и интерпретацией полученных результатов. 

Вот некоторые первые результаты. Я посмотрел на результаты голосований наиболее запомнившимся законам 2012 года. Во всех случаях для простоты речь идет о голосовании в третьем, окончательном чтении. 

Закон Димы Яковлева 

Официальное название - О проекте федерального закона № 186614-6 "О мерах воздействия на лиц, причастных к нарушениям основополагающих прав и свобод человека, прав и свобод граждан Российской Федерации"
Результаты голосования по фракциям:
Cтатистика голосовоний по закону Димы Яковлева
 В принципе, можно смотреть и пофамильные результаты, но результаты по фракциям легче визуализировать и воспринимать. Легко видеть, что все фракции поддержали законопроект, "против" голосовали только единицы-еретики. 

Закон о цензуре в Интернете

Официальное название - О проекте федерального закона № 89417-6 "О внесении изменений в Федеральный закон "О защите детей от информации, причиняющей вред их здоровью и развитию" и отдельные законодательные акты Российской Федерации" (по вопросу ограничения доступа к противоправной информации в сети Интернет)
Результаты голосования: 
Статистика госолованя по закону о цензуре в Интернете
Как легко увидеть, закон принят единогласно - против нет вообще ни кого! У депутатов Госдумы нет совершенно никаких сомнений. 

Закон об ужесточении наказаний за митинги

Официальное название - О проекте федерального закона № 70631-6 "О внесении изменений в Кодекс Российской Федерации об административных правонарушениях и Федеральный закон "О собраниях, митингах, демонстрациях, шествиях и пикетированиях" (в части уточнения порядка организации и проведения публичных мероприятий, прав, обязанностей и ответственности организаторов и участников публичных мероприятий)
Результаты голосования: 

Статистика голосовия по закону об ужесточении наказаний за митинги
О, наконец-то возникли несогласные в лице КПРФ и ЛДПР. Справедливая Россия не голосует вообще, хотя три человека проголосовали "за" вместе с Единой Россией (Митрофанов, Зотов, Лакутин). 


Закон об иностранных агентах

Официальное название: О проекте федерального закона № 109968-6 "О внесении изменений в Кодекс Российской Федерации об административных правонарушениях" (в части установления административной ответственности за нарушение законодательства, регулирующего деятельность некоммерческих организаций, выполняющих функции иностранного агента)
Результаты голосования: 
Статитистика голосовия по закону об иностранном агенте
И снова редкое единодушие - против только справороссы, да и то - не все. КПРФ и ЛДПР слились в едином порыве в борьбе с иностранными агентами. 

Как я говорил, я предполагаю получить агрегированную картину по результатам всех голосований Думы 6 созыва (можно посмотреть и предыдущие созывы) и посмотреть, что получится. Пишите, если возникнут вопросы или вспомните какой-нибудь яркий законопроект, который заслуживает отдельного внимания. 




13 янв. 2013 г.

Последнее прочитанное - "The Signal and the Noise: Why So Many Predictions Fail — but Some Don't" by Nate Silver

Решил написать про впечатления про последнюю прочитанную книгу . В основном, для того, чтобы немного навести порядок в собственной голове и закрепить впечатления от прочитанного. Давно себя поймал на мысли о том, что если читать много книг, то через некоторое время большинство из них превращается в один большой комок  разодранных впечатлений и мыслей. Поэтому надо как-то "разгружать" себя.
Теперь о книге. Называется она в американском стиле довольно длинно -
"The Signal and the Noise: Why So Many Predictions Fail — but Some Don't". Написал ее Нейт Сильвер (Nate Silver). В США Нейт Сильвер стал широко известен в первую очередь тем, что  смог правильно спрогнозировать победителя по всех штатах в ходе президентских выборов 2012 года. Об этом довольно много писали, что прибавило и книге, и ее автору популярности. Сама книга вышла совсем недавно, в конце сентября 2012 года. Что удивительно, стала довольно популярной для подобного рода литературы. Сейчас она занимает 32 место в списке бестселлеров Амазона и держит прочное место в разделах "Популярная экономика", "Технологии" и "Математика". Причем у нее достаточно высокий рейтинг на Амазоне - 4.3 из 5.
Сразу скажу, что мне книга понравилась. Если вкратце, то она научно-популярно описывает статистические модели в разных областях человеческой жизни, начиная от экономики до шахмат и "птичьего гриппа". Она рассчитана на широкую аудиторию, поэтому никаких особых требований к читателю в виде пройденного курса по статистике или математическому анализу,  она не предъявляет. В ней нет ни одной формулы, только доступные графики. И это конечно большой плюс автору, который умеет удивительно легко и понятно объяснять сложные вещи. Судя по всему, именно поэтому она взлетела в списки бестселлеров Амазона. Вообще стиль изложения мне напомнил другого отличного автора, пишущего на финансово-экономические темы для широкой аудитории - Майкла Льюиса (Micheal Lewis), автора таких книг, как "Liars Poker", "Moneyball" (да именно, тот фильм Moneyball, в котором снялся Бред Питт) и "Boomerang. Причина популярности книг Майкла Льюса и Нейта Сильвера (хотя он и написал пока единственную книгу) заключается в том, что авторы сочетают два начала  - отличный и доступный стиль изложения и глубокое понимание тех вещей, о которых они пишут.
Нейт Сильвер в разное время занимался тем, что разрабатывал систему прогнозирования будущей успешности молодых игроков в бейсболе, зарабатывал на жизнь, играя в интернет-покер и создал систему прогнозирования результатов политических выборов в США на основе агрегирования результатов различных опросов. Как я говорил, именно благодаря успехам в прогнозировании выборов он и стал широко известен и получил работу штатного блоггера в New York Times.  Поэтому разделы, которые посвящены прогнозированию в бейсболе, покере и политике - лучшие в книги. Вообще, сама книга разбита на главы, в каждой из которых Нейт рассказывает о статистических моделях в какой-либо одной области.
Я видел несколько не очень положительных рецензий на книгу от экономистов, которые критикуют Нейта за главу, в которой он описывает причины финансового кризиса 2007-2009 годов. Он пытается уместить рассказ о причинах кризиса, и рассказы про модели рейтинговых агентств и ненадежность экономических прогнозов в одну главу. Все это смотрится сваленным в одну кучу. Сказывается, видимо, и то, что у самого Нейта не было собственного опыта в области финансовых моделей. И он, судя по всему, почему-то не стал общаться с людьми из этой области - по крайней мере, я не припоминаю прямых цитат в "экономической" главе. Хотя в главах, в которых он рассказывает про модели прогнозирования погоды и климатические модели, прогнозирование землетрясений, распространение инфекционных заболеваний - в тех областях, в которых у него тоже нет своего опыта, он основывается на общении и консультациях со специалистами из этих областей. Мой совет - лучше пропустить первую главу "A catastrophic failure of prediction". К ней можно вернуться, прочитав всю книгу, если возникнет желание. К тому же экономистов -  за прогнозы "в молоко" - Нейт еще покритикует в последующих главах.
Еще одна рецензия, которую видел, укоряет Нейта за слишком вольное трактование "байесовского подхода". С этим действительно есть некоторые сложности. Еще в предисловии Нейт сообщает о том, что он является горячим сторонником байесовских методов в статистике. Но возвращается к описанию байесовских методов и собственно самой теоремы Байеса только в 8 главе, описывая подходы, которые использует профессиональный игрок в тотализатор на результаты баскетбольных матчей. До этого времени - речь просто об описании статистических моделей и как они используются в реальности. Постороннему человеку может быть непонятно при чем тут вообще Байес.
Ответ автора на вопрос, который поставлен в название самой книги, в упрощенном варианте выглядит так - байесовский подход дает лучшее качество прогнозов. Тем не менее, описание байесовского подхода для спортивных моделей и покера является одним из лучших "простых" введений в эту тему, на мой взгляд. Для серьезного и осмысленного изучения темы байесовских методов я рекомендую другую книгу -
"Doing Bayesian Data Analysis" (John Kruschke). У Нейта - хорошее общее описание, как байесовские методы используются в современных моделях, но для того, чтобы "сделать" что-то самому, нужно читать дальше другие книги.
Резюмируя, книгу "The Signal and the Noise: Why So Many Predictions Fail — but Some Don't" я рекомендую всем, кто не засыпал на университетском курсе мат. статистики :) Вам понравится! 

10 янв. 2013 г.

Про аварийность на дорогах (1). Ищем источники

С недавних пор заинтересовала тематика, связанная с безопасностью на дорогах. Регулярно случаются резонансные происшествия, которые приводят к оживленному обсуждению в "интернетах", активности наших государственных деятелей, перетряске системы ГИБДД и прочим "организационным выводам".
К примеру, известное "ДТП на Минской" в прошлом сентябре - пьяный водитель наехал на автобусную остановку, погибли пять человек, в том числе трое детей. После этого стали говорить об ужесточении наказания за вождение в пьяном виде. Уже через несколько недель премьер-министр Медведев выступил с известным видеообращением на фоне отличного автомобиля BMW X5 и предложил сажать до 15 лет и ввести штрафы до 500 тысяч рублей (для Москвы) и до 250 тысяч для регионов. Если вспомнить метания с введением "промилле", такой же быстрой его отменой, то все это воспринимается очень странно.
Для меня это выглядит странно потому, что если серьезно воспринимать проблему (а именно - повысить безопасность на дорогах), необходимо хорошо представлять причины происходящего, мотивы участников и воздействовать именно на те точки, которые могут принести максимальную отдачу. К примеру, та же проблема с пьянством за рулем. Кто вообще эти люди, что садятся пьяными за руль? Почему они это делают? Насколько повлияет формальное ужесточение наказания на их мотивы? На что лучше делать приоритет - на ужесточение наказания, "если попался", или на то, чтобы повышать вероятность неотвратимости "попадания". К примеру, во многих европейских странах "на алкоголь" проверяют не так, как у нас - просто останавливаются весь поток и проверяют всех без исключения. Соответственно, шансов "проскочить" нет, и водители знают об этом.
Насколько необходимо ставить первоочередной приоритет именно на борьбу с "пьянкой"? В ДТП с участием нетрезвых водителей в 2011 году погибло, по данным ГИБДД, 2103 человека. Это очень много, но это всего лишь 7,6% от общего количества людей, которые погибли на дорогах. То есть 92,4% погибли в ДТП, в которых водители были трезвыми. Какова ключевые причины - нарушение скоростного режима, низкая безопасность автомобилей (к примеру, отсутствие подушек), плохие дороги или что-то еще? Все это довольно сложные вопросы, на которые непросто дать ответ. Но если заниматься не дешевым популизмом, а пытаться действительно что-то изменить, то необходимо иметь ответы на них.
Я, как обычно, пытаюсь смотреть на данные и понять что-то из них. Конечно, как и во многих областях, связанных с деятельностью человека, у сугубо количественного подхода есть свои ограничения. Всегда есть особенности сбора и характер данных (к примеру, мы никогда точно не знаем количество людей, которые садятся пьяными за руль, мы можем только опосредованно оценивать через количество ДТП). Любая модель - это упрощение сложной реальности и так далее. Но тем не менее, такой взгляд такой свой угол зрения и позволяет подходить к проблемам с более объективных точек зрения. С недавних пор я пытаюсь собирать и смотреть на цифры и хотя бы немного понять, что из них может следовать.

Ищем источники откровения - органы власти

Первым делом я попытался найти результаты каких-либо количественных исследований на тему дорожной безопасности в России. И с этим оказались проблемы. Формально всей информацией о  зарегистрированных ДТП обладает ГИБДД. В системе ГИБДД есть специальный "Аналитический центр безопасности дорожного движения", который занимается сбором, анализом и интерпретацией имеющейся информации. Однако каких-либо публичных результатов его деятельности мне обнаружить не удалось. Есть презентация этого центра с большим количеством фотографий - в марте прошлого года тогда еще президент Д.Медведев побывал в этом центре. К сожалению, помимо отличных фотографий, содержательных результатов анализа данных от этого аналитического центра я не смог найти. В презентации нашел великолепный слайд №13 под названием названием "Факторный анализ аварийности" с результатами простой линейной регрессии.


Объясняемая переменная - количество ДТП по РФ в целом. Объясняющие переменные - неназванные переменные, закодированные именами А0-А4. Количество степеней свободы - всего лишь 6, так как используются годовые данные за 2005-2010 годы. На первый взгляд смотрится все очень солидно - график, огромная таблица "статистические характеристики" со сложными показателями и цифрами. Однако если присмотреться внимательно к таблице с результатами анализа, то легко увидеть, что все объясняющие переменные являются незначимыми! Об этом  говорит и статистика Фишера. Ценность этой регрессии - нулевая, никакой пользы она не имеет.

В системе МВД обнаружился и целый НИИ - "Научно-исследовательский центр проблем безопасности дорожного движения МВД России", у которого нет даже сайта. Зато обнаружился целый портал - "Портал безопасности дорожного движения (информационная система мониторинга и анализа", почему-то базирующийся на домене prognoz.ru (компания "Прогноз), хотя явно имеет отношение к органам власти. На портале есть довольно интересные региональные данные от ГИБДД. К примеру, можно посмотреть более подробные данные о типах нарушений ПДД водителями и пешеходами, места совершения ДТП чем те, что доступны на самом сайте ГИБДД. К сожалению, в лучших традициях систем, которые строит компания "Прогноз", есть красивые всплывающие диаграммы, но скачать данные для нормального количественного анализа невозможно. То есть выглядит вроде бы красиво, но для серьезной работы использовать данные крайне затруднительно. Еще меня порадовал прогноз с количеством ДТП на период до 2012 года. Прогноз был выполнен в 2007 году, основной прогнозный фактор - объемы финансирования соответствующей федеральной целевой программы и больше ничего :) На самом портале есть только данные, к слову сказать, регулярно обновляемые, но каких-либо аналитических материалов с интерпретацией и анализом этого большого массива, нету.
Система МЧС также имеет специализированную структуру - "Центр мониторинга ликвидации последствий дорожно-транспортных происшествий". К сожалению, материалов с количественным анализом данных по дорожной безопасности так же найти не удалось, зато есть интересные плакаты, которые используются при обучении. К примеру, можно узнать, как лучше тушить автомобиль и извлекать пострадавшего в ДТП с использованием подручных средств. Но в лучших традициях плакаты выложены в маленьких размерах, разглядеть текст очень сложно - от кого прячемся, непонятно.


Кстати, если кто-то знает результаты хороших исследований по теме, буду рад ссылке.