27 февр. 2013 г.

Работа Государственной Думы РФ в 2012 году


Я уже объяснял, в чем причина интереса к статистике по голосованиям в Госдуме и о том, что планирую собрать и проанализировать не просто результаты голосований по отдельным законопроектам (это и сейчас вполне удобно можно сделать на vote.duma.gov.ru), а собрать и проанализировать достаточно большой массив данных и посмотреть, можно ли извлечь из этого какие-то выводы.
За это время мне удалось написать более или менее полный набор функций для R, которые позволяют собирать данные с помощью API "Законопроект" и самого портала Госдумы. Пока я решил сосредоточиться на результатах голосования за весь 2012 год. Это первый год работы именно Думы шестого созыва.  Год не так давно закончился и имеет смысл хотя бы просто подвести его итоги, чтобы немного понять, что за данные у нас имеются.

Вот краткие итоги работы Государственной Думы РФ в 2012 году по результатам анализа:


  • Дума рассмотрела 888 законопроектов (в  первом и/или втором и/или третьем чтениях).
  • По этим 888 законопроектам было проведено 2395 голосования (Дума провела, конечно, гораздо больше голосований, включая множество голосований, определяющих регламент ее работы, но мы их не учитываем). 
  • Из  2395 законопроектных голосований 1372 голосований (или 57%) завершились положительно, то есть принятием этого чтения или рассматриваемых поправок, а 1023 голосования (43%) завершились отрицательно, то есть отклонением. 
  •  Наиболее активно ГД работала в декабре (469 голосований по законопроектам) и июне (575). Самыми "расслабленными" месяцами были январь-март прошлого года (в среднем, около 70 голосований  в месяц). Видимо, это объясняется тем, депутаты были заняты формированием комитетов и распределением аппаратных должностей.  
График. Распределение голосований в Госдуме по времени в 2012 году 
Источник: анализ по данным Государственной Думы РФ

  • В среднем по каждому законопроекту (из 888) было проведено 2,7 голосования, однако распределение голосований очень своеобразно.  Почти законопроектов (то есть около 67 %) законопроектов рассматривалось только один раз.  
График. Распределение законопроектов по количеству голосований в 2012 году 
Источник: анализ по данным Государственной Думы РФ


  • Самим "голосуемым" законопроектом прошлого года стал проект №70631-6 ( О проекте федерального закона № 70631-6 "О внесении изменений в Кодекс Российской Федерации об административных правонарушениях и Федеральный закон "О собраниях, митингах, демонстрациях, шествиях и пикетированиях" (в части уточнения порядка организации и проведения публичных мероприятий, прав, обязанностей и ответственности организаторов и участников публичных мероприятий). По нему Дума голосовала 389 (!) раз.  
  • На втором месте идет закон "Об образовании" (законопроект № 121965-6) с 89 голосованиями. Ну и на третьем месте - Закон о бюджете, который похоже, не слишком волнует депутатов (или они понимают, что практически ни на что повлиять в бюджете не могут). За бюджет на 2013 год и поправки к нему депутаты голосовали 52 раза. 
  • Достаточно любопытно смотрится распределение голосов, когда Дума голосует "за" или "против" по законопроектым голосованиям. Отклонение поправок происходит по причине отсутствия отсутствия кворума - по этой причине было отклонено 913 голосований из 1023 отклоненных. Остальные отклоненные голосования, как правило, смогли привлечь только несколько голосов (см. красные линии на графике внизу). Зато при положительном  голосовании у депутатов часто наблюдается полное единодушие:  475 голосований из 1372 имели поддержку более чем 90%, а в 71 голосованиях - поддержку более 99% депутатов. 
График. Распределение поддержки в зависимости от принятия/отклонения по голосованиям Государственной думы РФ в 2012 году
Добавьте подпись
Источник: анализ по данным Государственной Думы РФ

Таковы результаты первого взгляда на собранные данные, впереди - более обстоятельный анализ и разбор того, как на самом деле голосуют депутаты Госдумы. 

P.S. Я выложил файл с написанными функциями для R на github, в отдельном репозитарии. Когда оформятся результаты анализа и будут перепроверены данные, они будут выложены там же. Если у кого-то вдруг возникнут вопросы по работе функций - спрашивайте.  




15 февр. 2013 г.

Игра в промилле - про содержание алкоголя в крови водителей

Вчера прочитывая Ъ за утренней чашкой кофе, натыкаюсь на такую новость - В Госдуме предлагают вернуть 0,2 промилле для водителей. Вкратце - депутат "Справедливой России" Антон Беляков предлагает отменить "нулевой промилле". Из статьи непонятно, на сколько эта инициатива пользуется поддержкой хотя бы части депутатов  фракции СР. Вполне возможно, что личный самопиар на животрепещущей теме.
Метания властей со с "промилле" действительно удивляют. Напомню, что в середине 2008 года по инициативе президента Д. Медведева были введены поправки, допускающие содержание алкоголя в крови до 0,3 промилле. Но уже в 2009 году, когда воздействие этой меры на дорожную безопасность было еще совершенно непонятно, Д. Медведев сам раскритиковал свою же инициативу и установил нулевой норматив. После известного ДТП на Минской Д. Медведев предложил закрутить гайки еще дальше - штрафы в 500 тыс. рублей + лишение свободы до 15 лет за ДТП с жертвами. Я уже говорил, о том, что мне кажется, способ "закручивания гаек" не самый оптимальный, а проблему пьянства за рулем не решить показной "казнью" виновников резонансных ДТП.
В качестве побочных последствий в суда появились "кефирные дела", в Москве вдоль дорог висят вот такие вот плакаты (точно видел такой на Ленинградском шоссе):

Я видел разные апелляции в дискуссиях к международному опыту, поэтому решил посмотреть на данные. Это данные ВОЗ за 2007 год по максимальному разрешенному содержанию алкоголя в крови (BAC - blood alcohol content). С тех прошло уже 5 лет, поэтому вероятно, что-то изменилось, но тем нее менее, выборка очень большая. Более того она разделена по группам водителей (обычные-профессиональные водители  то есть водители коммерческого и общественного транспорта, а также новички, которые имеют небольшой стаж).
График. Максимальное разрешенное содержание алкоголя в крови для водителей, 2007
Какие выводы можно сделать? Удивительно, но большинство стран разрешают определенное содержание в крови водителя. В большинстве случаев это 0,5-0,8 промилле, причем есть три страны - ОАЭ, Лесото и Бурунди, в которых разрешено содержание в 1 промилле или 0,01 процента (!). 1 промилле - это средний мужчина после 50-75 г водки, как я понимаю. Всемирная организация здравоохранения официально рекомендует странам устанавливать норматив по содержанию алкоголя в 0,5 промилле и меньше. Эти рекомендации основаны на исследованиях, которые показывают, что после 0,4 промилле относительный риск попадания в ДТП начинает резко возрастать. Вот результат некоторых таких исследований:
Поэтому в установлении норматива по содержанию алкоголя в 0,2-0,3 промилле нет ничего зазорного. Подобный уровень не означает, что можно выпить даже бутылку пива и садиться за руль (это диапазон 0,4-0,5 промилле), но позволяет фиксировать фоновый уровень. Большинство стран именно так и делает.

Те же самые данные из первого графика (для обычных водителей) на интерактивной карте, так как на графике сложно выделить отдельные страны.

Максимальное разрешенное содержание алкоголя в крови для обычных водителей, 2007

//--> -->
а вот и сам законопроект, о котором шла речь. Депутат тоже аппелирует к международному опыту :)

12 февр. 2013 г.

Построение страновых хороплет-карт (choropleth maps) с помощью пакета rworldmap в статистическом пакете R


Довольно часто социально-экономические данные удобно визуализировать с помощью карт. Стандартным является представление в форме так называемых choropleth maps (похоже, на русском они так и называются - хороплет-карты). Хороплет - это такая карта, на которой с помощью визуального оформления (обычно цвета, но может быть и к примеру, точками или линиями разной густоты/толщины) отображается интенсивность какого-либо показателя для географических регионов. Такие карты очень легко позволяют наглядно отобразить данные по большому количеству географических объектов.
Вот для примера такая карта - правда, наглядно? На ней изображена доля курильщиков среди мужчин по почти 150 странам. Создание такой карты в R заняло 8 строк кода, включая загрузку данных из Сети.
Smoking prevalence, males (% of adults)

Как создавать подобные карты?
Существует множество различных вариантов. В принципе, любая ГИС-программа типа MapInfo или ArcGIS умеет строить хороплет, но покупать эти дорогостоящие системы только для того, чтобы рисовать цветные карты, смысла не имеет. Можно рисовать карты хорорлет и в любимом Excel. Существует несколько "рецептов", как можно это делать.  Как правило, они требуют запуска VBA-макроса - для того, чтобы сопоставить исходный показатель с географическими регионами на карте. Еще одно условние - необходимо иметь исходную карту (линии) в графическом формате SVG. Это обычно не проблема, и другие гео-форматы можно тоже преобразовать в графический SVG, но это требует определенных манипуляций Вот один из предлагаемых рецептов, как построить карту хорорлет в Excel. Обратите внимание на то, сколько телодвижений надо сделать для того, чтобы нарисовать достаточно простую карту. Причем если даже процесс автоматизирован при смене данных (то есть, меняешь данные - карта перерисовывается), то при смене самой карты все ломается и требуется "доводка напильником" под новую карту.
 Наконец - обещанное. Конечно, хороплет-карты можно построить в статистическом пакете R. Возможности по работе с гео-данными в R, в том числе и графические, сопоставимы, а в некоторых случаях даже превосходят возможности полноценных ГИС-систем. И все это - в одном флаконе.

Сейчас я расскажу о простом и часто встречающемся случае - визуализация данных по странам как в случае нарисованного выше графика. Как обычно в R, для каждой специальной задачи уже есть созданный кем-то пакет. В нашем случае мы воспользуемся пакетом - rworldmap, созданный и поддерживамый Andy South. Основная его задача как раз в этом - построение хороплет-карт для страновых данных. Фактически этот пакет  - надстройка над другими, которые обеспечивают работу с гео-данными, но нас это не должно слишком волновать. Для нас пакет rworldmap сильно экономит время и строки для построения типовых страновых карт.

Краткая процедура построения выглядит следующим образом:

  1. Получение данных для отображения. В нашем случае мы используем данные из базы данных World Development Indicators (WDI), которую поддерживает Всемирный банк. В этой базе, как обещано, 331 показатель по 221 стране. Возьмем показатель "Smoking prevalence, males (% of adults)", который мне показался достаточно интересным. Загрузим его в R с помощью специального пакета, который носит название "WDI", как и следовало ожидать. Этот пакет позволяет обратиться напрямую к базе данных из R и получить данные сразу в необходимой разбивке "страна"-"год"-"показатель". Можно сразу загружать несколько показатель для диапазона лет для всех или некоторых стран. Очень удобно! В функции WDI() из одноименного пакета я рекомендую использовать параметр extra = TRUE для того, чтобы получаемые данные содержали код страны по ИСО (двух и трехзначный). 
  2. Сопоставление карты и данных. Для этого уже используется пакет rworldmap и его функция с говорящим названием joinCountryData2Map. Здесь все просто выбираем ключ, по которосу мы сопоставляем данные и карту. Это может быть название страны на английском языке, но лучше всего использовать коды стран по ISO (ISO2 или ISO3). Соответственно это параметр "joinCode". 
  3. Выбор показателя, который мы хотим отобразить на карте с помощью функции mapCountryData. Здесь все понятно  nameColumnToPlot соответственно название показателя, который хотим отобразить. Важными являются также параметры catMethod (определяет методы для категоризации данных, то есть деления их на группы одного цвета), а также colourPalette, который определяет цветовую палитру. Для палитры удобно использовать имеющиеся варианты из пакета RColorBrewer. Как выглядят сами палитры удобно смотреть на специальном сайте
  4. Дополнительно. Функция mapCountryData сразу же отображает карту, но если вы хотите внести некоторые изменения - в нашем случае немного поправить легенду с помощью addMapLegend. 
Вот код , который уже нарисует долю курильщиков-женщин по странам мира:

<!-- Styles for R syntax highlighter
require(WDI)
require(rworldmap)
require(RColorBrewer)

smoker <- WDI(country = "all", indicator = "SH.PRV.SMOK.FE", start = 2009, end = 2009, 
    extra = TRUE, cache = NULL)
# получить данные из WDI
fMap <- joinCountryData2Map(smoker, joinCode = "ISO3", nameJoinColumn = "iso3c", 
    nameCountryColumn = "country")
# cопоставить данные с картой по коду ISO3 (трехзначный код страны)
mapParams <- mapCountryData(fMap, nameColumnToPlot = "SH.PRV.SMOK.FE", catMethod = "quantiles", 
    missingCountryCol = gray(0.8), colourPalette = rev(brewer.pal(7, "RdYlBu")), 
    addLegend = FALSE, mapTitle = "")
# добавить легенду
do.call(addMapLegend, c(mapParams, legendLabels = "all", labelFontSize = 0.8, 
    legendWidth = 0.5, sigFigs = 0))

--> А вот и результат его выполнения:
Smoking prevalence, females (% of adults)
По картам можно сразу же сделать несколько наблюдений. Среди мужчин больше всего курят Россия, Китай, Восточная Европа и Малайзия с Индонезией. Среди женщин все по другому - здесь в лидерах жительницы стран Западной Европы (Австрия на первом месте), Чили и  Папуа-Новая Гвинея.

9 февр. 2013 г.

Про безопасность на дорогах (ч. 2). Насколько разные страны отличаются друг от друга?

Первая часть

В первой части я вкратце описал, откуда родилась идея заниматься статистикой безопасности на дорогах и описал некоторые источники, которые мне удалось найти. Во второй части я опишу основные показатели дорожной безопасности (смертности) по разными странам. 
Межстрановой контекст кажется довольно важным для того, чтобы понимать нашу российскую действительность. Аварии и смерти на дороге - это неизбежность, определенное их количество будет происходить всегда, независимо от какие правила принимаются. Можно считать, что есть некий фоновый уровень аварийности, не зависящий от действия властей и принятых правил.
К примеру, если в следующему году население стало перемещаться по дорогам по любым причинам на 10% больше (в терминах совокупного автопробега всех автомобилей), то при прочих равных условиях это приведет к тому, что количество ДТП и смертей на дорогах увеличится на 10%. Этот аспект довольно часто, как мне показалось, упускается из виду при анализе данных. Любые изменения в количестве аварий мы пытаемся соотнести с теми или иными управляющими изменениями - новыми законами, правилами или чем-то, не всегда понимая, что возможно, причины изменений находятся за пределами нашего контроля.
Поэтому необходимо разделить итоговую безопасность на две части: 1 ) определяется некоторыми  внешними причинами 2) факторами, которые также оказывают воздействие на безопасность, но являются управляемыми. К примеру, общее количество автомобилей, которое ездит по дорогам, или их совокупный пробег, относится к первой группе факторов, а размер штрафов или количество сотрудников дорожной полиции - ко второй.
Чтобы выделить именно первую группу факторов полезно обратиться к межстрановым сопоставлениям. Безопасность на дорогах сильно отличаются между странами. Отличаются также и факторы первой и второй групп. Если соотнести внешние причины и результирующие показатели безопасности, можно выделить уровень безопасности, который определяется исключительно ими.  А отклонения от этих значений можно считать, что определяются факторами второй группы.
Для начала посмотрим на сами данные по безопасности по странам. Здесь сразу возникают проблемы. Критерии того, что считается "дорожно-транспортным происшествием" могут сильно отличаться между странами. Более того всегда возникают вопросы о том, какая доля "реальных" ДТП фиксируется в статистике. Поэтому обычно для того, чтобы сравнивать на сколько безопасность на дорогах отличается между разными странами, используют данные по смертности, так как они вполне справедливо считаются наиболее надежными. По международным правилам считается, что человек погиб в ДТП если он погибает в течение 30 дней после происшествия. Соответственно, основным источником информации считаются данные дорожной полиции, которые дополняются информацией из больниц. Есть даже большой специальный большой отчет IRTAD (International Traffic Safety Data and Analysis Group), посвященный тому, каким образом учитываются данные по авариям в разных странах мира.
Посмотрим наконец на данные для стран с населением более 10 млн человек. Это данные за 2007 год (то есть, довольно старые) - последние имеющиеся данные, собранные Всемирной организацией здравоохранения (ВОЗ) по широкому кругу стран.
График. Уровень смертности в ДТП по странам с населением более 10 млн человек, 2007


Видно, что развитые страны имеют уровень смертности около 10 на 100 тыс. населения, развивающиеся страны - в пределах 25. "Худшие" страны имеют показатели смертности в пределах 30 человек и больше.  Обратим внимание на Россию - в 2007 году она находилась в не лучшей компанией - между Замбией и Пакистаном. Однако с тех пор показатели дорожной смертности сильно улучшились. Если в 2007 году это было чуть больше 25 человек, то в 2011 году смертность на дорогах оказалась около 19 человек на 100 тыс. Это все существенно больше, чем показатели большинства развитых странах, то налицо большой прогресс. Мы постараемся разобраться в причинах этого прогресса позже.
Обратим внимание на то, что США имеют относительно высокие показатели дорожной смертности - гораздо хуже практически всех развитых стран. В лидерах - Западная Европа и Япония. Высокое место Кубы, по всей видимости, связано с тем, что в стране совсем не развит автомобильный транспорт (или по крайней мере, был не развит в 2007 году).
Теперь  посмотрим на те же данные на карте мира. Видно, что наиболее удручающая ситуация в африканских странах, а также некоторых странах Ближнего Востока.
Карта. Уровень смертности в ДТП по странам, 2007

Примечание: карта интерактивная. При наведении мышкой на страну показываются значения смертности (чел на 100 тыс. населения) в 2007 году.
Мы посмотрели на межстрановой срез данных - имеет смысл взглянуть и на длинную историю, хотя бы некоторому списку стран (Германия, Франция, Ирландия, Япония, Южная Корея, Польша, Россия, Украина, США). Это максимально длинная история, которую я смог найти.
График. Динамика уровня смертности в ДТП по некоторым странам, 1970-2010
 Хотя в целом по развитым странам уровень дорожной смертности снижается, есть некоторые интересные паттерны. Южная Корея (верхняя зеленая линия) испытала всплеск смертности в начале 90-х годов, которая потом стала снижаться. Данные по Польше показывают аналогичную тенденцию, хотя и с меньшим размахом. По России (я нашел пока данные с 1984 года) также наблюдался всплеск смертности в начале 90-х годов, который достиг сошел на нет к 1997 году, а затем снова пошел вверх. С 2006-2007 годов показатели российской смертности снижаются. Довольно странная тенденция - возможно, это связано с нашими российскими особенностями учета (или недоучета в 90-е годы) - надо будет поподробнее изучить этот вопрос.
Продолжение последует.