26 июня 2014 г.

Обзор книг по R


Давно уже хотел свести и систематизировать книги по R (языку программирования для статистических вычислений), которые прочел/просмотрел за последние 2 года. Возможно, это кому-то покажется полезным. По R выходит действительно огромное количество книг, наверно, больше чему по любым другим подобным продуктам (STATA, eViews, SPSS и другие) вместе взятым. Многие специальные книги по отдельным вопросам статистики приводят примеры, написанные именно на R. Единственная проблема заключается в том, что все книги - на английском языке. Российскими авторами написана пока только одна, насколько я знаю, оригинальная книга по R - я ее не читал и ничего не могу сказать. Но в целом, учите английский язык - это крайне полезно.  

Общие книги по R


1. R Cookbook. Paul Teeetor (2011).  Хорошая и удобная в использовании книга в стиле cookbook - сборника рецептов на разные случаи жизни. Особенно будет полезна первых порах, когда возникает множество вопросов в стиле "Как же сделать ХXX?". Одновременно дает представление о многих базовых вещах - основных командах, структурах данных и проч. Каждый рецепт дается в форме "Problem" - "Solution" - "Discussion". Часть Solution содержит непосредственно код, который решает данную проблему. Часть Disccussion, как следует из названия, содержит дополнительную информацию и обсуждение используемого подхода. Книга написана очень простым и понятным языком. Рекомендуется всем начинающим знакомиться с R, а также как дополнительное подспорье для опытных пользователей, чтобы быстро вспомнить подзабытые или редко используемые вещи. R Cookbook ориентирована на практические аспекты работы в R и не претендует на глубокое осмысление статистических вопросов, хотя в книге есть главы по расчеты основных статистик и линейной регрессии. Наверно, единственный существенный недостаток это то, что издатель/автор не выложили напрямую, используемый в книге код - это является уже общепринятым делом.

2. R Book Michael J Crawley (2012, 2 ed).
Огромное фундаментальное руководство по R объемом свыше 1000 страниц (если точное 1076 страниц в печатной версии!), написанное биологом - профессором экологии и теории эволюции в Imperial College London -  Майклом Кроули. Это уже второе издание монументального труда, первое издание вышло еще в 2007 году.  Сложно описать "вкратце" такую книгу, поэтому отмечу только некоторые моменты.
Первые главы посвящены "азам" работы в R - установка, типы данных, создание собственных функций и так далее.
Однако в отличие от первой книги, R Book рассматривает и практические аспекты использования R и статистические вопросы использования различных подходов, методов и так далее. Охват по статистическим вопросам очень широкий, начиная от простых тестов и линейной регрессии, до байесовких методов и нейронных сетей. Есть отдельные главы по анализу временных рядов (на уровне введения в тему) и анализу гео-данных. В целом, книга хороша, чтобы понимать, как можно использовать те или иные статистические методы в R. Так как автор - эколог, то практически все используемые в книги примеры имеют отношение к биологии/экологии. Не ждите примеров из экономики, к примеру :) С другой стороны, хорошо видно, что автор - практик, поэтому он довольно много времени уделяет обсуждений допущений различных методов, ограничений полученных результатов, альтернативным интрепретациям полученных результатов - это очень интересно.
Книгу удобно использовать как руководство, так как в ней содержится хороший индекс.
Автор предоставляет доступ к исходному коду и примерами с данными, которые используется в книге. Правда код не слишком удобно организован. В архиве выложено почти 300 текстовых файлов, не сгруппированных по главам книги (!). Для книги, которая стоит более $60, наверно, можно было бы сделать лучшую организацию, используемого в примерах кода.



3. R in a Nutshell. Joseph Adler (2012, 2 ed). Еще один фундаментальный труд (объемом в 700 страниц), претендующий на звание "руководства по R". Написан специалистом-практиком по data mining, сейчас работающем в LinkedIn. Мне R in a Nutshell понравилась очень подробным и емким обсуждением различных "технических" аспектов работы в R - к примеру, подключение в качестве источников входных данных баз данных с помощью пакетов RODBC или DBI. Вторая часть книг посвящена использованию различных методов в R, в основном с ориентацией на data mining и machine learning. В принципе, все основные методы из этого арсенала вкратце описаны. Удобно то, что для сложных функций, реализующих методы (типа lm или lda) приводится базовая табличка, описывающая все аргументы и их значения "по умолчанию". Очень подробно описаны различные аспекты трансформирования данных и приведения их в нужный вид.
Я правда не очень разобрался, где можно взять исходный код. На CRAN есть отдельный пакет для книги, содержащий наборы данных, есть также исходные коды для первого издания книги, а для второго - я не нашел.


4. R in Action. Robert Kabacoff (2011).
Еще одна из книг-учебников, которые начинаются со знакомства с R и постепенно двигают вас дальше. R in Action несколько проще R Book или R in Nutshell, поэтому возможно больше подойдет именно для первого знакомства. Когда хочется познакомиться, но пока не слишком понятно, зачем это необходимо. Книга хорошо очень продуманной структурой. Все главы делятся на 4 группы:

  1. Getting Started
  2. Basic Methods 
  3. Intermediate Methods 
  4. Advanced Methods. 
В каждой главе, особенно в третьем-четвертом разделах, приводится один достаточно большой пример, который подробно разбирается в течение всей главы. Автор также подробно останавливается на том, как интерпретировать таблицы с полученными результатами и что они вообще означают. Оказывается, книга R in Action вышла на русском языке, что можно только приветствовать. 

Резюме. Мне кажется, имеет смысл начинать знакомиться с R c помощью R Cookbook и R in Action. Если вам уже стала все более или менее понятным, то можно продвигаться дальше. Если вы занимаетесь статистикой/эконометрикой, то лучше подойдет R Book, если machine learning - то R in a Nuthshell. 


Книги по графическим возможностям R 

Одной из сильных сторон R является богатство возможностей по созданию сложных графиков и любых других форм визуального представления информации. Много чего можно сделать с помощью базовых возможностей, которые дополняются отдельными графическими пакетами. Так как все это богатство довольно разнообразно, но есть отдельные книги, целиком и полностью посвященные графическим возможностям R.

R Graph Cookbook. Mittal Hrishi (2011). Еще одна книга в стиле "кукбук" - на этот раз только графическим возможностям - но от издательства Packt, а не O'Rilley. В целом, неплохая книга в качестве "введения" в тему и дает общее представление о том, как устроены графические возможности R и что можно с ними делать. Мне, к примеру, больше всего были полезны примеры из 4 главы "Creating Line Graphs and Line Series Charts". Охват тем достаточно широкий - от базовых графиков до рисования карт и 3d-изображений. Примеры построены в основном на базовой графике, хотя есть немного ggplot2 и других пакетов. Есть важные вещи, связанные с подготовкой и экспортом графики. К сожалению, книга уже достаточно старая, поэтому в ней нет разделов, посвященных интерактивной графике - тем же пакетам rCharts или ультра-новому ggvis. Также книга достаточно базовая, поэтому "продвинутые" вещи или тонкости не обсуждаются - для этого все равно придется использовать StackOverflow и прочие источники "мудрости".

R Graphics Cookbook. Winston Chang (2012).   
Еще одна "книга рецептов" от издательства O'Rilley, написанная одним из разработчиков RStudio, наиболее популярной среды разработки для R. Хотя книга формально посвящена "R графике", на самом деле это только ggplot2. Поэтому никаких примеров на базовой графике или других графических пакетах нет. Эту книгу можно рассматривать как очень хорошее справочное пособие по ggplot2, написанное понятное и доступным языком. К книге прилагается специальный пакет  с используемыми датасетами. Весь приведенный в книге код выложен отдельно на сайте издательства и отсортирован по главам книги. Поэтому проблем с воспроизведением кода при изучении материала возникнуть не должно.
ggplot2. Elegant Graphics for Data Analysis. Hadley Wickam (2009). Довольная старая, по меркам "технической" литературы, книга от легендарного в мире R человека - Hadley Wickham, профессора статистики из Rice University и создателя кучи пакетов, без которых не обходится ни один пользователь R. Книга посвящена популярному графическому пакету ggplot2. Книга интересна сейчас первыми главами, в которых автор рассуждает про "грамматику графику"  ("grammar of graphics") и рассказывает про идеи, стоящие за ggplot2. Приведенный в книге код сейчас может быть неработоспособным в текущей версии ggplot2. Поэтому использовать эту книгу как учебник по ggplot2 вряд ли получится. С другой стороны, Хэдли поддерживает документацию в настолько идеальном состоянии, что все вопросы по текущим возможностям, аргументам функций и примерам использования можно решать без помощи специальной литературы. 


Резюме по "графическим" книгам. Если вас интересуют возможности базовой графики - читайте R Graph Cookbook, если интересует ggplot2 - читайте R Graphics Cookbook. Две книги покрывают достаточно широкий спектр того, чтобы доступно в R для графики, по крайней мере, на первом этапе.

Как я уже говорил, выходит достаточно большое книг, посвященное отдельным "специальным" темам в R. В следующий раз я напишу про книги, которые посвящены R в эконометрике/финансах, machine learning и GIS. 

21 июня 2014 г.

"Потому что на десять девчонок по статистике девять ребят" - так ли это на самом деле?




Для меня ключевой фразой в популярной песне является - "по статистике". Поразбираться с этим вопросом, натолкнул вот этот  пост в популярном (хотя и уж очень претенциозном) ЖЖ bespridanitsa под названием "Ситуация с женихами в регионах". Сообразительная девушка решила посмотреть на данные Росстата по численности населения по разным возрастным группам в Ярославской области. И пришла к выводу о том, что общепринятые представления о гендерных соотношениях могут быть не такими уж и однозначными.
Я решил пойти дальше и посмотреть данные не только по соотношению численности мужчин/женщин - ожидаемо, что женщин больше. С точки зрения "mate selection" важно не просто соотношение численности мужчин и женщин в соответствующих возрастных когортах, но и их брачный статус. По сути нас интересует соотношение между мужчинами и женщинами, которые не состоят в браке, то есть условно "свободны" для отношений.
Если существует дисбаланс между такими мужчинами и женщинами , то поиск партнера, на "брачном рынке", по всей видимости, осложняется. Вероятность встретить подходящего партнера - это в том числе и функция от их общего количества, которые находятся более или менее рядом, в том числе и в географическом смысле. Поэтому интересна картина отдельным регионам, а не только по стране в целом.

Небольшое отступление. Термин "брачный рынок" может показаться несколько странным, но это общепринятый в настоящее время экономический термин, введенный работами Ричарда Познера и Гэри Беккера (лауреат Нобелевской премии по экономике 1992 года, недавно скончавшийся). "Брачным рынком" называют процесс поиска индивидами партнеров для брака для создания домохозяйства. С точки зрения экономиста экономические агенты всегда максимизируют собственную полезность (utility). В рамках этого подхода человек вступает в брак, когда ожидаемая полезность семейной жизни превосходит ожидаемую полезность холостой жизни или дополнительные издержки, возникающие при продолжении поиска более подходящей пары. На этих допущениях обычно строятся различные модели family economics. Подробнее про теорию вопроса можно посмотреть в [4]. Про российский "брачный рынок" можно посмотреть любопытную работу экономистов ВШЭ 2006 года [2]. 


Немного про данные и расчеты

Единственным источником такого рода полных данных является последняя Всероссийская перепись населения 2010 года, а именно ее второй том - "Возрастно-половой состав и состояние в браке" (таблица 2.5. "Население по возрастным группам, полу и состоянию в браке по субъектам Российской Федерации") [1]. Более актуальных цифр, к сожалению, нет.
В лучших традициях предоставления полезной информации от государственных органов искомая таблица организована крайне неудобно для какого, сколь бы то ни было серьезного анализа (как и вообще все результаты переписи, содержащей множество уникальной информации). Поэтому ее пришлось приводить в "нормальный вид" средствами Excel + R.

Перепись дает следующую разбивку состояния в браке:
  • Состоящие в зарегестрированном браке 
  • Состоящие в незарегестрированном браке 
  • Никогда не состоявшие в браке 
  • Разведенные официально 
  • Разошедшиеся 
  • Вдовые 
  • Не указавшие состояние в брак
В принципе, все понятно. Единственный неясный аспект - разница между "разведенные официально" и "разошедшимися". Так вот, разошедшиеся - это те, кто состоял в незарегестрированном браке, но на дату переписи разошелся, а также те, кто разошелся с официальным мужем/женой, но еще не оформил развод в ЗАГСе.

Нас интересуют все категории, которые указывают на не-состояние в браке. Я использовал такое агрегирование:
"Свободные" = "Никогда не состоявшие в браке" + "Разведенные официально" + "Разошедшиеся" + "Вдовые".
Разумеется, отдельно для мужчин и отдельно для женщин.
Посмотрим сначала на общероссийский результат. Получается, что в стране 30,2 млн "свободных" женщин и всего лишь 19,2 млн "свободных" мужчин. Разница - в 11 млн человек. Соотношение - 3 к 2. Это ли не повод для уныния незамужним девушкам?
Однако посмотрим на эти же результаты  по возрастным группам.



Легко видеть, что превышение количества женщин над количеством мужчин идет после 35 лет и нарастает с возрастом. В группе 70+ женщин почти 8 раз больше чем мужчин той же возрастной категории! Очевидная причина - разные показатели смертности. Так как женщины в среднем живут дольше чем мужчины, то в старших возрастных категориях становится совсем мало мужчин и много, как правило, одиноких женщин.
В то же время в возрастных категориях от 20 до 30 лет есть довольно устойчивое превышение "свободных" мужчин над количеством "свободных" женщин той же возрастной категории.
К примеру, в возрасте от 18 до 39 лет в 2010 году было 12,0 млн "свободных" мужчин и 10,3 млн "свободных" женщин. Получается, что как раз по статистике на на десять девчонок 11,6 ребят!

Разумеется, речь идет именно о статистике и формальном соотношении мужчин и женщин по брачному статусу, а не об сравнительной легкости найти подходящего партнера на "брачном рынке". Можно подумать по каким причинам, могут выходить подобные расхождения между статистикой и общепринятыми представлениями. Мне на ум приходят следующие вещи.

Различия в среднем возрасте заключения брака. Социальные и культурные обычаи таковы, что "нормальным" считается, что в паре мужчина должен быть несколько старше, чем женщина. Поэтому значительное превышение "свободных" мужчин над количеством "свободных" женщин в возрастной категории от 20 до 24 лет может быть связано с тем, что достаточно большое количество девушек к этому возрасту уже выходят замуж, в то время как парни из той же возрастной категории будут жениться несколько позже, через несколько лет, попадая в следующую возрастную когорту.
К сожалению, хороших данных по возрасту заключения брака не собирается. Данные Росстата публикуются лишь по крупным возрастным когортам и не разделяют между первым и повторными браками.
Вот процентное распределение заключенных браков по возрасту жениха:

Вот аналогичное распределение по возрасту невесты:


Я специально выделил возрастную когорту 18-24 года: в 2013 году из общего количества заключенных браков (1,2 млн) 24,5% были заключены женихами в этом возрасте, но для невест - это уже 38%. Видно также, что за последние 40 лет возрасты заключения брака сильно увеличились. И еще одно интересное наблюдение - всплеск ранних браков (невеста - до 18 лет) в начале 90-х годов - в 1992 году на подобные браки приходилось почти 7% от общего количества!
Согласно более аккуратным расчетам демографов [5], средний возраст первого брака составлял в 2011 году 27,38 лет для мужчин и 24,97 лет для женщин. Разница - в 2,41 год. В целом, она не очень большая и, по всей видимости, эффект от различий в возрасте заключения брака между мужчинами и женщинами не слишком влияет на наши результаты.

"Свободных" мужчин на "брачном рынке" может быть в действительности меньше. К примеру, в 2010 году (год проведения переписи), почти 700 тыс. человек находились в местах лишения свободы, из них 93-94% - это мужчины.

Разумеется, среди них есть и женатые (данных по брачному статусу заключенных я не знаю), но к примеру, около 23-24% заключенных (почти 161 тыс. человек в 2010 году) находились в возрасте от 18 до 25 лет и в большинстве своем, видимо, не состоят в браке. Подобные соображения можно привести и в части количества наркоманов или ВИЧ-инфицированных - хотя я не знаю доступные данные о гендерных соотношениях в этой части.

Различия в "качестве" между мужчинами и женщинами.
Одним из результатов исследований экономистами брачных отношений, подтвержденных эмпирически, заключаются в том, что мужчины и женщины более "высокого качества" вступают в отношения с себе подобными, когда эти качества являются взаимодополняющими (образование, раса, культурный уровень). Женщина "высокого качества" повышает производительность мужчины "высокого качества" и - наоборот. "Качество" - это некий условный термин, отражающий общую характеристику индивидов.
Однако такая склонность может ограничить количество "эффективных" потенциальных партнеров, если есть существенные различия в "качестве" и "качество" выступают ограничивающим критерием. Так как "качество" само по себе субъективно, его сложно оценивать. Некоторым аппроксимирующим показателям "качества" может быть уровень образования. По данным той же переписи в возрастной категории от 20 до  39 лет на 5,2 млн мужчин с высшим образованием приходится 7,5 млн женщин с высшим. Соотношение 3 к 2. Причем именно в возрастных категориях от 25 до 35 лет различия в уровнях образования между мужчинами и женщинами максимальны.


Региональная картина

При всей условности этих оценок и ограничений на данные, которые мы используем, все же интересно посмотреть на региональное распределение и соотношения количества "свободных" мужчин и женщин. Речь идет о том же самом соотношение "свободных" мужчин и женщин в возрасте от 18 до 39 лет по субъектам РФ. Если посмотреть абсолютные количества, то данные выглядят вот так вот. Имейте в виду, что отрицательные значения указывают на то, что в регионе больше "свободных" мужчин, чем женщин. Почти по всех регионах "свободных" мужчин оказывается больше (в Москве -45 тыс. человек, в Московской области - на 125 тыс. человек). Исключением (то есть там, где "свободных" женщин больше) являются "окраинные" регионы - Тыва, Алтай, Хакассия, Оренбургская область и некоторые другие (закрашены синим на карте, карта интерактивная - если навести мышкой на регион, будут появляться подсказка с данными и названием региона).


Однако абсолютные значения сильно зависят от "размера" региона в смысле численности населения. Поэтому если взять процентное соотношение (разница между количеством женщин и мужчин, поделенная на количество женщин), то картина получается немного другая.



Наиболее "привлекательными" для женщин (в том смысле, что там сильное превышение "свободных" мужчин) являются Мурманская область и Камчатский край, а также почти все регионы Дальнего Востока - делайте выводы :). Для мужчин наиболее "привлекательны" в аналогичным смысле некоторые регионы Северного Кавказа (Ингушетия, Кабардино-Балкария), Алтай, Омская область, Тыва и Мордовия!. В Москве картина в целом достаточно сбалансированная - мужчин больше на 4,5%.


Список использованных источников

  1. "Итоги всероссийской переписи населения. Том 2. Возрастно-половой состав и состояние в браке". Ссылка.
  2. Рощина Я.М., Рощин С.Ю. Брачный рынок в России: выбор партнера и факторы ус­пеха. Препринт WP4/2006/04. — М.: ГУ ВШЭ, 2006. Ссылка.
  3. Р. Познер. Экономический анализ права. СПб.Экономическая школа. / Пер. с англ. под ред. В.Л. Тамбовцева, 2004, в 2-х т. Глава 5 "Семейное право и регулирование сексуальных отношений". Ссылка
  4. Becker, Gary S. 1993. A treatise on the family. Cambridge, Mass: Harvard University Press. Ссылка.
  5. С. Захаров "Куда движется супружество в России?". ДЕМОСКОП Weekly №545-546. 4-17 марта 2013. Ссылка

18 июня 2014 г.

Как закрасить площадь между двумя линиями на графике в Excel?

Я уже рассматривал некоторые хитрости построения графиков в Excel - график с двумя осями Y и прочие довольно простые вещи. Можно поговорить о чуть более сложных вещах.
Возьмем стандартный график с линиями (line chart). Зачем нужно закрашивать площадь между этими линиями? Часто площадь закрашивают для того, чтобы акцентировать внимание читателя на различии/расстоянии между двумя линиями. Другой вариант, который встречается в моей деятельности - построение совмещенных графиков показателей, имеющих сильные сезонные колебания.
К примеру, вот такой вот график. На нем изображены недельные данные по объемам хранимого в подземных хранилищах  природного газа (ПХГ) в США. Показатель имеет сильную сезонность, поэтому в таком представлении сложно понять, что происходит на "конце" графика и соотнести последние точки с предыдущими периодами.

В совмещенном же виде график будет выглядеть вот таким вот образом. По оси Х отображен только один год - 52 недели для недельных данных. Данные по разным годам совмещены в линиях - в данном представлении показывается только текущий (2014), серой линией обозначен среднее значение за пятилетний период, светло-серым закрашенным участком выделен диапазон между минимальным и максимальным значением за соответствующий период.

Рассмотрим только построение закрашенной светло-серой площади, которая показывает диапазон. Сначала строим обычный линейный график для максимума и минимума - предполагается, что исходные данные (обычный временной ряд) уже преобразованы для такого представления и у нас есть ряд Max и Min.

Сначала нужно закрасить площадь между двумя линиями. "Трюк" состоит в том, чтобы добавить на графику гистограмму с накоплением, которая будет состоять из двух частей. Верхняя часть гистограммы будет соответствовать расстоянию между графиками и будет видимой. Нижняя часть будет занимать площадь от линии Min до 0 и будет невидимой на графике.
Для этого нужно в расчетной таблице добавить два дополнительных расчетных столбца к двум имеющимся (Max и Min).
Нижняя часть = Min
Разница = Max - Min.



Теперь нужно выделить полностью два дополнительных столбца -> Копировать. Перейти на уже имеющийся график с линиями и нажать Ctrl-V. Две дополнительных линии появятся на графике.

Выглядит правда все еще не очень похоже. Теперь нужно изменить вид диаграммы на гистограмму с накоплением. Соответственно выбираем сначала ряд "Разница" -> "Изменить тип диаграммы для ряда" -> "С областями и накоплением" (если выбрать просто гистограмму с накоплением, то будут "зубцы"). Тоже самое делается для для ряда "Нижняя часть".
Обратите внимание, что два ряда "Min" и "Нижняя часть" имеют одинаковые значения и наложены друг на друга. Удостоверьтесь, что вы выбираете нужный ряд. После этих манипуляций должно стать понятнее, что происходит. Фактически на графике совмещены две диаграммы.


В дальнейшем остается только доработать все "напильником", чтобы получить желаемый результат.
- Установить "Нет заливки" для нижней части гистограммы с накоплением. Это приведет к тому, что нижняя часть гистограммы станет невидимой.
- Поменять цвет для верхней части области на нужный.
Можно убрать сами линии Max и Min, чтобы они не отвлекали внимание, добавить дополнительные ряды ("2014" и "Среднее за 2009-2013"), чтобы получился итоговый результат (второй график) - но это уже дело вкуса и итоговый целей представления данных.
Единственное, что плохо с моей точки зрения - площадь получается с "зубцами", я пока не нашел способа, как можно обеспечивать"сглаживание" для такого графика. Если знаете - расскажите!

Дополнительная тонкость - чтобы убрать из легенды ненужные элементы (Нижняя часть, Разница), можно просто выделять их и нажимать Del - только нужно убедиться, чтобы вы выделили не всю легенду, а отдельный ее элемент (тогда отдельный элементы будет в выделенном треугольнике.
Вот ссылка на файл с данными и итоговым графиком. 

23 сент. 2013 г.

Результаты голосования Государственной Думы по реформе РАН (три чтения)

Как вы уже знаете, несмотря на массовые протесты ученых на прошлой неделе, Государственная Дума удивительно быстро "оформила" реформу РАН всего лишь за один день, 18 сентября. Подробнее о некоторых перипетиях закона, можно посмотреть в небольшой заметке Ъ.
Нас же, как обычно интересует, каким образом голосовали народные избранники. Сам законопроект по реформе РАН имеет №305828-6 и имеет  следующее официальное название: "О Российской академии наук, реорганизации государственных академий наук и внесении изменений в отдельные законодательные акты Российской Федерации (в части уточнения правового положения, полномочий и функций Российской академии наук, реорганизации государственных академий наук)".
Формальную процедуру прохождения законопроекта можно посмотреть на его странице в АСОЗД:
  1. Законопроект был официально зарегестрирован и направлен Председателю ГД 28.06.2013
  2. В начале июля (03.07 и 05.07) законопроект прошел первое и второе чтение соответственно.
  3. После летних каникул, 17.09 был вернут во второе чтение. 
  4. 18.09.2013 законопроект по реформе РАН был принят во втором и в третьем чтении практически одновременно. 
Я уже писал о результатах первых двух чтений, теперь, к сожалению, можно обновить эти результаты.
Как видно на графике,  стабильно против законопроекта выступала только КПРФ. Правда во втором втором чтении они почему-то сначала не голосовали, а в третьем чтении проголосовали против (хотя оба голосовании прошли с интервалом всего лишь в 20 минут). Причем в третьем чтении возникли три коммуниста-ренегата (Бифов А.Ж., Кочиев Р.А., Тайсаев К.К.), которые неожиданно проголосовали "за". В чем был смысл такого хитрого маневра?
Единая Россия (ЕР) и ЛДПР практически полным составом поддержали законопроект. Справедливая Россия голосовала "против" в первом чтении, но потом передумала. Причем среди справороссов тоже возникли метания - во втором чтении вся фракция поддержала законопроект (10 не голосовало), а в третьем чтении - откуда-то возникло 17 противников, которые 20 минут назад были "за".
Поэтому не только суть законопроекта вызывает вопросы, но и собственно говоря, странным метаниям депутатов тоже сложно дать логичные объяснения.
Как обычно, данные по голосованию доступны в табличной форме - найдите своего любимого депутата.

11 сент. 2013 г.

Интерактивная карта результатов выборов мэра г. Москвы (8 сентября 2013 года) по отдельным УИКам

Как вы знаете, 8 сентября состоялись выбора мэра г. Москвы.  Уже довольно много материалов в Сети посвящено статистическому и географическому анализу этих выборов на основе официальных данных Мосгоризбиркома.

Я тоже решил посмотреть на эти данные и для начала построить карту с их визуализацией. Карт с результатами выборов в Сети уже довольно много. К примеру, на глаза попала карта Коммерсанта, которая показывает данные по отдельным округам. Есть подобные карты по отдельным районам.

26 авг. 2013 г.

Про пенсионную систему и пенсионную реформу - ч.2. Выбор НПФ или УК.

Первая часть, посвященная общим вопросам пенсионной реформы - здесь.

Итак, вы определились и решили сохранить размер социальных отчислений на накопительную часть пенсии в пределах 6%. Что делать дальше? Предполагаем, что вы являетесь "молчуном", то есть еще не писали никаких заявлений и не переводили свои пенсионные накопления.

На укрупненном уровне выбор состоит из трех основных альтернатив:
  1. Остаться в ВЭБе (официально это именуется ГУК - государственная управляющая компания), там где ваши пенсионные накопления находятся сейчас. 
  2. Передать свои накопления управляющей компании (УК). Управление накопительным счетом остается в ПРФ. 
  3. Передать свои накопления негосударственному пенсионному фонду (НПФ). Управление накопительным пенсионным счетом также передается в НПФ.  


10 авг. 2013 г.

Как построить график с двумя осями Y и другие хитрости построения графиков в Excel

Некоторое время назад с удивлением обнаружил, что довольно много посетителей с поисковых систем попадают сюда с запросами типа "построить график с двумя осями y excel". А там речь идет про R :)

Поэтому специально  решил написать про то, как все же построить такой график именно в Excel, и заодно поделиться другими тонкостями, которые накопились за 10 лет работы с этой программой.

8 авг. 2013 г.

Про пенсионную реформу и пенсионные накопления. Что делать?

Update. Вторая часть про выбор НПФ/УК - здесь 


Многие слышали про то, что то с пенсионной системой происходят какие-то изменения. Некоторые, наверняка, слышали пенсионный калькулятор Минтруда. Кое-кто, возможно, даже попробовал с ним поиграться вбить свои параметры своей зарплаты и возраста – и огорчиться или обрадоваться полученным результатам. В отличие от прошлых пенсионных реформ - 2002 и 2010 годов, которые проходили где-то «там», далеко, и не требовали от нас никаких сознательных действий,  сейчас – не так. Необходимо сделать осознанный выбор и, возможно, предпринять некоторые действия. 
Это статья – попытка разобраться самому (и рассказать интересующимся) о том, что происходит с пенсионной системой сейчас и какие действия мне кажется разумным предпринять. Я, разумеется, никому не навязываю своего мнения, не даю никаких инвестиционных рекомендаций и могу просто ошибаться. Для простоты я также буду описывать пенсионные параметры для тех, кто младше 1967 г.р. (то есть, кто младше 46 лет) и соответственно участвует в обязательной системе пенсионных накоплений.


Про социальные взносы и суть пенсионной системы 

Сначала некоторый простой ликбез и размышления о том, как и за счет чего формируется пенсия вообще и как осуществляются социальные отчисления в рамках действующей в России системы. Даже у людей моего возраста достаточно смутные представления о том, что такое нынешняя пенсионная система и как она работает. В общем смысле, пенсия – это отложенные сбережения на тот период, когда человек становится нетрудоспособным по тем или иным причинам (возраст, нетрудоспособность или просто нежелание работать). Поэтому пенсия  - это не только то, что можно ожидать от государства. Покупка дополнительной недвижимости, к примеру, в расчете на последующую сдачу ее в аренду и получение дохода от этого – тоже возможная форма пенсионного обеспечения.
Общая цель состоит в том, чтобы сделать сбережения в «тучные» годы, чтобы использовать их когда возникнет необходимость. Государство может вообще не устанавливать обязательной пенсионной системы и тогда забота каждого отдельного человека – обеспечить свое существование на старости. Можно покупать недвижимость, копить деньги на депозите или рассчитывать на поддержку детей – дело личное. Но почти всегда государства устанавливают обязательную пенсионную систему, которая заставляет делать такие сбережения и гарантирует получение хотя бы минимальной пенсии - зачастую люди не делают или не могут самостоятельно сделать необходимых накоплений.
В России тоже действует обязательная пенсионная система, которая состоит из двух частей – работников, осуществляющих социальные взносы со своей заработной платы (точнее говоря, это делают работодатели за своих работников) и пенсионеров, получающих пенсии.
Любой работодатель, работающий «по белому», обязан совершать осуществлять социальные отчисления на своих работников. Общая ставка отчислений составляет (по состоянию на 2013 год)  30% в пределах первых 568 тыс. рублей в год и 10% – свыше этой суммы. То есть, если работник получает меньше 568/12 = 47,33 тыс. рублей/месяц, то социальные отчисления составляют 30%. Если больше этой суммы, тогда происходит деление на первые 568 тыс. и то, что свыше этой суммы.
Куда идут эти 30%? Как видно из таблицы – это три государственных внебюджетных фонда. В данном случае нас интересуют только часть, связанная с Пенсионным фондом Российской Федерации (ПФР). 

База для начисления страховых взносов
Тариф страхового взноса, процентов
Итого
Пенсионный фонд
Фонд социального страхования
Федеральный фонд обязательного медицинского страхования
В пределах 568 000 рублей в год
22
2.9
5.1
30
Свыше 568 000 рублей в год
10
0
0
10

Чтобы нагляднее понять регрессивный характер социальных отчислений, посмотрим на простую диаграмму, которая показывает связь заработной платы и отчислений в ПРФ, которые осуществляет работодатель.
К примеру, при средней  заработной плате в 100 тыс. рублей ежемесячно (1,2 млн рублей/год), работодатель перечислит в ПРФ за целый год 188.2 тыс. (125  = 568 * 22%, 63.2 = (1200-568)*10%). В данном случае имеется в виду «грязная» заработная плата, то есть включающая НДФЛ в размере 13%. Регрессивный характер отчислений приводит к тому, что максимальная возможная пенсия в принципе ограничена "верхней" планкой социальных взносов ( подробнее об этом - ниже). 





Возникает следующий логичный вопрос. Куда идут те 22%, отчисляемые в ПФР?
22% делятся на три части – солидарная, страховая и накопительная. Все равно звучит не очень понятно? По простому смысл этого разделения такой:
  1.  Солидарная часть  (6%) – это часть, которая напрямую идет на выплаты нынешним пенсионерам.  Считается, что выплата солидарной части взносов обеспечивает получение базовой части пенсии в будущем.
  2. Страховая часть (10%) – так же идет на текущие выплаты ПФР пенсионерам, но от нее зависит размер собственной пенсии в будущем. Действующая сейчас пенсионная система «гарантирует» выплату страховой части взносов будущему пенсионеру с учетом индексации.
  3.  Накопительная часть (6%) – это та часть, которая учитывается на личном пенсионном счете человека и о состоянии которого ежегодно приходят «письма счастья». По достижении пенсионного возраста накопленная сумма выплачивается пенсионеру в составе его пенсии. 

О тех 10%, которые платятся свыше 568 тыс. рублей, можно не беспокоиться. Эти средства идут в солидарную часть, то есть на текущие выплаты пенсионерам и по сути представляют форму налогообложения высоких доходов. На будущую пенсию они не влияют.  

Как определяется пенсия сейчас? 

Три части социальных взносов определяют три части будущей пенсии:
Пенсия  = Б + СЧ (страховая часть) + НЧ (накопительная часть).
  1.  Б. Солидарная часть обеспечивает базовую часть пенсии, который с 01.04.2013 составляет 3610 рублей 31 копейка в месяц (именно так, 31 копейка!). По сути, это минимальный размер пенсии, который не зависит ни от стажа, ни от размеров социальных взносов. Он гарантирован любому пенсионеру.
  2. СЧ = ПК/Т, где ПК – это сумма учтенного расчетного пенсионного капитала. Т – предполагаемое время выплаты пенсий (в 2013 году – 228 месяцев или 19 лет). ПК = ПK1 + СВ + ПК2, где ПК1 – расчетный капитал на стаж до 2002 года, ПК2 – сумма страховых частей социальных отчислений после 2002 года, СВ – сумма валоризации (дополнительная оценка стажа до 1991 года). Понятно, что для людей моего возраста имеет значение только компонента ПК2. ПК индексируется до выхода на пенсию – сейчас индексация происходит на темпы роста заработной платы в стране с учетом на рост собственных доходов ПФР.
  3.  НЧ = ПН/Т. ПН – сумма пенсионных накоплений, учтенная на индивидуальном счете, Т – те же 228 месяцев, как и в страховой части. По умолчанию (средства «молчунов») пенсионные накоплению управляются ВЭБом, будущий пенсионер может перевести свои средства в негосударственный пенсионной фонд (НПФ) или поручить управление ими управляющей компании (УК).

Как это не может показаться странным, но нынешняя пенсионная система достаточно щедра. Она гарантирует выплату базовой части пенсии и возвращение будущему пенсионеру страховой и накопительной части его социальных взносов.
Однако ограничение «сверху» на размер социальных взносов приводит к тому, что максимальный размер пенсии в принципе ограничивается определенной суммой. Простой расчет показывает, что в рамках действующей системы невозможно получить пенсию (без учета различных льгот и надбавок), превышающую 20 тыс. руб/месяц в текущих ценах (при 40 годах отчислений по максимальной текущей планке). 
Другая форма щедрости –  сейчас для получения трудовой пенсии по старости достаточно лишь 5 лет трудового стража. В определенной степени это приводит к несправедливости – размер пенсии между человеком с 40 летним и 5 летним стажем может отличаться не слишком сильно, при этом в среднем они будут получать пенсию в течение 19 лет. 
Новая пенсионная реформа – уже третья по счету (2002, 2010 и 2013) – призвана уменьшить эти «щедроты» и создать стимулы для работников с тем, чтобы они осуществляли отчисления и продолжали работать и после достижения ими пенсионного возраста, если есть такая возможность.  

Что изменится в пенсионной системе?

Основных изменений два:
  1. Вводится система пенсионных коэффициентов с 2015 года (это еще не утверждено, а существует в форме законопроектов)
  2. Изменяется соотношение между страховой и накопительной частью «по умолчанию» с 2014 года (а это уже точно утверждено!). 
Рассмотрим предлагаемую систему пенсионных коэффициентов. Нынешняя система гарантирует возвращению пенсионеру его страховых взносов (с учетом индексации), и это является обязательством для государства. Система пенсионных коэффициентов де факто обеспечит «гибкость» с точки зрения обязательств для государства – гарантируется не выплата конкретных рублей страховых взносов, а зависимость будущей пенсии от некоторых условных коэффициентов. Стоимость коэффициента будет меняться ежегодно и очевидным образом будет зависеть от финансового положения ПФР и устойчивости госбюджета. В нынешнем законопроекта (ФЗ "О страховых пенсиях") не прописан точный порядок расчета этого коэффициента!
Сергей Журавлев весьма метко, на мой взгляд, сравнил систему пенсионных коэффициентов с системой трудодней в советских колхозах. С точки зрения государства появляется возможность изменять сумму своих обязательств при необходимости. С точки зрения будущего пенсионера – появляется неопределенность относительно того, какая же все-таки будет пенсия через ...дцать лет в рублях. По этим причинам не стоит воспринимать буквально те цифры, которые вы видите в пенсионном калькуляторе Минтруда – они отражают не обязательства государственной пенсионной системы выплатить вам как будущему пенсионеру  пенсию в размере X рублей, а некоторый возможный (скорее сильно оптимистичный вариант) развития событий. 

Теперь про соотношение между пенсионной и страховой частью пенсии. Как видно по диаграмме ниже, со следующего года предлагается изменить структуру распределения тех самых 22% и предоставить возможность индивидуального выбора.



  1. 2% накопительной части. Если гражданин был «молчуном», то есть не предпринимал никаких шагов по управлению своими пенсионными накоплениями и не предпримет никаких шагов до конца 2013 года (обсуждается продление до конца 2014 года), то его распределение автоматически изменится в пользу страховой части. Общая ставка (22%) не поменяется, но страховая часть вырастет с 10% до 14%, а накопительная часть уменьшится соответственно с 6% до 2%. То есть перераспределение коснется 4%, которые находятся в пределах 568 тыс. рублей, или 22 720 рублей ежегодно. Еще раз, если непонятно: государство переводит 22,7 тыс. рублей в год (эта сумма будет расти по мере пересмотра максимальной планки отчислений) с вашего индивидуального счета в общий пенсионный "котел". 
  2. 6% накопительной части. Если гражданин уже перевел свои накопления в один из НПФов (или УК) или напишет подобное заявление до конца 2013 года, то все сохраняется в структуре 2013 года. Есть опция написать заявление на 6% и сохранить свои средства в ВЭБе, если не хочется связываться с частными управляющими.  


2% (0%) или 6%?

Встает вопрос – что лучше в данной ситуации – сохранить накопительную часть в пределах 6% или снизить ее до 2% за счет увеличения страховой части? Апдейт. Сейчас речь идет не о 2%, а 0% -  в сентябре Правительство решило отменить вообще накопительную часть пенсии для "молчунов". Это только "усугубляет" итоговые выводы о вере в государственные щедроты. 

На мой взгляд, этот выбор сводится к вопросу о вере в государство и его способность поддерживать пенсионную «щедрость», которая наблюдалась в последние годы. С 2002 года средняя пенсия повысилась примерно в 8 раз "в номинале", что соответствует росту средней заработной платы. Цены выросли за тот же период только в 3 раза. Страховая часть пенсии индексировалась медленнее ( примерно в 5 раз по моим расчтеам), но все равно сильно быстрее, чем накопленная инфляция или доходность пенсионных накоплений в ВЭБе (и видимо, доходностей НПФ). Поэтому если просто экстраполировать тенденции последних 10 лет, надо оставаться с государством. Но насколько разумна такая экстраполяция?


Условно говоря, государство говорит нам: «Давайте сейчас платите сейчас больше в страховую часть, и я – государство – обещаю, что когда вы выйдете на пенсию, ваша пенсия будет больше. Мы сможем повышать пенсии быстрее, чем та доходность, которую смогут обеспечить управляющие вашими пенсионными накоплениями». Если вы верите в это, тогда можно смело выбирать пониженные 2% отчисления на накопительную часть и особо ни о чем не думать.

Меня же смущает несколько моментов. Во первых, вводимая система пенсионных коэффициентов, которая по факту позволит государству снизить объем своих обязательств перед будущими пенсионерами, если возникнет такая необходимость. В рамках действующей сейчас пенсионной системы гарантируется выплата страховой части социальных взносов, а не абстрактных пенсионных коэффициентов.

Во вторых, существует объективные сомнения в том, что государственная пенсионная система способна поддерживать те же темпы повышения пенсий, какие наблюдались в последние 10 лет.
Как видно, по бюджету ПФР текущие поступления от социальных взносов ("собственные поступления") обеспечивают лишь половину расходов (выплат пенсий нынешним пенсионерам). Остальное покрывается за счет федерального бюджета. Повышение размеров социальных отчислений позволило увеличить собственные доходы ПФР, но все равно существует большой дисбаланс между текущими поступлениями и выплатами. Возможности федерального бюджета также небезграничны - в 2013 году около 23% государственных расходов пришлось на трансфер в ПФР. А ведь еще есть еще армия, чиновники, Сочи и другие важные задачи.

 
 Другая проблема - демография. В ближайшее десятилетие численность трудоспособного населения будет снижаться, а количество пенсионеров - быстро расти. Это практически неизбежный сценарий, на который невозможно повлиять. Следствием этого станет увеличение нагрузки на пенсионную систему. Даже без опережающей индексации пенсий, нагрузка на пенсионную систему будет увеличиваться, так как абсолютная численность пенсионеров будет расти.



Еще один аспект - как принималось решение об изменении структуры отчислений. Изначально концепция Минтруда/ПФР предполагала полную отмену накопительную часть пенсии. Лишь под давлением отрасли негосударственных фондов, явно не заинтересованной в таком исходе, и экономических ведомств, удалось найти вот такой вот странный компромисс. Вроде бы всем сестрами по серьгам. Доверия такой процесс принятия решений не прибавляет.

Поэтому, на мой взгляд, целесообразно "не класть все яица в одну корзину" - в государственную страховую часть с неясным порядком индексации, а иметь еще и накопительную компоненту. Конечно, есть ненулевая вероятность, что через 20-30 лет цены на нефть достигнут $1000 за "бочку". Тогда и вышеупомянутая демография, и финансовые трудности ПФР не будут иметь никакого значения. Но думаю, что в рамках такого сценария золотой дождь прольется на всех, независимо от текущего выбора - 2% или 6% (доходность инвестиций в этом сценарии так же будет явно выше уровня инфляции). С другой стороны, если наступит ж.. придет беда, то ничто не помешает родному государству экспроприировать пенсионные накопления, будь они хоть в НПФе по 6%, хоть в ВЭБе по 2%.  Свежий опыт Аргентины может послужить хорошим примером - не стоит обольщаться.

Другой момент, о котором не хочется говорить, но все же не стоит забывать. Накопления, которые учитываются на личном счете, в случае смерти человека до достижения им пенсионного возраста, переходят к его правопреемникам по наследству. В случае, страховой части пенсии этого, конечно, не происходит. Они просто пропадают.

По этим причинам я лично выберу накопительную часть в пределах 6%. Следующий вопрос: кому можно передать право управления этими 6%. Это выбор из трех групп: 1) оставаться в ВЭБе 2) выбрать УК 3) выбрать НПФ. Я напишу об этом подробнее - в следующей статье. update - вторая статья написана и доступна здесь.

И другой вывод, который следует из всего этого. В любом случае не стоит рассчитывать на щедрую пенсию от государства. Спасение утопающих - дело рук самих утопающих. Поэтому заниматься накоплениями и инвестициями в свое пенсионное будущее - стоит уже сейчас.

Резюме

Если вам лень, все это читать, вот простое дерево, которое позволит сформулировать свое решение :)  или по крайней мере изучить подробнее имеющиеся альтернативы. 




14 июля 2013 г.

Результаты голосования в Думе о реформе РАН - первое и второе чтения

update. результаты по все чтениям доступны здесь

Все уже слышали про реформу РАН, проталкиваемую в ГД. В лучших традициях российского законодательного процесса все происходит просто с космическими скоростями. До летних каникул Думы законопроект уже прошел два чтения. Напомню, что именно второе чтение является ключевым для законопроекта, а не третье, как можно было бы предположить.
В прессе много об этом писалось и, разумеется, было много противников реформы в предложенным правительством формате. Посмотрим же на фактические результаты голосований в Думе по первому и второму чтению.
О Российской академии наук, реорганизации государственных академий наук и внесении изменений в отдельные законодательные акты Российской Федерации (в части уточнения правового положения, полномочий и функций Российской академии наук, реорганизации государственных академий наук)

Как видно, первое чтение (3 июля) было принято большинством всего лишь в 234 голоса (при необходимом минимуме в 226 голосов). "За" проголосовала почти вся Единая Россия(два ренегата - это депутаты Романов и Говорухин). "Против" были весь состав КПРФ и почти вся СР (ренегаты "за"- депутаты Харлов  и Митрофанов). ЛДПР дружно не голосовала.
Ко второму чтению, которое состоялось уже (!) через два дня (5 июля) уровень поддержки заметно вырос: ЛДПР и Справедливая Россия теперь полным составом голосуют "за". КПРФ вместо "против" не голосует (академик Жорес Алферов кстати тоже не голосовал, а не выступил "против" во втором чтении). Это к вопросу о принципиальности народных избранников.

Ко второму чтению законопроект правда претерпел некоторые изменения. Я детально не углублялся в эту тему, но насколько я понял, внесены правки непринципиального характера, чтобы "задобрить" академиков. К примеру, статус членов-корреспондентов оставляют еще на три года. Изначально речь шла о том, чтобы объединить членкоров и просто "академиков". Понятно, что обычным академикам не хочется объединяться с  младшими академиками (это примерно как кандидатов и докторов наук объединили бы в докторов). Но разумеется, к реформе собственно говоря,  РАН это не имеет ровно никакого отношения. Речь идет исключительно о частных интересах нескольких сотен человек, которым сначала показали кнут, а потом дали маленький пряник.

Вот пофамильные результаты - найдите своего любимого депутата!

15 июня 2013 г.

Результаты голосования Думы по "анти-пиратскому закону" - первое чтение

Вы, возможно, слышали о новой громкой инициативе народных избранников - так называемый "анти-пиратский закон". Официальное название - "О внесении изменений в законодательные акты Российской Федерации по вопросам защиты интеллектуальных прав в информационно-телекоммуникационных сетях".
Сейчас этот законопроект просто с космической скоростью движется в Государственной Думе. 6 июня три депутата ГД  - оперная певица Максакова-Игенбергс М.П. (ЕР), режиссер Бортко В.В. (КПРФ), актриса Драпеко Е.Г. (СР) - официально представили законопроект. И уже 14 июня, то есть через 8 дней, законопроект прошел первое чтение. Я не буду касаться сути законопроекта, она отлично изложена в последней заметке Ъ.
Посмотрим на результаты голосования по партиям:
О внесении изменений в законодательные акты Российской Федерации по вопросам защиты интеллектуальных прав в информационно-телекоммуникационных сетях"
Добавьте подпись
Ниже можно посмотреть пофамильные результаты и найти своего любимого депутата.


Как видно, законопроект был принят 257 голосами "за" (237 от ЕР, 1 голос от КПРФ и 19 голосов от СР). Причем довольного много депутатов(189 человек всего) не голосовало. Я, честно говоря, до сих пор не очень понимаю эту логику. Кворум составляет 226 депутатов. Поэтому если ЕР голосует дисциплинированно (а так происходит почти всегда), то "не голосовать" смысла нет, кворум будет все равно. "Утопить" законопроект не-голосованием при текущем количественном соотношении депутатов невозможно.

Довольно странным мне показалось, что единственный голос в поддержку законопроекта от КПРФ принадлежит не режиссеру Бортко, который выступил инициатором (как можно было бы ожидать), а некоему депутату Ющенко А.А. Режиссер Бортко почему-то не стал голосовать за свой же законопроект (!). Депутат Драпеко вместе с еще 18 избранниками от СР  проголосовала "за". Три решительных голоса "против" - это депутаты Иванов С.В. (ЛДПР), Пономарев И.В. (СР) и Гудков Д.Г. (СР). Вообще с партийной дисциплиной у эсеров явно не складывается.

Судя по взятым темпам, принято решение принять законопроект до летних каникул. Сейчас наступает наиболее важный этап - второе чтение, на котором возможно, удастся будет придать  ему хоть более или менее разумное представление. Досудебное блокирование целых доменов - это явно что-то из области маразма. И напоследок следующая цитата из пояснительной записки к законопроекту: "Важнейшей новеллой ГПК РФ является введение института предварительных обеспечительных мер защиты интеллектуальных прав в информационно-телекоммуникационных сетях, в том числе в сети «Интернет» (Статья 144'ГПК РФ)." Новеллой!