3 мар. 2017 г.

Почему нам кажется, что цены растут быстрее инфляции?

Росстат утверждает: за последний год цены в России в среднем выросли на 5% - на столько они оказались выше в январе 2017 года по сравнению с январем 2016-м. Похоже ли это на правду? Большинство россиян уверены, что нет. Данные ежемесячных опросов населения, проводимых по заказу Банка России, показывают, что «средний» россиянин систематически оценивает инфляцию в несколько раз выше. В том же январе 2017 года медианное значение инфляции по данным опроса - 14%. То есть половина опрошенных считают, что за последний год потребительские цены выросли больше, чем на 14%. В отдельные периоды этот разрыв становится еще заметнее. К примеру, в середине 2015 года почти 18% опрошенных предполагали, что цен за год выросли более чем на 50%, хотя официальная инфляция в этот периода составляла 15-16%.
Означает ли это, что Росстат измеряет совсем не ту инфляцию, которая актуальна для населения - что его методики неадекватны, а результаты бессмысленны? А ведь именно на этот показатель инфляции ориентируется вся политика Центробанка, ставя в прямую зависимость от него важнейший для экономики параметр ключевой ставки.

Показатели инфляции по Росстату (ИПЦ) и по опросам населения (медианное значение) 

Источник: Банк России, Росстат

Откуда нестыковки?

Причины такого расхождения росстатовского ИПЦ с впечатлениями людей об инфляции в магазинах условно можно разделить на три. Первая версия: Росстат лжет, «рисует» нужные цифры или намеренно использует неверные модели расчета в угоду финансовым властям. Это популярная точка зрения среди непрофессионалов. Но эту версию можно сразу отбросить: росстатовские методики расчета инфляции соответствуют очень подробным инструкциям Международного валютного фонда (руководству из 700 с лишним страниц). Попытки обнаружить в росстатовской модели серьезные искажения, как правило, сами грешат непониманием ее принципов. А первичная база данных, на основе которых Росстат определяет составляющие потребительской корзины, в анонимизированном виде выложена в общий доступ - так что каждый желающий может проверить точность расчетов.
Вторая причина - несовершенство самой идеи вместить в одну цифру информацию об изменении цен на все категории товаров и услуг, потребляемых всеми социальными слоями. По этой причине профессиональное сообщество нередко критикует власти, когда они трактуют низкую  инфляцию как рост всеобщего благосостояния населения. Итоговые 5% не означают, что все цены в магазинах изменились на 5% плюс-минус какую-то небольшую погрешность. Напротив - это средняя температура между подорожавшими и подешевевшими товарами, часть из которых для каждой конкретной семьи совершенно не актуальны.
Росстат, согласно международным рекомендациям, старается постоянно актуализировать набор товаров и услуг, попадающих в расчет. Это делается на основе данных о реальном потреблении 50 с лишним тысяч домохозяйств. В 2017 году в корзину ИПЦ входит 510 наименований, где самый дорогой товар - «Легковой автомобиль импортный новый» (1,13 млн рублей за штуку в январе 2017 года), а самый дешевый  – «Предоставление местного телефонного соединения при повременной системе оплаты услуг связи» (0,53 рубля за минуту). В этом году из списка убрали такие категории как «Отправка телеграммы обыкновенной внутренней, 15 слов», «Пошив женского платья», «Молоко сухое цельное», «Платок носовой», «Проигрыватель DVD» И добавили, среди прочего, «Поездку в Таиланд» и «Дополнительные занятия для детей дошкольного возраста».
В соответствии с этим списком сотрудники ведомства с 20 по 25 числа каждого месяца фиксируют цены на товары и услуги в примерно 50 тысячах «точек сбора первичный ценовой информации» и собирают свыше полумиллиона ценовых котировок. Вклад каждого товара и услуги в общий показатель при сведении всех цен воедино определяется тоже по данным о реальных расходах панели российских домохозяйств.
На этом возможности Росстата по актуализации корзины заканчиваются - общая цифра все равно будет отражать лишь среднюю температуру по больнице. Чтобы пятипроцентная инфляция в январе 2017-го была релевантна для вас, вы должны иметь доход в 24 тысяч рублей в месяц, тратить 38,1% денег на продовольственные товары, 35,7% – на непродовольственные, 26,3% – на услуги. Скорее всего, это не так. Если вы подписаны на Republic, вы уже выпадаете из «средней» модели, потому что средняя величина расходов «среднего домохозяйства» на СМИ в 2016 году - это 0,3% корзины ИПЦ или около тысячи рублей за весь год.

Искажения восприятия

Третья группа причин несовпадения официальной инфляции с нашими представлениями о ней - это наша склонность придавать большее значение отдельным деталям картины, не видя ее в целостности.
Во-первых, здесь работает эффект замещения. Если за год цены на говядину выросли на 25%, а на курицу – лишь на 10%, часть потребителей начинают чаще покупать курицу и реже говядину. Вместе с этим корректируется и корзина Росстата, ведь он даже не пытается оценивать наши упущенные возможности, он берет в расчет только то, что мы действительно покупаем. В итоге потребитель будет считать инфляцией в первую очередь сильный скачок цен на говядину, а Росстат его практически не учтет[СМ1] .
Во-вторых, для людей не так принципиальна разница между уровнем цен и изменением цен. Мы склонны оценивать инфляцию не саму по себе, а в соотношении с изменением наших доходов, Росстат же этот фактор не учитывает. Даже при небольшой инфляции, но при не-растущих доходах потребители чувствуют себя угнетенно и винят во всем высокую инфляцию.  В 2015-2016 годах эффект инфляционного скачка в России воспринимался более болезненно в том числе и из-за стагнации номинальных доходов.   
В-третьих, мы не способны на повседневном уровне отдавать себе отчет, сколько и на что мы тратим. Исследования психологов и экономистов, занимающихся потребительским поведением, показывают, что в оценке инфляции мы ориентируемся на простые индикаторы, не отражающие весь наш потребительский набор. Если мы каждую неделю покупаем хлеб или молоко и заправляемся на АЗС, то именно эти товары и формируют наше индивидуальное восприятие инфляции, даже если они составляют небольшую часть нашей потребительской корзины. А бытовая техника или мебель, которые покупаются редко и вносят большой вклад в траты, имеют гораздо меньше шансов повлиять на наше восприятие. В 2015 году продовольственные товары в России дорожали сильно быстрее, чем непродовольственные товары и услуги, и в итоге рост цен психологически казался больше, чем он был на самом деле.

Индекс потребительских цен (ИПЦ) – основные составляющие


Источник:  Росстат

В-четвертых, доказано, что мы обращаем больше внимания на рост цен, чем на их снижение. Это связано с присущим большинству людей «неприятием убытков» (loss aversion). Многочисленные исследования показывают, что люди воспринимают потерю 1 рубля острее, чем радуются выигрышу того же рубля. По тому же принципу мы ужасаемся ценам на гречку, выросшим в 2,5 раза за последние три года, но не обращаем внимания на цены на лук и свеклу, которые почти не изменились за это время, на то, что аренда квартир подешевела, а наш домашний интернет за это время стал быстрее в три раза  и на 20% дешевле.
Сторонникам теории «они нас обманывают» стоит знать, что феномен широкого недоверия к публикуемым официальным оценкам инфляции совсем не специфичен для России. В США вопрос корректного расчета инфляции в свое время был предметом специального расследования Сената и до сих пор остается мишенью ожесточенных политических дебатов. Причем одни аргументированно настаивают на том, что методика ИПЦ Bureau of Labor Statistics США занижает уровень «истинной» инфляции, а другие - что занижает. А согласно недавнему исследованию Европейской Комиссии, в Европе потребители считают, что инфляция в 2004-2015 годах была в 4 раза выше, чем официальный ИПЦ, рассчитываемый Евростатом.
Поэтому вопрос, как правильно рассчитывать инфляцию, будет вечным. Но главное при этом, чтобы обе стороны - и потребители, и экономически власти - сознавали ограниченность любых таких расчетов и не пытались выдать частное за всеобщее, а желаемое за действительное.





25 апр. 2016 г.

Нефть после Дохи: восхождение или откат?

Провал переговоров в Дохе неделю назад сулил нерадостные перспективы для нефтяных цен. На протяжении последних месяцев именно переговорный процесс крупнейших производителей нефти создавал информационный фон, который способствовал повышению цен. Хотя само соглашение о «заморозке» добычи на уровнях января 2016 года не могло повлиять непосредственно на текущий баланс на мировом рынке нефти, оно могло стать свидетельством возможности сотрудничества стран-производителей, чтобы воздействовать на мировой рынок.
Однако Доха завершилась провалом. Стороны не только не смогли договориться об анонсированной ранее  «заморозке», но даже согласовать общее заявление.  В этом смысле провал был похож на декабрьскую встречу ОПЕК – тогда финальные переговоры также сильно затянулись, ни о чем договориться не удалось, а итоговая пресс-конференция произвела удручающее впечатление. После декабрьской встречи ОПЕК начался новый раунд снижения цен на нефть, в ходе которого цены упали более чем на 50%. Итоги Дохи вновь показали, что не-нефтяные интересы участников чересчур противоречат друг другу. Саудовская Аравия, поддержавшая ранее «заморозку» добычи, оказалась не готова присоединяться к соглашениям, которые создают какие-либо выгоды для Ирана. Политика оказалась важнее экономики.
Абсолютное большинство аналитиков и экспертов предполагало, что провал в Дохе является сильным «медвежьим» сигналом для рынка, так как увеличивает вероятность сохранения ценовой войны между производителями и роста дисбаланса на рынке. Действительно при открытии торгов в понедельник, 18 апреля, нефтяные котировки снизились на 6-8% «на Дохе». Однако за последующие дни нефтяные цены более чем компенсировали провал этот  – за прошлую неделю котировки Brent выросли на 5%, WTI – почти на 9%. Новости о завершении забастовки работников нефтяной промышленности в Кувейте никак не повлияли на царящий, на рынке оптимизм.
Важным вопросом с точки зрения понимания происходящего на рынке нефти представление о том, почему провал в Дохе привел к противоположному результату с точки зрения реакции нефтяных цен.  Здесь возможны два варианта.
Первый вариант. Повышение цен на нефть в последние два месяца не было связано с Дохой, а просто совпало с ней во времени. Есть несколько факторов, которые также способствовали росту цен. Панический настрой финансовых рынков, который царил в январе-феврале, изменился на противоположный – сверхоптимистичный. Этому способствовало меры по дальнейшему ослаблению денежно-кредитной политики в развитых странах (отрицательные ставки в еврозоне и Японии), а также начало очередного раунда стимулирующей политики в Китае.  Скоординированные действия денежных властей смогли остановить панику. Поток экономической статистики последнего времени хотя и не дает оснований для большого оптимизма, указывает на что, что пугавшая всех рецессия в американской экономике в начале 2016 года не началась. В США сохраняется сильная динамика спроса на бензин при устойчивом снижении количества задействованных буровых установок (опережающий показатель будущей добычи). Это дает основания предполагать, что потребность американской экономики в импортной нефти будет увеличиваться и это позволит сократить профицит на мировом рынке. 
Второй вариант. Фактор Дохи отразится на нефтяных ценах после того, как будут понятны стратегии Саудовской Аравии и Ирана на рынке физической нефти.  Основной риск провала переговоров заключается в том, что на рынке начнется очередной раунд ценовой войны между основными производителями. Саудовская Аравия имеет возможности нарастить добычу с текущих уровней еще на 0,5-1,0 млн баррелей в сутки. Королевство к июню планирует завершить к июню расширение мощностей на месторождении и начало осуществлять поставки на спотовом рынке.  Освободившийся от большей части наложенных на него санкций Иран продемонстрировал, что способен достаточно быстро восстанавливать «потерянную» добычу. В настоящее время также довольно большой объем незапланированного сокращения  добычи – аварии в Нигерии, Ираке, простой Кувейта. По данным Bloomberg, объем незапланированных перебоев в добыче на мировом рынке составляет около 2,5 млн баррелей в сутки. Однако, скорее всего, эти перебои носят временный характер и в ближайшие месяцы могут быть возобновлены. Если все эти производители увеличат добычу и начнут ценовую конкуренцию за спотовых покупателей на физическом рынке – это неизбежно отразится на ценах.
Ситуация весны 2016 года опасным образом напоминает прошлый год. В первом полугодии так же  произошел значительный рост нефтяных цен, которые к маю 2015 года превышали $65/баррель и казалось, что худшее – уже позади. Однако опасения по поводу устойчивости китайской экономики, триггером для которых стала девальвация юаня, привели к провалу цен в августе 2015, а потом – в январе 2016.  Добыча в США оказалась гораздо более устойчивой к низким ценам, чем это прогнозировали сами американские власти в лице Управления по энергетической информации (EIA). ОПЕК снова показал неспособность повлиять на рынок и наращивал добычу. Результатом всего этого стали цены ниже $30 баррель – минимальные за последние 15 лет значения.
Прогнозировать нефтяные цены – сложно, систематически точно – невозможно. Тем не менее, как  представляется, пресловутое «дно» на рынке уже пройдено. Потребуется новое сочетание нескольких сильных негативных шоков , чтобы «вернуть» цены ниже $30/баррель – к границе текущих операционных затрат правой части кривой себестоимости предложения на мировом рынке (добыча Северного моря, трудноизвлекаемая нефть и проч.). Причем в условиях сезонного роста во 2-3 кварталах это становится более сложным.
Однако фундаментальных факторов, которые обосновывали возможность дальнейшего существенного роста котировок тоже не просматривается. Риски ценовой войны между основными производителями остаются высокими. Запасы нефти в хранилищах все еще увеличиваются, хотя и более медленными темпами.  Способность центральных банков  неопределенно долго противостоять структурным экономическим изменениям, таким как замедление экономики Китая, также вызывает вопросы. 

Наиболее вероятным сценарием видится «плоский» рынок в ближайшие несколько месяцев. За это время прояснится, каковы стратегии Саудовской Аравии и Ирана на рынке физической нефти. Станет понятно ли обоснованы ли ожидания сильного сокращения добычи в США. После того, как рынок найдет ответы на эти вопросы, последует очередное сильное движение –  в одну из сторон. 

26 июн. 2014 г.

Обзор книг по R


Давно уже хотел свести и систематизировать книги по R (языку программирования для статистических вычислений), которые прочел/просмотрел за последние 2 года. Возможно, это кому-то покажется полезным. По R выходит действительно огромное количество книг, наверно, больше чему по любым другим подобным продуктам (STATA, eViews, SPSS и другие) вместе взятым. Многие специальные книги по отдельным вопросам статистики приводят примеры, написанные именно на R. Единственная проблема заключается в том, что все книги - на английском языке. Российскими авторами написана пока только одна, насколько я знаю, оригинальная книга по R - я ее не читал и ничего не могу сказать. Но в целом, учите английский язык - это крайне полезно.  

Общие книги по R


1. R Cookbook. Paul Teeetor (2011).  Хорошая и удобная в использовании книга в стиле cookbook - сборника рецептов на разные случаи жизни. Особенно будет полезна первых порах, когда возникает множество вопросов в стиле "Как же сделать ХXX?". Одновременно дает представление о многих базовых вещах - основных командах, структурах данных и проч. Каждый рецепт дается в форме "Problem" - "Solution" - "Discussion". Часть Solution содержит непосредственно код, который решает данную проблему. Часть Disccussion, как следует из названия, содержит дополнительную информацию и обсуждение используемого подхода. Книга написана очень простым и понятным языком. Рекомендуется всем начинающим знакомиться с R, а также как дополнительное подспорье для опытных пользователей, чтобы быстро вспомнить подзабытые или редко используемые вещи. R Cookbook ориентирована на практические аспекты работы в R и не претендует на глубокое осмысление статистических вопросов, хотя в книге есть главы по расчеты основных статистик и линейной регрессии. Наверно, единственный существенный недостаток это то, что издатель/автор не выложили напрямую, используемый в книге код - это является уже общепринятым делом.

2. R Book Michael J Crawley (2012, 2 ed).
Огромное фундаментальное руководство по R объемом свыше 1000 страниц (если точное 1076 страниц в печатной версии!), написанное биологом - профессором экологии и теории эволюции в Imperial College London -  Майклом Кроули. Это уже второе издание монументального труда, первое издание вышло еще в 2007 году.  Сложно описать "вкратце" такую книгу, поэтому отмечу только некоторые моменты.
Первые главы посвящены "азам" работы в R - установка, типы данных, создание собственных функций и так далее.
Однако в отличие от первой книги, R Book рассматривает и практические аспекты использования R и статистические вопросы использования различных подходов, методов и так далее. Охват по статистическим вопросам очень широкий, начиная от простых тестов и линейной регрессии, до байесовких методов и нейронных сетей. Есть отдельные главы по анализу временных рядов (на уровне введения в тему) и анализу гео-данных. В целом, книга хороша, чтобы понимать, как можно использовать те или иные статистические методы в R. Так как автор - эколог, то практически все используемые в книги примеры имеют отношение к биологии/экологии. Не ждите примеров из экономики, к примеру :) С другой стороны, хорошо видно, что автор - практик, поэтому он довольно много времени уделяет обсуждений допущений различных методов, ограничений полученных результатов, альтернативным интрепретациям полученных результатов - это очень интересно.
Книгу удобно использовать как руководство, так как в ней содержится хороший индекс.
Автор предоставляет доступ к исходному коду и примерами с данными, которые используется в книге. Правда код не слишком удобно организован. В архиве выложено почти 300 текстовых файлов, не сгруппированных по главам книги (!). Для книги, которая стоит более $60, наверно, можно было бы сделать лучшую организацию, используемого в примерах кода.



3. R in a Nutshell. Joseph Adler (2012, 2 ed). Еще один фундаментальный труд (объемом в 700 страниц), претендующий на звание "руководства по R". Написан специалистом-практиком по data mining, сейчас работающем в LinkedIn. Мне R in a Nutshell понравилась очень подробным и емким обсуждением различных "технических" аспектов работы в R - к примеру, подключение в качестве источников входных данных баз данных с помощью пакетов RODBC или DBI. Вторая часть книг посвящена использованию различных методов в R, в основном с ориентацией на data mining и machine learning. В принципе, все основные методы из этого арсенала вкратце описаны. Удобно то, что для сложных функций, реализующих методы (типа lm или lda) приводится базовая табличка, описывающая все аргументы и их значения "по умолчанию". Очень подробно описаны различные аспекты трансформирования данных и приведения их в нужный вид.
Я правда не очень разобрался, где можно взять исходный код. На CRAN есть отдельный пакет для книги, содержащий наборы данных, есть также исходные коды для первого издания книги, а для второго - я не нашел.


4. R in Action. Robert Kabacoff (2011).
Еще одна из книг-учебников, которые начинаются со знакомства с R и постепенно двигают вас дальше. R in Action несколько проще R Book или R in Nutshell, поэтому возможно больше подойдет именно для первого знакомства. Когда хочется познакомиться, но пока не слишком понятно, зачем это необходимо. Книга хорошо очень продуманной структурой. Все главы делятся на 4 группы:

  1. Getting Started
  2. Basic Methods 
  3. Intermediate Methods 
  4. Advanced Methods. 
В каждой главе, особенно в третьем-четвертом разделах, приводится один достаточно большой пример, который подробно разбирается в течение всей главы. Автор также подробно останавливается на том, как интерпретировать таблицы с полученными результатами и что они вообще означают. Оказывается, книга R in Action вышла на русском языке, что можно только приветствовать. 

Резюме. Мне кажется, имеет смысл начинать знакомиться с R c помощью R Cookbook и R in Action. Если вам уже стала все более или менее понятным, то можно продвигаться дальше. Если вы занимаетесь статистикой/эконометрикой, то лучше подойдет R Book, если machine learning - то R in a Nuthshell. 


Книги по графическим возможностям R 

Одной из сильных сторон R является богатство возможностей по созданию сложных графиков и любых других форм визуального представления информации. Много чего можно сделать с помощью базовых возможностей, которые дополняются отдельными графическими пакетами. Так как все это богатство довольно разнообразно, но есть отдельные книги, целиком и полностью посвященные графическим возможностям R.

R Graph Cookbook. Mittal Hrishi (2011). Еще одна книга в стиле "кукбук" - на этот раз только графическим возможностям - но от издательства Packt, а не O'Rilley. В целом, неплохая книга в качестве "введения" в тему и дает общее представление о том, как устроены графические возможности R и что можно с ними делать. Мне, к примеру, больше всего были полезны примеры из 4 главы "Creating Line Graphs and Line Series Charts". Охват тем достаточно широкий - от базовых графиков до рисования карт и 3d-изображений. Примеры построены в основном на базовой графике, хотя есть немного ggplot2 и других пакетов. Есть важные вещи, связанные с подготовкой и экспортом графики. К сожалению, книга уже достаточно старая, поэтому в ней нет разделов, посвященных интерактивной графике - тем же пакетам rCharts или ультра-новому ggvis. Также книга достаточно базовая, поэтому "продвинутые" вещи или тонкости не обсуждаются - для этого все равно придется использовать StackOverflow и прочие источники "мудрости".

R Graphics Cookbook. Winston Chang (2012).   
Еще одна "книга рецептов" от издательства O'Rilley, написанная одним из разработчиков RStudio, наиболее популярной среды разработки для R. Хотя книга формально посвящена "R графике", на самом деле это только ggplot2. Поэтому никаких примеров на базовой графике или других графических пакетах нет. Эту книгу можно рассматривать как очень хорошее справочное пособие по ggplot2, написанное понятное и доступным языком. К книге прилагается специальный пакет  с используемыми датасетами. Весь приведенный в книге код выложен отдельно на сайте издательства и отсортирован по главам книги. Поэтому проблем с воспроизведением кода при изучении материала возникнуть не должно.
ggplot2. Elegant Graphics for Data Analysis. Hadley Wickam (2009). Довольная старая, по меркам "технической" литературы, книга от легендарного в мире R человека - Hadley Wickham, профессора статистики из Rice University и создателя кучи пакетов, без которых не обходится ни один пользователь R. Книга посвящена популярному графическому пакету ggplot2. Книга интересна сейчас первыми главами, в которых автор рассуждает про "грамматику графику"  ("grammar of graphics") и рассказывает про идеи, стоящие за ggplot2. Приведенный в книге код сейчас может быть неработоспособным в текущей версии ggplot2. Поэтому использовать эту книгу как учебник по ggplot2 вряд ли получится. С другой стороны, Хэдли поддерживает документацию в настолько идеальном состоянии, что все вопросы по текущим возможностям, аргументам функций и примерам использования можно решать без помощи специальной литературы. 


Резюме по "графическим" книгам. Если вас интересуют возможности базовой графики - читайте R Graph Cookbook, если интересует ggplot2 - читайте R Graphics Cookbook. Две книги покрывают достаточно широкий спектр того, чтобы доступно в R для графики, по крайней мере, на первом этапе.

Как я уже говорил, выходит достаточно большое книг, посвященное отдельным "специальным" темам в R. В следующий раз я напишу про книги, которые посвящены R в эконометрике/финансах, machine learning и GIS. 

21 июн. 2014 г.

"Потому что на десять девчонок по статистике девять ребят" - так ли это на самом деле?




Для меня ключевой фразой в популярной песне является - "по статистике". Поразбираться с этим вопросом, натолкнул вот этот  пост в популярном (хотя и уж очень претенциозном) ЖЖ bespridanitsa под названием "Ситуация с женихами в регионах". Сообразительная девушка решила посмотреть на данные Росстата по численности населения по разным возрастным группам в Ярославской области. И пришла к выводу о том, что общепринятые представления о гендерных соотношениях могут быть не такими уж и однозначными.
Я решил пойти дальше и посмотреть данные не только по соотношению численности мужчин/женщин - ожидаемо, что женщин больше. С точки зрения "mate selection" важно не просто соотношение численности мужчин и женщин в соответствующих возрастных когортах, но и их брачный статус. По сути нас интересует соотношение между мужчинами и женщинами, которые не состоят в браке, то есть условно "свободны" для отношений.
Если существует дисбаланс между такими мужчинами и женщинами , то поиск партнера, на "брачном рынке", по всей видимости, осложняется. Вероятность встретить подходящего партнера - это в том числе и функция от их общего количества, которые находятся более или менее рядом, в том числе и в географическом смысле. Поэтому интересна картина отдельным регионам, а не только по стране в целом.

Небольшое отступление. Термин "брачный рынок" может показаться несколько странным, но это общепринятый в настоящее время экономический термин, введенный работами Ричарда Познера и Гэри Беккера (лауреат Нобелевской премии по экономике 1992 года, недавно скончавшийся). "Брачным рынком" называют процесс поиска индивидами партнеров для брака для создания домохозяйства. С точки зрения экономиста экономические агенты всегда максимизируют собственную полезность (utility). В рамках этого подхода человек вступает в брак, когда ожидаемая полезность семейной жизни превосходит ожидаемую полезность холостой жизни или дополнительные издержки, возникающие при продолжении поиска более подходящей пары. На этих допущениях обычно строятся различные модели family economics. Подробнее про теорию вопроса можно посмотреть в [4]. Про российский "брачный рынок" можно посмотреть любопытную работу экономистов ВШЭ 2006 года [2]. 


Немного про данные и расчеты

Единственным источником такого рода полных данных является последняя Всероссийская перепись населения 2010 года, а именно ее второй том - "Возрастно-половой состав и состояние в браке" (таблица 2.5. "Население по возрастным группам, полу и состоянию в браке по субъектам Российской Федерации") [1]. Более актуальных цифр, к сожалению, нет.
В лучших традициях предоставления полезной информации от государственных органов искомая таблица организована крайне неудобно для какого, сколь бы то ни было серьезного анализа (как и вообще все результаты переписи, содержащей множество уникальной информации). Поэтому ее пришлось приводить в "нормальный вид" средствами Excel + R.

Перепись дает следующую разбивку состояния в браке:
  • Состоящие в зарегестрированном браке 
  • Состоящие в незарегестрированном браке 
  • Никогда не состоявшие в браке 
  • Разведенные официально 
  • Разошедшиеся 
  • Вдовые 
  • Не указавшие состояние в брак
В принципе, все понятно. Единственный неясный аспект - разница между "разведенные официально" и "разошедшимися". Так вот, разошедшиеся - это те, кто состоял в незарегестрированном браке, но на дату переписи разошелся, а также те, кто разошелся с официальным мужем/женой, но еще не оформил развод в ЗАГСе.

Нас интересуют все категории, которые указывают на не-состояние в браке. Я использовал такое агрегирование:
"Свободные" = "Никогда не состоявшие в браке" + "Разведенные официально" + "Разошедшиеся" + "Вдовые".
Разумеется, отдельно для мужчин и отдельно для женщин.
Посмотрим сначала на общероссийский результат. Получается, что в стране 30,2 млн "свободных" женщин и всего лишь 19,2 млн "свободных" мужчин. Разница - в 11 млн человек. Соотношение - 3 к 2. Это ли не повод для уныния незамужним девушкам?
Однако посмотрим на эти же результаты  по возрастным группам.



Легко видеть, что превышение количества женщин над количеством мужчин идет после 35 лет и нарастает с возрастом. В группе 70+ женщин почти 8 раз больше чем мужчин той же возрастной категории! Очевидная причина - разные показатели смертности. Так как женщины в среднем живут дольше чем мужчины, то в старших возрастных категориях становится совсем мало мужчин и много, как правило, одиноких женщин.
В то же время в возрастных категориях от 20 до 30 лет есть довольно устойчивое превышение "свободных" мужчин над количеством "свободных" женщин той же возрастной категории.
К примеру, в возрасте от 18 до 39 лет в 2010 году было 12,0 млн "свободных" мужчин и 10,3 млн "свободных" женщин. Получается, что как раз по статистике на на десять девчонок 11,6 ребят!

Разумеется, речь идет именно о статистике и формальном соотношении мужчин и женщин по брачному статусу, а не об сравнительной легкости найти подходящего партнера на "брачном рынке". Можно подумать по каким причинам, могут выходить подобные расхождения между статистикой и общепринятыми представлениями. Мне на ум приходят следующие вещи.

Различия в среднем возрасте заключения брака. Социальные и культурные обычаи таковы, что "нормальным" считается, что в паре мужчина должен быть несколько старше, чем женщина. Поэтому значительное превышение "свободных" мужчин над количеством "свободных" женщин в возрастной категории от 20 до 24 лет может быть связано с тем, что достаточно большое количество девушек к этому возрасту уже выходят замуж, в то время как парни из той же возрастной категории будут жениться несколько позже, через несколько лет, попадая в следующую возрастную когорту.
К сожалению, хороших данных по возрасту заключения брака не собирается. Данные Росстата публикуются лишь по крупным возрастным когортам и не разделяют между первым и повторными браками.
Вот процентное распределение заключенных браков по возрасту жениха:

Вот аналогичное распределение по возрасту невесты:


Я специально выделил возрастную когорту 18-24 года: в 2013 году из общего количества заключенных браков (1,2 млн) 24,5% были заключены женихами в этом возрасте, но для невест - это уже 38%. Видно также, что за последние 40 лет возрасты заключения брака сильно увеличились. И еще одно интересное наблюдение - всплеск ранних браков (невеста - до 18 лет) в начале 90-х годов - в 1992 году на подобные браки приходилось почти 7% от общего количества!
Согласно более аккуратным расчетам демографов [5], средний возраст первого брака составлял в 2011 году 27,38 лет для мужчин и 24,97 лет для женщин. Разница - в 2,41 год. В целом, она не очень большая и, по всей видимости, эффект от различий в возрасте заключения брака между мужчинами и женщинами не слишком влияет на наши результаты.

"Свободных" мужчин на "брачном рынке" может быть в действительности меньше. К примеру, в 2010 году (год проведения переписи), почти 700 тыс. человек находились в местах лишения свободы, из них 93-94% - это мужчины.

Разумеется, среди них есть и женатые (данных по брачному статусу заключенных я не знаю), но к примеру, около 23-24% заключенных (почти 161 тыс. человек в 2010 году) находились в возрасте от 18 до 25 лет и в большинстве своем, видимо, не состоят в браке. Подобные соображения можно привести и в части количества наркоманов или ВИЧ-инфицированных - хотя я не знаю доступные данные о гендерных соотношениях в этой части.

Различия в "качестве" между мужчинами и женщинами.
Одним из результатов исследований экономистами брачных отношений, подтвержденных эмпирически, заключаются в том, что мужчины и женщины более "высокого качества" вступают в отношения с себе подобными, когда эти качества являются взаимодополняющими (образование, раса, культурный уровень). Женщина "высокого качества" повышает производительность мужчины "высокого качества" и - наоборот. "Качество" - это некий условный термин, отражающий общую характеристику индивидов.
Однако такая склонность может ограничить количество "эффективных" потенциальных партнеров, если есть существенные различия в "качестве" и "качество" выступают ограничивающим критерием. Так как "качество" само по себе субъективно, его сложно оценивать. Некоторым аппроксимирующим показателям "качества" может быть уровень образования. По данным той же переписи в возрастной категории от 20 до  39 лет на 5,2 млн мужчин с высшим образованием приходится 7,5 млн женщин с высшим. Соотношение 3 к 2. Причем именно в возрастных категориях от 25 до 35 лет различия в уровнях образования между мужчинами и женщинами максимальны.


Региональная картина

При всей условности этих оценок и ограничений на данные, которые мы используем, все же интересно посмотреть на региональное распределение и соотношения количества "свободных" мужчин и женщин. Речь идет о том же самом соотношение "свободных" мужчин и женщин в возрасте от 18 до 39 лет по субъектам РФ. Если посмотреть абсолютные количества, то данные выглядят вот так вот. Имейте в виду, что отрицательные значения указывают на то, что в регионе больше "свободных" мужчин, чем женщин. Почти по всех регионах "свободных" мужчин оказывается больше (в Москве -45 тыс. человек, в Московской области - на 125 тыс. человек). Исключением (то есть там, где "свободных" женщин больше) являются "окраинные" регионы - Тыва, Алтай, Хакассия, Оренбургская область и некоторые другие (закрашены синим на карте, карта интерактивная - если навести мышкой на регион, будут появляться подсказка с данными и названием региона).


Однако абсолютные значения сильно зависят от "размера" региона в смысле численности населения. Поэтому если взять процентное соотношение (разница между количеством женщин и мужчин, поделенная на количество женщин), то картина получается немного другая.



Наиболее "привлекательными" для женщин (в том смысле, что там сильное превышение "свободных" мужчин) являются Мурманская область и Камчатский край, а также почти все регионы Дальнего Востока - делайте выводы :). Для мужчин наиболее "привлекательны" в аналогичным смысле некоторые регионы Северного Кавказа (Ингушетия, Кабардино-Балкария), Алтай, Омская область, Тыва и Мордовия!. В Москве картина в целом достаточно сбалансированная - мужчин больше на 4,5%.


Список использованных источников

  1. "Итоги всероссийской переписи населения. Том 2. Возрастно-половой состав и состояние в браке". Ссылка.
  2. Рощина Я.М., Рощин С.Ю. Брачный рынок в России: выбор партнера и факторы ус­пеха. Препринт WP4/2006/04. — М.: ГУ ВШЭ, 2006. Ссылка.
  3. Р. Познер. Экономический анализ права. СПб.Экономическая школа. / Пер. с англ. под ред. В.Л. Тамбовцева, 2004, в 2-х т. Глава 5 "Семейное право и регулирование сексуальных отношений". Ссылка
  4. Becker, Gary S. 1993. A treatise on the family. Cambridge, Mass: Harvard University Press. Ссылка.
  5. С. Захаров "Куда движется супружество в России?". ДЕМОСКОП Weekly №545-546. 4-17 марта 2013. Ссылка

18 июн. 2014 г.

Как закрасить площадь между двумя линиями на графике в Excel?

Я уже рассматривал некоторые хитрости построения графиков в Excel - график с двумя осями Y и прочие довольно простые вещи. Можно поговорить о чуть более сложных вещах.
Возьмем стандартный график с линиями (line chart). Зачем нужно закрашивать площадь между этими линиями? Часто площадь закрашивают для того, чтобы акцентировать внимание читателя на различии/расстоянии между двумя линиями. Другой вариант, который встречается в моей деятельности - построение совмещенных графиков показателей, имеющих сильные сезонные колебания.
К примеру, вот такой вот график. На нем изображены недельные данные по объемам хранимого в подземных хранилищах  природного газа (ПХГ) в США. Показатель имеет сильную сезонность, поэтому в таком представлении сложно понять, что происходит на "конце" графика и соотнести последние точки с предыдущими периодами.

В совмещенном же виде график будет выглядеть вот таким вот образом. По оси Х отображен только один год - 52 недели для недельных данных. Данные по разным годам совмещены в линиях - в данном представлении показывается только текущий (2014), серой линией обозначен среднее значение за пятилетний период, светло-серым закрашенным участком выделен диапазон между минимальным и максимальным значением за соответствующий период.

Рассмотрим только построение закрашенной светло-серой площади, которая показывает диапазон. Сначала строим обычный линейный график для максимума и минимума - предполагается, что исходные данные (обычный временной ряд) уже преобразованы для такого представления и у нас есть ряд Max и Min.

Сначала нужно закрасить площадь между двумя линиями. "Трюк" состоит в том, чтобы добавить на графику гистограмму с накоплением, которая будет состоять из двух частей. Верхняя часть гистограммы будет соответствовать расстоянию между графиками и будет видимой. Нижняя часть будет занимать площадь от линии Min до 0 и будет невидимой на графике.
Для этого нужно в расчетной таблице добавить два дополнительных расчетных столбца к двум имеющимся (Max и Min).
Нижняя часть = Min
Разница = Max - Min.



Теперь нужно выделить полностью два дополнительных столбца -> Копировать. Перейти на уже имеющийся график с линиями и нажать Ctrl-V. Две дополнительных линии появятся на графике.

Выглядит правда все еще не очень похоже. Теперь нужно изменить вид диаграммы на гистограмму с накоплением. Соответственно выбираем сначала ряд "Разница" -> "Изменить тип диаграммы для ряда" -> "С областями и накоплением" (если выбрать просто гистограмму с накоплением, то будут "зубцы"). Тоже самое делается для для ряда "Нижняя часть".
Обратите внимание, что два ряда "Min" и "Нижняя часть" имеют одинаковые значения и наложены друг на друга. Удостоверьтесь, что вы выбираете нужный ряд. После этих манипуляций должно стать понятнее, что происходит. Фактически на графике совмещены две диаграммы.


В дальнейшем остается только доработать все "напильником", чтобы получить желаемый результат.
- Установить "Нет заливки" для нижней части гистограммы с накоплением. Это приведет к тому, что нижняя часть гистограммы станет невидимой.
- Поменять цвет для верхней части области на нужный.
Можно убрать сами линии Max и Min, чтобы они не отвлекали внимание, добавить дополнительные ряды ("2014" и "Среднее за 2009-2013"), чтобы получился итоговый результат (второй график) - но это уже дело вкуса и итоговый целей представления данных.
Единственное, что плохо с моей точки зрения - площадь получается с "зубцами", я пока не нашел способа, как можно обеспечивать"сглаживание" для такого графика. Если знаете - расскажите!

Дополнительная тонкость - чтобы убрать из легенды ненужные элементы (Нижняя часть, Разница), можно просто выделять их и нажимать Del - только нужно убедиться, чтобы вы выделили не всю легенду, а отдельный ее элемент (тогда отдельный элементы будет в выделенном треугольнике.
Вот ссылка на файл с данными и итоговым графиком. 

23 сент. 2013 г.

Результаты голосования Государственной Думы по реформе РАН (три чтения)

Как вы уже знаете, несмотря на массовые протесты ученых на прошлой неделе, Государственная Дума удивительно быстро "оформила" реформу РАН всего лишь за один день, 18 сентября. Подробнее о некоторых перипетиях закона, можно посмотреть в небольшой заметке Ъ.
Нас же, как обычно интересует, каким образом голосовали народные избранники. Сам законопроект по реформе РАН имеет №305828-6 и имеет  следующее официальное название: "О Российской академии наук, реорганизации государственных академий наук и внесении изменений в отдельные законодательные акты Российской Федерации (в части уточнения правового положения, полномочий и функций Российской академии наук, реорганизации государственных академий наук)".
Формальную процедуру прохождения законопроекта можно посмотреть на его странице в АСОЗД:
  1. Законопроект был официально зарегестрирован и направлен Председателю ГД 28.06.2013
  2. В начале июля (03.07 и 05.07) законопроект прошел первое и второе чтение соответственно.
  3. После летних каникул, 17.09 был вернут во второе чтение. 
  4. 18.09.2013 законопроект по реформе РАН был принят во втором и в третьем чтении практически одновременно. 
Я уже писал о результатах первых двух чтений, теперь, к сожалению, можно обновить эти результаты.
Как видно на графике,  стабильно против законопроекта выступала только КПРФ. Правда во втором втором чтении они почему-то сначала не голосовали, а в третьем чтении проголосовали против (хотя оба голосовании прошли с интервалом всего лишь в 20 минут). Причем в третьем чтении возникли три коммуниста-ренегата (Бифов А.Ж., Кочиев Р.А., Тайсаев К.К.), которые неожиданно проголосовали "за". В чем был смысл такого хитрого маневра?
Единая Россия (ЕР) и ЛДПР практически полным составом поддержали законопроект. Справедливая Россия голосовала "против" в первом чтении, но потом передумала. Причем среди справороссов тоже возникли метания - во втором чтении вся фракция поддержала законопроект (10 не голосовало), а в третьем чтении - откуда-то возникло 17 противников, которые 20 минут назад были "за".
Поэтому не только суть законопроекта вызывает вопросы, но и собственно говоря, странным метаниям депутатов тоже сложно дать логичные объяснения.
Как обычно, данные по голосованию доступны в табличной форме - найдите своего любимого депутата.

11 сент. 2013 г.

Интерактивная карта результатов выборов мэра г. Москвы (8 сентября 2013 года) по отдельным УИКам

Как вы знаете, 8 сентября состоялись выбора мэра г. Москвы.  Уже довольно много материалов в Сети посвящено статистическому и географическому анализу этих выборов на основе официальных данных Мосгоризбиркома.

Я тоже решил посмотреть на эти данные и для начала построить карту с их визуализацией. Карт с результатами выборов в Сети уже довольно много. К примеру, на глаза попала карта Коммерсанта, которая показывает данные по отдельным округам. Есть подобные карты по отдельным районам.

26 авг. 2013 г.

Про пенсионную систему и пенсионную реформу - ч.2. Выбор НПФ или УК.

Первая часть, посвященная общим вопросам пенсионной реформы - здесь.

Итак, вы определились и решили сохранить размер социальных отчислений на накопительную часть пенсии в пределах 6%. Что делать дальше? Предполагаем, что вы являетесь "молчуном", то есть еще не писали никаких заявлений и не переводили свои пенсионные накопления.

На укрупненном уровне выбор состоит из трех основных альтернатив:
  1. Остаться в ВЭБе (официально это именуется ГУК - государственная управляющая компания), там где ваши пенсионные накопления находятся сейчас. 
  2. Передать свои накопления управляющей компании (УК). Управление накопительным счетом остается в ПРФ. 
  3. Передать свои накопления негосударственному пенсионному фонду (НПФ). Управление накопительным пенсионным счетом также передается в НПФ.  


10 авг. 2013 г.

Как построить график с двумя осями Y и другие хитрости построения графиков в Excel

Некоторое время назад с удивлением обнаружил, что довольно много посетителей с поисковых систем попадают сюда с запросами типа "построить график с двумя осями y excel". А там речь идет про R :)

Поэтому специально  решил написать про то, как все же построить такой график именно в Excel, и заодно поделиться другими тонкостями, которые накопились за 10 лет работы с этой программой.