С графиком динамики ставки аренды полувагона* есть одна методологическая проблема, о которой следует сказать особо. Дело в том, что в разные периоды эти данные публиковались разными институциями (и изданиями), у каждого из которых была своя методология и свой круг источников.
А нужно понимать, что от величины выборки здесь очень многое зависит: если отбросить несколько опрошенных компаний из нижней части списка, сгруппированного по уровню ставок, то ставка вырастет в 1,5 раза относительно средней величины, а если отбросить несколько компаний сверху, соответственно, наоборот, снизится примерно на тот же порядок цифр.
*ГРАФИК«ДИНАМИКА СТАВОК ОПЕРАТОРОВ И ТАРИФОВ РЖД В ДОЛГОСРОЧНОЙ РЕТРОСПЕКТИВЕ: с 2008 г по сентябрь 2024 г».
Ставки аренды для графика использованы в номинальных ценах (то есть не корректировались на уровень инфляции). Динамика ставок аренды с января 2008 по декабрь 2022 г. приведена по данным «Промгрузов», за январь 2023 г. по данным «ПроВагон» («правопреемник/наследник» издания «Промышленные грузы»), с февраля 2023 г. по сентябрь 2024 г. — по данным ИЦО (Информационный центр операторов). Инфляция (ИПЦ) приводится по данным Росстата.
Методологическое пояснение к графику. Данные о ставках аренды из «Промгрузов» и из отчётов ИЦО несопоставимы по абсолютным значениям (из-за отличий в выборке и методологии формирования), но демонстрируют близкую динамику. Поэтому для сохранения преемственности всего ряда (для корректной оценки темпов роста в процентах в долгосрочной ретроспективе), переход с первого источника на второй (январь-февраль 2023 г.) произведён не по абсолютным значениям, а по темпам роста в процентах.
В этой связи особенно большое значение начинает играть постоянство выборки и методики опроса и формирования средних значений. Только постоянство этих трёх параметров обеспечивает сопоставимость результатов.
Однако зачастую одни источники уходят, другие появляются и возникает проблема сопоставимости.
Например, при переходе от данных издания «Промгрузы» (которое ушло с рынка) к данным ИЦО, есть период, в течение которого есть оба ряда, и они отличаются, но темп роста по месяцам там одинаковы. В итоге, если просто взять абсолютные значения, например до декабря 2022 по одному источнику, а с января 2023 по другому, то в процентном измерении внутри каждого ряда скачка не будет, а в абсолютных значениях будет единовременный скачок из-за смены ряда на 20–40%.
Например, по одному источнику в декабре 2022 было 1400, а по второму в январе 2023 — 1900, вот вам и рост на 35% за один месяц. При этом внутри каждого ряда рост был в 5%, а не в 35%. Соответственно, если брать абсолютные значения, то темп роста в процентах в сводном ряде (при объединении двух рядов в один общий) будет давать погрешность в 20–40% даже при правильных абсолютных значениях. Если, наоборот, использовать темпы в процентах, то динамика будет правильной, но выйти через проценты роста и текущую ставку на ставку, которая была ранее, корректно не получится. То есть, зная текущую ставку и процент роста, например за 5 лет, не получится корректно выйти на абсолютное значение ставки 5 лет назад. (Надо, кстати, об этом написать как-нибудь статью с сопоставлением данных из двух источников на одной диаграмме для наглядности.)
Как решать эту методологическую проблему?
Ведь если взять абсолютные значения, построить по ним график и искать по этим данным корреляцию, то можно нечаянно обмануть и себя, и читателя, не сделав оговорку про разные источники и не учтя в расчёте эту разницу.
Ответ на этот вопрос, вообще говоря, не очевиден.
Для целей просто посмотреть долгосрочную динамику можно использовать способ, описанный выше — сделать переход от одного источника на другой по процентам темпов роста, а не по абсолютным значениям.
А вот если необходимо искать корреляцию между ставками и какими-то другими параметрами рынка, то возникает вопрос, что же лучше использовать: темпы прироста, абсолютные значения или цепной ряд (процент к какой-то выбранной дате и по цепочке нанизывать на него каждое следующее значение с помощью увеличения исходного процента на процент роста)? В качестве рабочей гипотезы, думаю, можно делать двойную работу — например, искать корреляции с каждым из двух типов рядов, а потом, в зависимости от контекста задачи, уточнять, какой из рядов для какой задачи даёт более корректные результаты. (См. о близкой проблеме в моей старой статье «Как регрессии могут нас обманывать».)
Вы скажете, дорогой читатель, что вышеописанное — некоторое занудство? Здесь вы правы. Но проблема в том, что, если не учитывать эту небольшую методологическую тонкость, то иногда может случиться так: делая два расчёта по одним и тем же данным, мы получим существенно отличающуюся корреляцию, либо похожую корреляцию, но с разной теснотой связи. Двое моих знакомых искали аналогичную корреляцию и получилось, что исходные данные почти те же самые, а «r-квадрат» в регрессии у одного 0,4, а у другого 0,8.
Проще говоря, у одного получилось, что связь очень слабая, а у другого — что связь очень сильная.
Поэтому, если вы пишете статью с поиском степени тесноты корреляции между показателями, бывает полезно в более явном виде проговорить свои предпосылки и подробно проанализировать характер исходных данных. Эксплицировать свои допущения, как говорят экономисты. И ещё более важно понимать, по какой методике формировались те исходные данные, которые вы используете в своих регрессиях.
Впрочем, ещё опаснее, чем обмануть читателя, обмануть себя. Кажется, Ницше в своё время заметил, что верующие зачастую хуже жрецов: жрецы обманут только паству, а верующие — ещё и самих себя.
ВГУДОК представляет новый проект — экспертный Telegram-канал @Vgudok.PRO