Как оценить акцию без A/B-теста: от простых способов к сложным

25.03.2026 • Хабр

Материал разбирает, как оценивать эффект акции, если A/B-теста не было и контрольную группу заранее не выделяли. В качестве базовых подходов описаны Diff-in-Diff и более сложный Propensity score matching, но итоговый вывод остаётся в пользу A/B-тестов при наличии такой возможности.

Для оценки эффекта акции предлагается сравнивать целевую группу не только с её показателями до акции, но и с контрольной группой, чтобы отделить влияние самой акции от сезонности.
В простом варианте Diff-in-Diff сравнивается динамика целевой группы и всех пользователей на like-for-like-аудитории, то есть среди тех, кто был активен и до акции, и в её период.
В приведённом примере средний чек участников акции вырос с 2500 до 3000 рублей, у всех пользователей — с 1350 до 1500 рублей, а эффект акции оценён в 9% и 247.7 рубля инкремента.
Тематический Diff-in-Diff предлагает собирать контроль из концептуально похожих клиентов, например из покупателей другой выпечки в тех же магазинах или городах.
Propensity score matching строит сопоставимую контрольную группу по поведенческим признакам, таким как LTV, средний чек, активные дни и срок с регистрации, а затем рекомендует всё равно считать эффект через Diff-in-Diff.

Почему это важно: В тексте показано, что сравнение только по схеме до и после легко искажает результат, если акция проходила на фоне сезонных колебаний. Поэтому ключевой вопрос здесь — без заранее выделенного контроля восстановить базовый сценарий, который мог бы быть без акции. На практике это важно для любой оценки кампаний, где группы не были сформированы случайным образом и эффект нельзя считать напрямую.

На что обратить внимание: У простого Diff-in-Diff ограничением названа возможная непохожесть участников акции и всей пользовательской базы, из-за чего естественная динамика групп может расходиться. У Propensity score matching отдельно описаны зависимость от выбранных признаков, влияние географии и сезонности, а также риск смещения, если реальная база для контроля меньше нужного объёма. Следующий аналитический шаг в такой логике обычно связан с проверкой сопоставимости групп, калибровки score и тем, насколько параметрозависимой оказалась контрольная группа.

Коротко

Если акция была открытой и контроль заранее не выделялся, в тексте предлагается считать эффект не по схеме «до/после», а относительно сопоставимой группы.
Для быстрого верхнеуровневого расчёта описан Diff-in-Diff на like-for-like-аудитории: это снижает влияние притока новых пользователей на метрику.
Если участники акции заметно отличаются от всей базы, простое сравнение может завысить эффект; в тексте это показано на примере среднего чека.
Propensity score matching выглядит точнее, но в материале отдельно оговорены его ограничения: сезонность, эвристики признаков и дефицит реального контроля.

FAQ

Зачем в материале вообще нужен контроль при оценке акции без A/B-теста, если можно просто сравнить показатели участников до и после периода промо?

Контроль нужен, чтобы отделить эффект акции от внешних факторов, например сезонности. Без него прирост или спад можно ошибочно приписать самой акции.

Почему сравнение участников акции со всеми пользователями в лоб может дать искажённую картину, даже если у участников средний чек заметно выше?

Потому что акцией могли воспользоваться более активные и лояльные клиенты, у которых метрики изначально выше. В таком случае разница не равна чистому эффекту акции.

Чем Propensity score matching отличается от простого Diff-in-Diff и почему в тексте его всё равно не приравнивают к полноценному A/B-тесту?

Этот подход подбирает контрольную группу по набору признаков и делает группы более сопоставимыми. Но контроль остаётся модельно зависимым, а не случайно сформированным, поэтому его рекомендуют дополнять Diff-in-Diff.

Как оценить акцию без A/B-теста: от простых способов к сложным

Коротко

FAQ

Зачем в материале вообще нужен контроль при оценке акции без A/B-теста, если можно просто сравнить показатели участников до и после периода промо?

Почему сравнение участников акции со всеми пользователями в лоб может дать искажённую картину, даже если у участников средний чек заметно выше?

Чем Propensity score matching отличается от простого Diff-in-Diff и почему в тексте его всё равно не приравнивают к полноценному A/B-тесту?

Читайте также