Бесплатный инструмент
Калькулятор A/B/n‑тестов
Проверьте статистическую значимость результатов эксперимента — до 4 вариаций, два метода: частотный (p-value, ДИ) и байесовский (вероятность победы).
-
01
Введите данные Посетители и конверсии для каждой вариации
-
02
Выберите метод Частотный — строже, байесовский — быстрее
-
03
Читайте результат Зелёный = значимо, жёлтый = данных пока мало
Результаты теста
Параметры анализа
Данные вариаций A — контрольная
| Вариация | Посетители | Конверсии | CR, % |
|---|
Максимум 4 вариации (A, B, C, D). При 3+ вариациях учитывайте поправку на множественные сравнения.
Результаты сравнение с контрольной A
Планирование теста
Расчёт выборки до старта теста
Необходимая выборка
Байесовский vs Частотный
Байесовский · Beta-Binomial
Оперативное принятие решений
- Отвечает: «с какой вероятностью B лучше A?»
- Порог решения — P(B > A) ≥ 95%
- Можно оценивать на любом этапе накопления данных
- Prior — равномерный Beta(1,1), нейтральный
- Ожидаемый uplift считается по 20 000 симуляциям
Лучше для: быстрых решений в e-commerce, малых и средних выборок.
Частотный · z-тест пропорций
Строгая проверка гипотезы
- Даёт p-value: вероятность случайного различия при H₀
- Доверительный интервал для абсолютного эффекта
- Объём выборки должен быть определён до старта
- Нельзя останавливать досрочно — уровень ошибки вырастет
- Нейтрален к предшествующим знаниям о конверсии
Лучше для: крупных выборок, строгих финансовых или регуляторных решений.
Частые вопросы
p-value — вероятность получить наблюдаемое различие (или более экстремальное) случайно, при условии что между вариациями нет реального эффекта (нулевая гипотеза). При p < 0,05 принято говорить о статистической значимости: вероятность случайного результата менее 5%. Важно: p-value не показывает размер эффекта и не говорит о практической значимости.
Это означает, что при текущем объёме данных нельзя уверенно утверждать, что различие не случайно. Это не означает, что вариация хуже или что тест провалился — только то, что вывод делать рано. Соберите больше данных или пересмотрите минимально значимый эффект.
Минимальный размер выборки зависит от базовой конверсии, ожидаемого минимального эффекта (MDE) и уровня значимости. Для типичного e-commerce (CR ~2–5%, MDE ~10–15%) нужно от 5 000 до 20 000 посетителей на вариацию. Используйте раздел «Расчёт выборки» выше — он посчитает нужный объём автоматически.
Частотный подход предполагает фиксированный объём выборки, определённый заранее. Если проверять результаты в процессе и останавливать при p < 0,05 — реальный уровень ошибки первого рода оказывается выше заявленного α. При 5 промежуточных проверках риск ложного срабатывания вырастает с 5% до ~22%. Байесовский подход позволяет принимать решения в любой момент.
ДИ 95% означает: если повторить тест много раз, в 95% случаев интервал накроет истинный абсолютный эффект. Если интервал не пересекает ноль — эффект статистически значим. Чем уже интервал — тем точнее оценка, что обычно достигается большим объёмом выборки.
При одновременном сравнении A vs B, A vs C, A vs D вероятность получить хотя бы одно ложное срабатывание растёт. При трёх тестах с α = 5% суммарный риск ложной значимости — до 14%. Стандартная поправка — Бонферрони: делите α на число сравнений. Для трёх вариаций используйте α / 2 = 2,5%. Калькулятор показывает предупреждение при 3+ вариациях.
MDE (Minimum Detectable Effect) — минимальный относительный прирост конверсии, который практически значим для бизнеса. Например, если вам важно зафиксировать рост CR с 6,5% до 7,15% — MDE составит 10%. Чем меньше MDE, тем больше выборка. Обычно в e-commerce задают MDE 5–15%: меньший эффект трудно зафиксировать без очень длинного теста.
Инструмент реализует двухвыборочный z-тест для пропорций и байесовский Beta-Binomial подход. Он подходит только для бинарных метрик (конверсия, клик, покупка). Не поддерживает: непрерывные метрики (средний чек), CUPED и методы снижения дисперсии. При базовой конверсии менее 1% или выборках < 100 на вариацию нормальное приближение ненадёжно.
Методология и материалы
Как правильно проводить A/B-тесты
Как увеличить эффективность рекламного бюджета
Как проводить A/B тесты
Как построить персонализацию на практике: подходы, этапы и рецепты
Нужна платформа для A/B-тестов в e-commerce?
Gravity Field встраивает A/B-движок в контур персонализации: сегментация аудитории, автоматическое распределение трафика, real-time аналитика результатов.