Бесплатный инструмент

Калькулятор A/B/n‑тестов

Проверьте статистическую значимость результатов эксперимента — до 4 вариаций, два метода: частотный (p-value, ДИ) и байесовский (вероятность победы).

01
Введите данные Посетители и конверсии для каждой вариации
02
Выберите метод Частотный — строже, байесовский — быстрее
03
Читайте результат Зелёный = значимо, жёлтый = данных пока мало

Результаты теста

Параметры анализа

Метод анализа

Уровень значимости (α)

Данные вариаций A — контрольная

2 из 4

Вариация	Посетители	Конверсии	CR, %

Максимум 4 вариации (A, B, C, D). При 3+ вариациях учитывайте поправку на множественные сравнения.

Результаты сравнение с контрольной A

Планирование теста

Расчёт выборки до старта теста

Базовый CR контроля, % MDE, % (относительный) Мощность теста Дневной трафик (опц.)

Необходимая выборка

Методология

Байесовский vs Частотный

Байесовский · Beta-Binomial

Оперативное принятие решений

Отвечает: «с какой вероятностью B лучше A?»
Порог решения — P(B > A) ≥ 95%
Можно оценивать на любом этапе накопления данных
Prior — равномерный Beta(1,1), нейтральный
Ожидаемый uplift считается по 20 000 симуляциям

Лучше для: быстрых решений в e-commerce, малых и средних выборок.

Частотный · z-тест пропорций

Строгая проверка гипотезы

Даёт p-value: вероятность случайного различия при H₀
Доверительный интервал для абсолютного эффекта
Объём выборки должен быть определён до старта
Нельзя останавливать досрочно — уровень ошибки вырастет
Нейтрален к предшествующим знаниям о конверсии

Лучше для: крупных выборок, строгих финансовых или регуляторных решений.

FAQ

Частые вопросы

Что такое p-value и как его читать?

p-value — вероятность получить наблюдаемое различие (или более экстремальное) случайно, при условии что между вариациями нет реального эффекта (нулевая гипотеза). При p < 0,05 принято говорить о статистической значимости: вероятность случайного результата менее 5%. Важно: p-value не показывает размер эффекта и не говорит о практической значимости.

Что значит «недостаточно оснований»?

Это означает, что при текущем объёме данных нельзя уверенно утверждать, что различие не случайно. Это не означает, что вариация хуже или что тест провалился — только то, что вывод делать рано. Соберите больше данных или пересмотрите минимально значимый эффект.

Сколько данных нужно для надёжного теста?

Минимальный размер выборки зависит от базовой конверсии, ожидаемого минимального эффекта (MDE) и уровня значимости. Для типичного e-commerce (CR ~2–5%, MDE ~10–15%) нужно от 5 000 до 20 000 посетителей на вариацию. Используйте раздел «Расчёт выборки» выше — он посчитает нужный объём автоматически.

Почему нельзя останавливать частотный тест досрочно?

Частотный подход предполагает фиксированный объём выборки, определённый заранее. Если проверять результаты в процессе и останавливать при p < 0,05 — реальный уровень ошибки первого рода оказывается выше заявленного α. При 5 промежуточных проверках риск ложного срабатывания вырастает с 5% до ~22%. Байесовский подход позволяет принимать решения в любой момент.

Что такое доверительный интервал?

ДИ 95% означает: если повторить тест много раз, в 95% случаев интервал накроет истинный абсолютный эффект. Если интервал не пересекает ноль — эффект статистически значим. Чем уже интервал — тем точнее оценка, что обычно достигается большим объёмом выборки.

Почему при нескольких вариациях нужна поправка на множественные сравнения?

При одновременном сравнении A vs B, A vs C, A vs D вероятность получить хотя бы одно ложное срабатывание растёт. При трёх тестах с α = 5% суммарный риск ложной значимости — до 14%. Стандартная поправка — Бонферрони: делите α на число сравнений. Для трёх вариаций используйте α / 2 = 2,5%. Калькулятор показывает предупреждение при 3+ вариациях.

Что такое MDE и как его выбрать?

MDE (Minimum Detectable Effect) — минимальный относительный прирост конверсии, который практически значим для бизнеса. Например, если вам важно зафиксировать рост CR с 6,5% до 7,15% — MDE составит 10%. Чем меньше MDE, тем больше выборка. Обычно в e-commerce задают MDE 5–15%: меньший эффект трудно зафиксировать без очень длинного теста.

Каковы ограничения этого калькулятора?

Инструмент реализует двухвыборочный z-тест для пропорций и байесовский Beta-Binomial подход. Он подходит только для бинарных метрик (конверсия, клик, покупка). Не поддерживает: непрерывные метрики (средний чек), CUPED и методы снижения дисперсии. При базовой конверсии менее 1% или выборках < 100 на вариацию нормальное приближение ненадёжно.

Источники

Методология и материалы

Блог

Как правильно проводить A/B-тесты

Все статьи

28 февраля 2025 5 мин

Gravity Field

Нужна платформа для A/B-тестов в e-commerce?

Gravity Field встраивает A/B-движок в контур персонализации: сегментация аудитории, автоматическое распределение трафика, real-time аналитика результатов.

Запросить демо

Бесплатный инструмент

Калькулятор A/B/n‑тестов

Результаты теста

Параметры анализа

Данные вариаций A — контрольная

Результаты сравнение с контрольной A

Планирование теста

Расчёт выборки до старта теста

Необходимая выборка

Байесовский vs Частотный

Оперативное принятие решений

Строгая проверка гипотезы

Частые вопросы

Методология и материалы

Как правильно проводить A/B-тесты

Как увеличить эффективность рекламного бюджета

Как проводить A/B тесты

Как построить персонализацию на практике: подходы, этапы и рецепты

Нужна платформа для A/B-тестов в e-commerce?

Мы получили вашу заявку