Бесплатный инструмент

Калькулятор A/B/n‑тестов

Проверьте статистическую значимость результатов эксперимента — до 4 вариаций, два метода: частотный (p-value, ДИ) и байесовский (вероятность победы).

  1. 01
    Введите данные Посетители и конверсии для каждой вариации
  2. 02
    Выберите метод Частотный — строже, байесовский — быстрее
  3. 03
    Читайте результат Зелёный = значимо, жёлтый = данных пока мало

Результаты теста

Параметры анализа

Данные вариаций A — контрольная

2 из 4
Вариация Посетители Конверсии CR, %

Максимум 4 вариации (A, B, C, D). При 3+ вариациях учитывайте поправку на множественные сравнения.

Результаты сравнение с контрольной A

Планирование теста

Расчёт выборки до старта теста

Необходимая выборка

Методология

Байесовский vs Частотный

Байесовский · Beta-Binomial

Оперативное принятие решений

  • Отвечает: «с какой вероятностью B лучше A?»
  • Порог решения — P(B > A) ≥ 95%
  • Можно оценивать на любом этапе накопления данных
  • Prior — равномерный Beta(1,1), нейтральный
  • Ожидаемый uplift считается по 20 000 симуляциям

Лучше для: быстрых решений в e-commerce, малых и средних выборок.

Частотный · z-тест пропорций

Строгая проверка гипотезы

  • Даёт p-value: вероятность случайного различия при H₀
  • Доверительный интервал для абсолютного эффекта
  • Объём выборки должен быть определён до старта
  • Нельзя останавливать досрочно — уровень ошибки вырастет
  • Нейтрален к предшествующим знаниям о конверсии

Лучше для: крупных выборок, строгих финансовых или регуляторных решений.

FAQ

Частые вопросы

p-value — вероятность получить наблюдаемое различие (или более экстремальное) случайно, при условии что между вариациями нет реального эффекта (нулевая гипотеза). При p < 0,05 принято говорить о статистической значимости: вероятность случайного результата менее 5%. Важно: p-value не показывает размер эффекта и не говорит о практической значимости.

Это означает, что при текущем объёме данных нельзя уверенно утверждать, что различие не случайно. Это не означает, что вариация хуже или что тест провалился — только то, что вывод делать рано. Соберите больше данных или пересмотрите минимально значимый эффект.

Минимальный размер выборки зависит от базовой конверсии, ожидаемого минимального эффекта (MDE) и уровня значимости. Для типичного e-commerce (CR ~2–5%, MDE ~10–15%) нужно от 5 000 до 20 000 посетителей на вариацию. Используйте раздел «Расчёт выборки» выше — он посчитает нужный объём автоматически.

Частотный подход предполагает фиксированный объём выборки, определённый заранее. Если проверять результаты в процессе и останавливать при p < 0,05 — реальный уровень ошибки первого рода оказывается выше заявленного α. При 5 промежуточных проверках риск ложного срабатывания вырастает с 5% до ~22%. Байесовский подход позволяет принимать решения в любой момент.

ДИ 95% означает: если повторить тест много раз, в 95% случаев интервал накроет истинный абсолютный эффект. Если интервал не пересекает ноль — эффект статистически значим. Чем уже интервал — тем точнее оценка, что обычно достигается большим объёмом выборки.

При одновременном сравнении A vs B, A vs C, A vs D вероятность получить хотя бы одно ложное срабатывание растёт. При трёх тестах с α = 5% суммарный риск ложной значимости — до 14%. Стандартная поправка — Бонферрони: делите α на число сравнений. Для трёх вариаций используйте α / 2 = 2,5%. Калькулятор показывает предупреждение при 3+ вариациях.

MDE (Minimum Detectable Effect) — минимальный относительный прирост конверсии, который практически значим для бизнеса. Например, если вам важно зафиксировать рост CR с 6,5% до 7,15% — MDE составит 10%. Чем меньше MDE, тем больше выборка. Обычно в e-commerce задают MDE 5–15%: меньший эффект трудно зафиксировать без очень длинного теста.

Инструмент реализует двухвыборочный z-тест для пропорций и байесовский Beta-Binomial подход. Он подходит только для бинарных метрик (конверсия, клик, покупка). Не поддерживает: непрерывные метрики (средний чек), CUPED и методы снижения дисперсии. При базовой конверсии менее 1% или выборках < 100 на вариацию нормальное приближение ненадёжно.

Блог

Как правильно проводить A/B-тесты

Все статьи
28 февраля 2025 5 мин

Как увеличить эффективность рекламного бюджета

(Ключевые идеи из вебинара, запись) ? Спикер:Вадим — руководитель команды роста Gravity Field, лично работал с ведущими enterprise-клиентами в индустриях Foodtech, Ecommerce, Fintech. Проверил множество гипотез и знает, какие решения действительно работают. Введение: Почему реклама не приносит ожидаемый результат? Представьте: вы вложили бюджет в рекламу, привлекли пользователей на сайт, но они не покупают. Bounce rate […]
Читать
27 февраля 2025 4 мин

Как проводить A/B тесты

Как составить дизайн A/B теста, чтобы результатам можно было доверять A/B тестирование – мощный инструмент, но только если его провести правильно. Ошибки на этапе дизайна теста приводят к недостоверным результатам и уводят бизнес в сторону. Разбираем, как спланировать эксперимент так, чтобы выводы были точными и полезными. 1. Определите цель теста Цель – это не просто […]
Читать
26 сентября 2024 10 мин

Как построить персонализацию на практике: подходы, этапы и рецепты

Рассказываем о подходах к персонализации и ее применении на практике
Читать
Gravity Field

Нужна платформа для A/B-тестов в e-commerce?

Gravity Field встраивает A/B-движок в контур персонализации: сегментация аудитории, автоматическое распределение трафика, real-time аналитика результатов.

Запросить демо