A/B TEST
์กฐ์ฌ ๋์์ ์คํ๊ตฐ(A)๊ณผ ๋์กฐ๊ตฐ(B)์ผ๋ก ๋๋์ด ๋ด๊ฐ ํน์ ์กฐ๊ฑด์ ๋ง์ถฐ ํ ์คํธํ ๋์์ ์คํ๊ตฐ, ์กฐ๊ฑด์ ๋ง์ถ์ง ์์ ๋์์ ๋์กฐ๊ตฐ์ผ๋ก ๋๊ณ ๋ ์ง๋จ์ ๋น๊ตํ๋ ๋ฐฉ๋ฒ์ด๋ค. ํต๊ณ์์๋ ๋ ๋ฆฝ์ฑ๊ฒ์ (์นด์ด์ ๊ณฑ๊ฒ์ ์ ์ํ), ์ํ์ชฝ์์๋ ๋ฌด์์ ๋น๊ต ์ฐ๊ตฌ(RCT, Randomized-Controlled Trial)๋ผ๊ณ ํ๋ค.
โป ์นด์ด์ ๊ณฑ ๊ฒ์ (Chi-squared test)
1) ์ ํฉ๋ ๊ฒ์ (Goodness of fit test) : ๊ด์ฐฐ๋ ๋น์จ์ ๊ฐ์ด ๊ธฐ๋๊ฐ๊ณผ ๊ฐ์์ง ๊ฒ์
2) ๋์ง์ฑ ๊ฒ์ (Test of homogeneity) : ๋ ์ง๋จ์ ๋ถํฌ๊ฐ ๋์ผํ์ง ๊ฒ์ 3) ๋ ๋ฆฝ์ฑ ๊ฒ์ (Test for independence) : ๋ ๋ณ์๊ฐ ์๋ก ์ฐ๊ด์ฑ์ด ์๋์ง(๋ ๋ฆฝ์ ์ธ์ง)๋ฅผ ๊ฒ์
โถ ์์
1) IT๊ธฐ์ ์์๋ ์ฃผ๋ก ์ต์ ์ ๋ฐฉ์์ ์์๋ด๊ธฐ ์ํ ๊ฐ์ธํ๋ง์ผํ ์คํ์ ์ฌ์ฉ๋๋ค. ์ ๋ฒ์ ์ด๋ค ๋ด์ค์์ ์นด์นด์ค์์๋ ๋ ๊ฐ์ UI ๋ฐฐ๋๋ฅผ ๋ง๋ค์ด ๋ฌด์์๋ก ์ถ์ถํ ์ง๋จ์ ๋๋คํ๊ฒ ๋์ถํ ๋ค์, ๋ ๋ฐฐ๋๋ฅผ ์ด์ฉํ ์ฌ์ฉ์๋ค์๊ฒ ํฌํ๋ฅผ ๋ ๋ฆฐ ํ, ํฌํ ๊ฒฐ๊ณผ๋ฅผ ์ข ํฉํ์ฌ ์ด๋ค ๋ฐฐ๋๊ฐ ๋ ์ธ๊ธฐ๊ฐ ์์๋์ง ํ ์คํธํ๋ค๋ ๊ธฐ์ฌ๋ฅผ ๋ณด์๋ค. ํฌํ๋ฅผ ํ๋ค๋ฉด ๋จ์ํ ์ ํธ๋๋ง ๋น๊ตํด์ ์ธ๊ธฐ์๋ ๋ฐฐ๋๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ธ์ง ์๋ฌธ์ด ๋ค์๋ค.
2) ๋ํ, ๊ฒ์์์๋ ํน์ ๋ณด์์ ํจ๊ณผ๋ฅผ ๋ณด๊ธฐ ์ํด A์ง๋จ์๋ ๋ณด์์ผ๋ก ์์ดํ ์ ์ฃผ๊ณ , B์ง๋จ์๋ ๋ณด์์ผ๋ก ๊ฒฝํ์น๋ฅผ ์ฃผ๊ณ ์ด๋ค ๋ณด์์ด ์ธ๊ฒ์์์์ ๋ ํจ์จ์ ์ธ์ง ํ์ ํ๊ธฐ๋ ํ๋ค.
3) ๋ทํ๋ฆญ์ค๋ ์ ํ ๊ฐ์ ์ ๋ฐฉํฅ ์์ฒด๋ฅผ A/B ํ ์คํธ์ ์์กดํ๊ณ ์๋ ๊ธฐ์ ์ด๋ผ๊ณ ํ๋ค. ์๋ ๊ธฐ์ฌ์ ์ํ๋ฉด ๋ทํ๋ฆญ์ค ์ฌ์ฉ์๋ค์ ์ฝํ๋ฅผ ๊ฐ์ฅ ๋จผ์ ํ์ธํ ํ, ๋ค์์ผ๋ก ๋๋จธ์ง ์ ๋ชฉ, ์๋์์ค, ํ์ ๋ฑ ๋๋จธ์ง ์ ๋ณด๋ฅผ ํ์ธํ๋ค๊ณ ๋์ด์๋ค. ๋ฐ๋ผ์ ๋ทํ๋ฆญ์ค์์๋ ํ๋์ ํด๋ฆญ์๋ฅผ ๊ฐ์ ํ ๋ฐฉํฅ์ ๋ชจ์ํ๊ธฐ ์ํด ์ฌ๋ฌ ์ฝํ๋ฅผ ๋๊ณ ํด๋ฆญ์๊ฐ ๋๊ฒ ๋ํ๋๋ ์ฝํ๋ฅผ ์ปจํ ์ธ ๋ํ ์ฝํ๋ก ๋ฑ๋กํ๊ฒ ๋๋ค. (์ด์ฉ์ง ๋ทํ๋ฆญ์ค์๋ ๋ํ ์ฌ์ง์ด ์๋ ์ฒ์๋ณด๋ ๋นํ์ธ๋ ์ฌ์ง์ด ๋ฑ๋ก๋์ด ์์ด์, ์๋ ์ํ์ธ๋ฐ๋ ๊ณ์ ๋ค๋ฅด๊ฒ ๋ณด์ด๊ณ ์๋ก์ด ์ํ๋ ๊ถ๊ธํ๊ธฐ๊น์งํ๋ค.)
https://www.mobiinside.co.kr/2020/10/05/hackle/
4) ์๋ง์กด, ์์ด๋น์ค๋น, ๊ตฌ๊ธ ๋ฑ ์ฌ๋ก ์ ๋ฆฌ
https://brunch.co.kr/@digitalnative/17
โถ ์ฃผ์์ฌํญ
- A/B ํ ์คํธ๋ฅผ ํ๊ธฐ ์ํด์๋ ๋ ์ง๋จ์ ์์์ ์ผ๋ก ๋๋์ด์ผ ํ๋ค. ์ฆ, random sampling์ ํตํด ํน์ ๊ทธ๋ฃน๊ตฐ์ผ๋ก ๋ฌถ์ด์ง ์๊ณ ์ฌ๋ฌ ํ๋ณธ์์ ์ถ์ถ๋ ์ ์๋๋ก ํด์ผ ํ๋ค. ์๋ฅผ๋ค์ด ์ค๋ ์ง์ฃผ์ค์ ์คํ ํจ๋์ ๋ฐ๋ฅธ ๋ง์ ํ๊ฐํ๊ธฐ์ํด ๋์์๋ฅผ ์น๊ตฌ๋ค๋ก ์ก๊ณ ์ฌ์์ธ ์น๊ตฌ๋ค์๊ฒ๋ ์คํ์ด 20g ํจ๋ฅ๋ ์ค๋ ์ง์ฃผ์ค๋ฅผ, ๋จ์์ธ ์น๊ตฌ๋ค์๊ฒ๋ ์คํ์ด 40g์ด ํจ๋ฅ๋ ์ค๋ ์ง์ฃผ์ค๋ฅผ ์ฃผ์๋ค๊ณ ๊ฐ์ ํ์. ์ฌ๊ธฐ์ ์๋ชป๋ ์ ์ ๋ 1) ๋์์๋ฅผ ๋์ ์น๊ตฌ๋ค๋ก ํ์ ํ๋ค๋ ๊ฒ, 2) ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ ์ฑ๋ณ์ด๋ผ๋ ์๋ฏธ๋ฅผ ๋ถ์ฌํ๋ค๋ ๊ฒ์ด๋ค. 1)์ ์ ์ ๋ฅผ ๋ฌด์ํ๋ค๋ฉด, ๊ฒฐ๊ณผ ๋ํ "์ค๋ ์ง์ฃผ์ค์ ๋ง์ ~๊ฐ ๋ ๋ซ๋ค"๊ฐ ์๋ "๋ด ์น๊ตฌ๋ค์๊ฒ๋ ์ค๋ ์ง์ฃผ์ค์ ๋ง์ด ~๊ฐ ๋ ๋ซ๋ค"๋ก ๋ง๋ถ์ฌ์ฃผ์ด์ผ ์ผ๋ฐํ์ ์ค๋ฅ๋ฅผ ํผํ ์ ์๋ค.
โป ์ผ๋ฐํ์ ์ค๋ฅ(the fallacy of hasty generalization) : ๋ช ๊ฐ์ ์ฌ๋ก๋ ๊ฒฝํ์ผ๋ก ์ ์ฒด์ ์์ฑ์ ๋จ์ ์ง๊ณ ํ๋จํ๋๋ฐ์ ๋ฐ์ํ๋ ์ค๋ฅ (in wikipedia)
- ํ ์คํธ ์ "์ด ํ ์คํธ๊ฐ ๊ณ ๊ฐ์ ์๋ก์ด ์ ๋ณด๋ฅผ ์ค ๊ฒ์ธ์ง"๋ฅผ ์๊ฐํด๋ณด๊ณ ์๋๋ผ๋ฉด, ๋ค๋ฅธ ์ค์ํ ๊ฒ์ ์ต์ ํํด๋ณด๋๊ฒ ๋ซ๋ค.
- ๋ง์ ๋ฆฌ์์ค๋ฅผ ํ๋นํ๊ฑฐ๋ ๋ฌ์ฑํ๋ ค๋ ๋น์ฆ๋์ค์ ๋ชฉํ๊ฐ ๋ชจํธํด์ง ์๋ ์๊ธฐ ๋๋ฌธ์ ํ ์คํธ์ ์์ ๋ชฉ์ ์ ๋ช ํํ ํ๋ ๊ฒ์ด ์ค์ํ๋ค.
โถ ๊ฒฐ๊ณผ
์นด์ด์ ๊ณฑ ๊ฒ์ (Chi-squared test)
> chisq.test
p-value ๊ฐ์ด 0.05๋ณด๋ค ์๋ค๋ฉด ์คํ๊ตฐ๊ณผ ๋์กฐ๊ตฐ์ ์ฐจ์ด๊ฐ ์๋ค๊ณ ํ๋จํ๋ค.
์ฐธ๊ณ
์ฌ๊ธฐ์๋ ํจ์๋ฅผ ์ฐ์ง ์๊ณ ์ง์ R๋ก ์ฝ๋ฉํด๋จ๋ค.
https://www.geeksforgeeks.org/ab-testing-with-r-programming/
์ด๋ ์ชฝ์ ๋ฐฐ๋ ๊ด๊ณ ๋ฐ์์ด ๋ ์ข์์ง ์ค์ ์ฝ๋ฉ
https://rpubs.com/odenipinedo/AB-testing-in-R
'๊ณ๋ฐ๐พ > ๋ถ์ ๋ฐฉ๋ฒ๋ก ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Causal Impact Analysis (2) | 2021.11.08 |
---|