베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje

군더더기 없는 기계학습 백과사전

확률 이론 혹은 수리통계학을 접하는 분들은 반드시 베이즈 정리를 접하게 된다. 영어로는 Bayes Rule 혹은 Bayes' Theorem이라고 부르기도 한다. 그러나 인터뷰 문제에서 만약 해당 이론을  간접적으로 접하게 된다면 단순히 수식을 풀어서 증명하는 것을 이해하는 정도로는 그쳐서는 안 될 것이다. 여러분의 이해를 돕기 위해 한 가지 사용 예시를 써본다.

온라인에서 많이 접하게 되는 베이즈 정리에 대한 이해가 요구되는 기출 문제다. 데이터 과학자 전화 인터뷰에서 자주 나오는 문제였다는데 아직도 비슷한 문제는 나오고 있을 것이라고 믿는다. 살짝 문장이 애매모호해 다양한 진지한 분석들을 봤다. 가장 단순한 풀이부터 제일 복잡한 풀이까지 천천히 접해보자.

베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje
날씨 좋은 시애틀 퍼블릭 마켓
당신은 지금 시애틀행 비행기를 기다리고 있다. 시간을 때우기 위해 당신은 시애틀에 사는 3명의 친구에게 전화를 건다. 각각의 친구에게 당신은 현재 시애틀에서 비가 오는지 묻는다.

3명 모두 "비가 오고 있다"라고 답한다.

3명의 친구는 모두 동일하게 1/3의 확률로 거짓말을 하고 2/3의 확률로 진실을 말한다.

지금 시애틀에 정말로 비가 오고 있을 확률은 얼마인가?

"뭐 이딴 친구가 다 있어?" 싶겠지만 문제풀이로 들어가보자. 현재 필자가 찾아본 바 이 문제가 물어보는 바에 대해서 온라인에는 3가지 해석이 존재한다. 

1. 지금 셋 다 진실을 말하고 있을 확률은 무엇인가?

세 친구의 발언이 독립 사건이라는 가정 하에 많은 사람들이 처음에 다음과 같이 답변을 했을 것이라고 생각한다.

$$\frac{2}{3} \times \frac{2}{3} \times \frac{2}{3} = \frac{8}{27}$$

다음과 같은 답변을 한 사람들은 십중팔구로 전화 인터뷰 이후로 아무런 연락이 없었다고 한다. (...)

엄밀히 따지자면 우린 지금 저 셋이 전부 진실을 말하고 있는지 거짓말을 말하고 있는지 모르고, 셋이 거짓말을 하든 말든 지금 시애틀에서 진짜로 비가 오는지에 대한 확률을 반영하지는 못하기 때문이라고 생각한다.

2. 최소한 한 명이 진실을 말하고 있을 확률은 무엇인가?

"최소한 한명이 진실을 말할 확률은 곧 시애틀에 진짜로 비가 오고 있을 확률이다, "라는 생각에서 발생하는 풀이이다. 풀이는 간단하다. 전체 확률 공간에서 셋 다 거짓말을 하고 있을 확률을 빼면 된다.

$$1-\frac{1}{3} \times \frac{1}{3} \times \frac{1}{3} = \frac{26}{27}$$

이 답변 또한 엄밀히 말하자면 문제의 본질을 살짝 회피하는 경향이 보인다.

3. 셋 다 동일한 "그렇다" 답변을 했다는 사실이 주어졌을 때 시애틀에서 비가 오고 있을 확률은 얼마인가?

베이즈 정리가 잘 기억이 나지 않는가? 우리가 확실히 알고 있는 몇 가지 식부터 확인하고 다시 차근차근 떠올려보자.

베이즈 정리 복습

일단 조건부 확률의 정의부터 떠올려보자. 독립 사건이 아닌 사건 $A, B$가 주어졌다고 해보자.

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

해당 식에서 우린 다음 공식을 구할 수 있다.

$$P(A|B)P(B) = P(A \cap B)$$

사건 $B$ 에도 똑같이 적용시켜 우리는 다음과 같은 관계를 성립시킬 수 있다.

$$P(A|B)P(B) = P(A \cap B) = P(B|A)P(A)$$

여기에서 우리는 베이즈 정리를 정리하는 공식을 유도해 낼 수 있다.

$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$

여기서 한 발자국 더 나아가면 다음과 같은 공식을 구할 수 있다. 이게 우리가 사용하고자 하는 공식이다. $P(A^c)$는 $P(A)$의 여집합을 뜻한다. 그러니까 $P(A^c) = 1-P(A).$

$$P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}$$

잠깐만. 분모가 이해가 되지 않는 분들이 있다면, 하나씩 $P(B|A)P(A) = P(A \cap B)$라는 사실을 떠올린 뒤 벤 다이어그램을 그려 정말 $P(B)$인지 아닌지 확인해보자. 엄밀히 따지자면 정식 증명이 아니지만 말이다.

문제풀이

몇 가지 확률을 정의해보자.

$P({y,y,y})$: 셋 다 "그렇다"라고 답변할 확률을 뜻한다.

$P(R)$: 시애틀에서 비가 올 확률을 말한다. 우리는 이 수치를 모른다.

그럼 우리가 구하고자 하는 확률은 다음과 같다.

$$P(R|y,y,y) = \frac{P(y,y,y|R)P(R)}{P(y,y,y|R)P(R) + P(y,y,y|R^c)P(R^c)} \quad (1)$$

부위별로 나누어 이해해보자.

$P(y,y,y|R)$: 비가 올 때 셋 다 "그렇다" 답할 확률을 말한다. 그러니까 셋 다 진실을 말할 확률이 된다. 첫 번째 풀이에 따르면 8/27이다

$P(y,y,y|R^c)$: 비가 안 올 때 셋 다 "그렇다" 답할 확률을 말한다. 그러니까 셋 다 거짓을 말할 확률이 된다. 이는 두 번째 풀이에 따르면 1/27이다.

그럼 이제 $(1)$에 위의 두 확률 값을 대입해 다음과 같이 해답을 구할 수 있다. 해당 공식은 공약수로 분자 분모 나눠서 약분을 한 상태다.

$$P(R|y,y,y) = \frac{8P(R)}{8P(R) + P(R^c)}$$

$$P(R|y,y,y) = \frac{P(R)}{P(R) + P(R^c)/8}$$

이쯤 되면 뭔가 의문점이 들 것이다. $P(R)$을 모르는데 답을 어떻게 구해? 필자가 들은 바에 의하면 해당 사실을 언급하면 인터뷰하는 사람이 사전 분포가 필요하다고 말하면 알려준다고 한다. (...)

이제 베이즈 정리 사용에 좀 더 익숙해졌길 바란다.

[Copyright ⓒ 블로그채널 무단전재 및 재배포 금지]

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다.


 조건부 확률의 주요 이론인 베이즈 정리에 대해 알아보고 베이즈 정리와 관련된 다양한 응용문제를 다루어보겠습니다.


1. 베이즈 정리 - Bayes' theorem

 베이즈 정리는 조건부확률을 이용하여 계산하는 이론입니다. 식은 다음과 같습니다.

베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje
베이즈 정리
베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje
베이즈 정리의 일반식

 조건부 확률의 두 가지 응용식을 이용했습니다.

베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje
조건부 확률의 응용

 이제 베이즈 정리에 대해 알아보도록 하겠습니다.

 베이즈 정리는 원인과 결과 형태의 문제에서 결과에 대한 원인 분석을 가능하게 합니다!

 조건부확률 $P(B \mid A)$는 순서적으로 볼 때, 대부분 사건 $A$가 먼저 발생하고 $B$가 이어 발생하는 상황으로 $A$는 원인, $B$는 결과의 형태를 갖습니다.

 이와 같은 상황에서 원인의 가능성을 나타내는 $P(A)$ 또는 $P(A^c)$를 사건 $B$가 관측되기 이전의 확률이라고 해서 사전확률(pior probability)라고 합니다.

 어떤 문제에서는 결과를 얻은 상태에서 그 결과가 발생하게 된 원인을 역으로 추적해 가는 경우가 있는데 이런 연구방식을 후향적 연구(retrospective study)라고 합니다.

 이런 연구에서는 결과 $B$가 관측됐을 때 그 원인이 $A$일 사건의 확률 $P(A \mid B)$이 얼마인지에 관심을 갖습니다. 이 확률을 사건 $B$가 관측된 후의 $A$의 확률이라고 해서 사후확률(posterior probability)라고 합니다. 종종 $P(B \mid A)$와 $P(A \mid B)$를 혼돈하는 경우가 있는데 두 확률은 다른 개념입니다.

 그러면 B가 발생했을 때 A의 확률(사후확률)을 어떻게 구할 수 있을까? 이 질문에 대한 답을 베이즈가 제시하였습니다.

베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje

 $P(B)$와 $P(A \cap B)$에 조건부확률의 응용을 적용한 식입니다. 이 식에 의하면 결과 $B$가 주어졌을 때 원인 $A$의 확률을 사전확률 $P(A)$, $P(A^c)$와 일반적인 순서의 조건부확률을 이용하여 계산할 수 있다는 것입니다. $P(A)$의 정보(사전정보)를 알고 있다면 풀 수 있습니다.

 베이즈정리를 이용하여 문제를 풀어보도록 하겠습니다.

문제1

 암 간이진단 검사를 실시하는데 이 검사는 암에 걸렸을 때 양성반응이 나올 확률은 0.96이고 암에 걸리지 않았을 때 양성반응이 나올 확률이 0.05라고 하겠습니다. 그리고 암에 걸릴 확률을 0.001이라고 하겠습니다. 만약 검사에서 양성반응이 나왔다면, 암에 걸렸을 확률을 구해보도록 하겠습니다.

베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje
베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje
베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje
베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje

문제2

 포털회사에서 스팸메일을 걸러내는 시스템을 개발하기 위해 메일 내용에 특정 단어가 들어갔을 때 스팸메일일 확률을 계산하고자 합니다. 수신메일중 40%가 스팸메일이고 나머지는 정상메일입니다. 스팸메일 중 내용에 '$A$'라는 단어가 있는 메일은 25%이고 정상메일 중 이 단어가 있는 경우는 2%라고 하겠습니다. 전체 메일 중 '$A$'단어를 포함한 메일의 비율은 이전 포스팅에서 풀었으므로 $P(A)$ = 0.112라는 정보를 이용하겠습니다.

수신메일 내용에 '$A$'라는 단어가 있다고 할 때 이 메일이 스팸메일일 확률을 구해 보겠습니다.

베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje
사전정보
베이 즈 정리 예제 문제 - bei jeu jeongli yeje munje

 이상으로 조건부 확률의 주요 이론인 베이즈 정리에 대해 알아보고 베이즈 정리와 관련된 다양한 응용문제를 다루어보았습니다. 감사합니다.