본문 바로가기

카테고리 없음

[정보검색] 검색 성능 척도 :: 재현율 (Recall) & 정확률 (Precision) & F척도 (F-measure)

정보검색시스템의 평가는 검색 성능(retrieval performance)이 가장 중요한 평가 기준이다. 검색 성능에는 검색의 효율성과 검색의 효과성이 존재한다. 검색의 효율성(effiency)이란 검색 속도 혹은 응답 속도를 의미하는 한편 검색의 효과성(effectiveness)은 검색 결과의 정확성을 의미한다. 이러한 검색 성능을 평가하는 지표로서 재현율, 정확률, F척도 등이 존재한다.

 

가장 대표적인 검색 성능 척도로 재현율과 정확률이 있다. 이는 다음과 같이 문헌집단을 분할하여 손쉽게 구할  수 있다.

 

  적합 문헌 부적합 문헌  
검색된 문헌 a b a + b
검색되지 않은 문헌 c d c + d
  a + c b + d a + b + c + d

 

재현율 (Recall)

재현율은 적합 문헌 중 검색된 적합 문헌의 비율을 의미한다.

$$Recall = \frac{a}{a+c}$$

 

정확률 (Precision)

정확률은 검색된 문헌 중 검색된 적합 문헌의 비율을 의미한다.

$$Precision = \frac{a}{a+b}$$

 

그러나 재현율과 정확률은 보통 한쌍이 함께 사용되어 검색성능을 나타내므로 두개 이상의 시스템의 성능을 비교할 경우 어느 시스템의 성능이 확실하게 더 나은지를 판단하기 어려울 수 있다. 따라서 이러한 경우 재현율과 정확률을 복합적으로 반영하는 단일가 척도인  F척도를 사용한다.

 

F척도 (F-measure)

F척도는 E척도에 기반하는데, E척도는 다음과 같이 정의된다.

 

$$E = 1-\frac{1}{\alpha\times\frac1P+(1-\alpha)\times\frac1R} = 1-\frac{(\beta^2+1)PR}{\beta^2P+R}$$

$R$ : 재현율    $P$ : 정확률    $\alpha, \beta$ : 정확률과 재현율에 부여된 상대적인 중요도를 나타내는 파라미터

 

F척도는 다음과 같이 정의되는데, F값이 클수록 높은 성능을 나타낸다.

$$F=1-E$$

일반적으로 많이 사용하는 F척도는 재현율과 정확률에 동일한 중요도를 부여한 $F = \frac{2PR}{P+R}$이다. 이때 $\beta=1$이다. 만약 $\beta=\frac12$이라면, 이는 재현율의 중요도가 정확률의 $\frac12$배임을 의미한다. 만약 $\beta=2$이라면, 이는 재현율의 중요도가 정확률의 2배임을 의미한다.