Statistical Guidance on Reporting Results from Studies Evaluating Diagnostic Tests - Guidance for Industry and FDA Staff part 1#

진단 검사를 평가하는 연구 결과의 보고에 대한 통계적 지침

1. Background

1. 배경

이 지침(guidance)은 진단 검사(diagnostic tests)를 평가하는 서로 다른 연구들의 결과 보고를 위해 통계적으로 적절한 관례(practices)를 기술하고 몇몇 흔한 부적절한 관례를 식별하는 데 그 목적이 있다. 이 지침의 권고사항들은 최종 결과가 질적(qualitative)인 진단 검사(기저 측정치는 양적(quantitative)이라 할지라도)와 관련이 있다. 우리는 불일치 해결(discrepant resolution)이라 불리는 관례와 이와 연관된 문제에 대해 특별히 주의를 집중하였다.

1998년 2월 11일에, CDRH(Center for Devices and Radiological Health)는 미생물학, 혈액학/병리학, 임상 화학/독성학 그리고 면역학 기기 패널의 공동 회의(joint meeting)를 소집하였다. 이 회의의 목적은 “새로운 기기가 잘 알려진 참조 방식 또는 ‘gold standard’인 다른 기기 혹은 흔하게 사용되지 않는 다른 절차와/또는 진단을 위한 임상적 판단기준(clinical criteria)과 비교될 때 체외 진단기기(in vitro diagnostic devices) 사용을 위한 적응증을 뒷받침하기 위해 탄탄한 과학적, 통계적 분석을 사용하여 적절한 데이터 수집, 분석, 그리고 불일치 결과의 해결”에 대한 권고사항을 얻는 것이었다. 그 회의의 조언(input)을 사용하여, 새로운 진단기기에 대한 평가 연구 결과를 보고하는 데 있어서 통계적으로 타당한 일부 방식들을 논의하는 초안 지침 문서(draft guidance document)가 개발되었다. 이 초안 지침은 2003년 3월 12일에 공적인 의견(public comment)을 얻기 위해 배포되었다.

이 초안 지침의 출판 후에, FDA는 11건의 의견을 받았다. 전반적으로, 의견은 호의적이었고 최종 지침에 추가적인 정보가 포함될 것을 요구하는 내용이었다. 일부 응답자들은 표준 용어(standard terminology)의 사용에 더 주의를 기울여달라고 요구하였다.

성능(performance) 결과를 설명하기 위한 용어의 올바른 사용이 진단기기의 안전하고 효과적인 사용을 보장하기 위해 중요하다. 언제든 가능한 대로, 이 지침은 Clinical and Laboratory Standards Institute (CLSI) Harmonized Terminology Database에 수집되어 있는 대로 국제적으로 용인되는 용어와 정의를 사용하였다. 이 지침은 또한 STARD(STAandards for Reporting of Diagnostic Accuracy) Initiative에 정의된 대로 용어들을 사용하였다. STARD Initiative에서는 진단기기 동등성(equivalence)를 보이기 위해 디자인된 연구들을 특별히 다루고 있지는 않지만, 보고 개념(reporting concepts)의 대다수는 여전히 적용 가능하다.

이 가이드 문서를 포함한 FDA의 지침 문서들은 법적으로 강요되는 책임에 대해 다루고 있지 않다. 대신에, 지침 문서들은 기관이 현재 이 토픽에 대해 가지고 있는 관점을 묘사하고 있으며 특정한 규제 또는 법에 명시된 요구 사항(statutory requirements)이 인용되어 있지 않은 이상은 권고사항으로만 받아들여져야 한다. 기관의 지침서에 ‘해야한다(should)’란 단어를 쓰는 것은 어떠한 것이 제안되거나 권고된다는 의미이지 요구된다는 의미는 아니다.

우리는 의료 기기 규제의 모든 분야에 가장 부담이 덜한 방식(the least burdensome approach)를 고려해야 한다고 믿는다. 이 지침서는 적절한 과학적, 법적 요구조건에 대해 우리가 신중히 검토한 것과 이러한 요구조건을 따를 때 가장 부담이 덜한 방식이라고 우리가 믿는 사항들을 반영하고 있다. 하지만 만약에 당신이 부담이 더 덜한 대체 방식이 있다고 생각한다면 우리가 당신의 관점을 고려해볼 수 있도록 우리에게 연락을 주기 바란다. 당신이 기술한 의견을 이 지침서의 서안(preface)에 명시된 직원에게 송부하거나 CDRH 옴부즈맨(Ombudsman)에 송부할 수 있다. 의견을 전달할 수 있는 방식을 포함하여 CDRH의 옴부즈맨에 관한 전반적인 정보는 http://www.fda.gov/cdrh/ombudsman/ 에서 볼 수 있다.

2. Scope

2. 범위

이 문서는 진단기기(검사)에 대한 premarket notification(510(k))과 premarket approval(PMA) 신청의 제출을 위한 지침서를 제공한다. 이 지침서는 PMA와 510(k)에서 두 가지 가능한 결과(양성 또는 음성)를 가지는 진단기기를 평가하는 여러 유형의 연구들로부터의 결과를 보고하는 방식을 다루고 있다.

이 지침서는 진단기기에 대한 임상 연구의 디자인과 모니터링과 연관된 근본적인 통계적 이슈들은 다루고 있지 않다.

3. Introduction

3. 소개

이 섹션에서는 이 지침서와 관련된 개념들의 설명을 다루고 있다. 우리는 처음에 새로운 진단 검사의 평가에는 의도된 사용군(intended use population), 즉 , 그 검사가 사용되도록 의도된 피험자들/환자들로부터 적절하고 관련된 진단 기준점(benchmark)에 대해서 새로운 기기의 결과(검사 결과)를 비교해야 한다고 주지한다. STARD에서, 이것은 목표군(target population)이라고 불린다.

그 외 중요한 개념과 정의는 다음과 같다:

Types of test results

검사 결과의 유형

비교 방법은 검사 결과의 성격에 따라 달라진다. 진단 검사 결과(outcomes)는 대개 양적(quantitative)이나 질적(qualitative) 결과 중의 하나로 분류된다. 양적 결과는 수치적 량이나 수준인 반면에 질적 결과는 대개 두가지 가능한 반응 중의 하나로 이루어져 있다; 예를 들어 병이 있음 또는 병이 없음, 양성 또는 음성, 예 또는 아니오. 이 문서는 최종 결과가 질적인 진단 검사(기저 측정치가 양적이라 할지라도)와 관련이 있다. 양적 검사와 순위 결과의 검사(결과가 두 가지 이상이지만, 순위(ordered)가 매겨진 것)는 이 문서에서 다루어지지 않았다.

우리는 또한 당신의 연구 데이터가 한 환자로부터의 여러(multiple) 표본을 포함하지는 않는다고 가정하였다.

Purpose of a qualitative diagnostic test

질적 진단 검사의 목적

질적 진단 검사(검사 test)는 목표 질환(target condition)이 의도된 사용군의 피험자에게 있는 지 또는 없는 지를 판정하기 위해 디자인 되었다. STARD에 정의된 것처럼, 목표 질환(target condition) (관심 질환(condition of interest))은 “특정 질병, 질병 단계(disease stage), 건강 상태 또는 이미 있는 것으로 알려진 질병의 단계를 판정하는 것이나 치료의 시작, 수정 또는 종료와 같은 임상적 행위를 촉발할 수 있는 건강 상태와 같은 환자 내에서 그 외 다른 식별 가능한 상태를 칭한다.”

FDA는 라벨링에 모든 의도된 사용자들(실험실, 보건 종사자, 그리고/또는 가정 사용자)이 사용할 수 있도록 진단 성능을 구체화할 것을 권고한다.

Benchmarks

기준점

FDA는 새로운 질적 진단검사의 진단 성능을 평가하기 위한 기준점에는 두가지 주요 범주가 있다는 것을 인식하고 있다. 이러한 범주에는 (1) 참조 표준(reference standard) (아래에 정의)과의 비교, 또는 (2) 참조 표준 외의 방식이나 속성(predicate)과의 비교(비-참조 표준). 비교 방식의 선택이 라벨에 어떤 성능 척도(performance measures)가 보고되어야 할지를 판정할 것이다.

Diagnostic accuracy and the reference standard

진단 정확도와 참조 표준

새로운 검사의 진단 정확도(diagnostic accuracy)는 새로운 검사와 참조 표준 결과의 일치 정도를 지칭한다. 우리는 STARD에 정의된 대로 용어 참조 표준을 사용한다. 즉, 참조 표준(reference standard)은 “목표 질환의 유무를 확립하기 위해 사용가능한 최선의 방식이라고 간주되는 것”이다. 이것은 의도된 사용군을 두 개의 군으로만(질환이 있음 또는 없음) 나누며 평가 대상인 새로운 검사의 결과는 고려하지 않는다.

참조 표준은 단일 검사 또는 방식이거나 임상적 추적조사를 포함하여 방식과 기술(techniques)의 조합일 수도 있다. 만약 참조 표준이 방식들의 조합이라면, 어떻게 다른 결과치가 조합되어 최종적으로 양성/음성 분류 결과를 낳는지를 명시하는 알고리즘(이러한 방식들의 선택과 순서를 포함할 수도 있음)은 그 표준의 일부이다. 참조 표준의 예에는 WHO(World Health Organization) 표준을 사용한 심근 경색의 진단, American Rheumatology 가이드라인을 사용한 루푸스 또는 류마티스성 관절염의 진단 또는 배양, 조직학 그리고 우레아제(urease) 검사의 조합을 사용한 H. pylori 감염의 진단 등이 있다.

무엇이 “최선의 사용가능한 방식(best available method)”을 구성하며 그 방식이 “참조 표준(reference standard)”으로 간주되어야 하는지의 여부는 의학계, 실험실, 그리고 규제 당국 내의 의견과 관례에 의해서 확립된다. 가끔 고려될 수 있는 여러 가능한 방식들이 있다. 가끔은 합의된 참조 표준이 존재하지 않는다. 또는, 참조 표준이 존재하긴 하지만, 의도된 사용군의 무시할 수 없을 정도의 비율에서 그 참조 표준에 에러가 있음이 알려져 있을 수도 있다. 이러한 모든 상황에서, 우리는 당신의 연구를 시작하기 전에 참조 표준의 선택에 관해 FDA와 상의할 것을 권장한다.

우리는 진단 정확성(diagnostic accuracy)에 관한 일부 정의(CLSI harmonized terminology database 참조)에는 참조 표준과 목표 질환이 잘-정의된(well-defined) 임상적 장애(clinical disorder)만을 칭하는 것이 요구된다는 점을 지적하고자 한다. 이 문서에서 사용되는 정의는 범위가 더 넓다. 예를 들어, 목표 질환은 잘-정의된 건강 상 상태나 치료의 시작과 같은 임상적 조치를 촉발하는 상태를 의미할 수 있다.

Measures that describe diagnostic accuracy

진단 정확성을 설명하는 척도들

진단 정확성을 설명하는 데는 여러 방식이 있다. 적절한 척도에는 민감도와 특이도 쌍(pair)의 추산, 양성과 음성 결과 쌍의 우도비(likelihood ratio), 그리고 신뢰구간과 함께 ROC(Receiver Operating Characteristic) 분석을 하는 것 등이 있다. CLSI Approved Guidelines EP12-A와 GP10-A의 최신판; Lang and Secic (1997), Pepe (2003), Zhou et al. (2002)가 쓴 문헌; 이러한 문헌의 참조문헌; 그리고 이 문서 끝부분의 참고문헌 목록(bibliography)을 참조하라. 이러한 척도의 해석을 돕기 위해서, 우리는 관심 질환의 정의, 참조 표준, 의도된 사용군, 그리고 연구군의 설명의 제시를 권장한다.

Sensitivity and specificity

민감도와 특이도

진단 정확성의 연구에서, 새로운 검사의 민감도(sensitivity)란 목표 질환이 있는 피험자 중에 검사 결과가 양성으로 나온 피험자의 비율로 추산된다. 유사하게, 검사의 특이도(specificity)란 목표 질환이 없는 피험자 중에 검사 결과가 음성으로 나온 피험자의 비율로 추산된다 (이러한 계산의 예는 Appendix를 참조). 이것들은 민감도와 특이도의 추정치(estimates)에 불과한데, 왜냐하면 이 수치들은 의도된 사용군 피험자의 부분집합(subset)에만 기반하여 계산되었기 때문이다; 만약 피험자의 또다른 부분집합이 검사된다면(또는 심지어 다른 시점에 동일한 피험자에 대해 검사가 이루어진다 할지라도), 민감도와 특이도의 추정치는 아마도 수치적으로 다를 것이다. 신뢰 구간(confidence intervals)과 유의 수준이 피험자/표본 선택 과정에 따른 이러한 추정치들의 통계적 불확실성(uncertainty)를 수량화한다. 불확실성의 이러한 유형은 연구의 피험자 수가 증가함에 따라 감소한다.

Positive and negative predictive value

양성 그리고 음성 예측도

당신은 또한 진단 전확성을 특성화하는 데 도움을 주는 다른 양을 계산할 수도 있다. 이러한 방법들에는 양성 결과의 예측도(양성 예측도(positive predictive value) 또는 PPV라고 불림)와 음성 결과의 예측도(음성 예측도(negative predictive value) 또는 NPV라고 불림) 쌍이 포함된다. 이러한 양은 시험 결과를 어떻게 해석할 수 있을 지에 대해 유용한 통찰력을 제공해 준다. 당신은 또한 이러한 척도를 어떻게 계산하고 해석할 수 있을 지에 대한 광범위한 문헌을 참조할 수도 있다. (CLSI Approved Guidelines EP12-A와 GP10-A의 최신판; Lang and Secic (1997), Pepe (2003), Zhou et al. (2002)가 쓴 문헌; 이러한 문헌의 참조문헌; 그리고 이 문서 끝부분의 참고문헌 목록(bibliography)을 참조하라.) 이러한 척도에 대한 추가적인 논의는 이 문서의 범위 밖이다.

Bias

편의

민감도와 특이도 추정치(그리고 진단 성능의 다른 추정치들)는 편의가 생길 수 있다. 편의가 있는 추정치(Biased estimates)는 체계적으로 값이 너무 높거나 너무 낮다. 편의가 있는 민감도와 특이도 추정치는 평균적으로 실제 민감도와 특이도와 동일하지 않을 것이다. 종종 편의의 존재, 크기(정도), 그리고 방향은 판정할 수 없다. 편의는 부정확한 추정치를 낳는다.

FDA는 편의를 없애거나 최소화하기 위해서 편의의 잠재적 원인을 이해하는 것이 중요하다고 믿는다. 단순히 연구의 전반적인 피험자수를 늘리는 것이 편의를 줄이는 데는 전혀 소용이 없을 것이다. 대안적으로, “올바른(right)” 피험자의 선택, 연구 수행이나 데이터 분석 절차를 바꾸는 것이 편의를 제거하거나 줄일 수 있다.

이 지침 개발의 원(originally) 동기가 된 편의의 두 가지 원인에는 참조 표준의 에러와 목표 질환을 확립하기 위한 평가 하에서의 검사 결과를 통합시키는 것이 포함된다. 이 지침은 편의의 이러한 원인과 그 외 원인으로부터 생기는 문제들을 논의하고 당신의 연구 디자인과 데이터 분석에서 이러한 문제들을 어떻게 최소화 할 수 있을 지에 대해 설명한다. 이 지침은 편의의 모든 가능한 원인들과 어떻게 그것들을 피할 수 있을 지에 대해서 논의하고자 시도하지는 않는다. 편의와 진단 기기 연구에 관한 통합적인 논의에 대해서는 Begg (1987), Pepe (2003), Zhou et al. (2002)와 이러한 문헌에 인용된 참조문헌들을 참조하라.

When a non-reference standard is used for comparison

비-참조 표준이 비교를 위해 사용되었을 때

새로운 검사가 비-참조 표준과의 비교에 의해 평가되었을 때, 민감도와 특이도는 이 비교 결과를 설명하기 위해 적절한 용어가 아니다. 새로운 검사의 정확도(accuracy) 또는 “올바름(correctness)”에 관한 정보는 직접적으로 추산될 수 없다. 대신에, 비-참조 표준이 비교를 위해 사용되었을 때, FDA는 당신이 후보 검사(candidate test)가 비교 방법이나 기존 방법과 충분히 일치한다는 것을 제시하라고 권장한다. 이 문서에서 다루고 있는 질문은 비교 방법이 참조 표준이 아닐 때 새로운 진단 검사를 평가하는 연구의 결과를 어떻게 보고하는 지에 대한 것이다.

4. Benchmark and Study Population Recommendations

4. 기준점과 연구군 권장사항들

FDA는 첫 시료를 수집하거나 첫 측정을 하기 전에 당신의 연구를 신중하게 계획할 것을 권장한다. 이 계획에는 진단 정확성 또는 기기 일치도를 보고할 것인지 여부를 판정하는 것이 포함된다. 만약 당신이 진단 정확성을 보고하고자 한다면, FDA는 최소 일부 피험자에 대해서 참조 표준을 사용하는 것을 평가에 포함하라고 권장한다.

우리는 임상 연구의 어떤 데이터 수집이 이루어지기 전에 가능한 연구 디자인과 통계 분석에 관해 당신이 CDRH와 조기에 연락할 것을 권장한다. 종종 적절하게 사용될 수 있는 유망한 고급(promising adavanced) 통계 방식이 있을 수 있으며, 새로운 통계 분석 기술이 끊임없이 개발되고 있다. 이 문서 끝에 있는 참조문헌의 목록에는 여러 접근방식들을 포함하고 있다. 연구를 시작하기 전에 당신의 계획된 연구를 CDRH와 논의하는 것이 시간과 돈을 아낄 수 있다.

4.1 Comparisons with the Benchmark

4.1 기준점과의 비교

비교 기준점(comparative benchmark)과 비교와 보고 방식의 선택은 참조 표준의 존재 여부와/또는 실제적 적용성(practical applicability)에 영향을 받는다. 참조 표준의 사용성에 따라, FDA는 비교 기준점의 선택에 관한 다음 권고사항을 제시한다:

  1. 만약 참조 표준이 사용가능하다면: 이것을 민감도와 특이도를 추정하는 데 사용하라

  2. 만약 참조 표준이 사용가능하지만 적용가능하지 않다면(impractical): 이 것을 가능한 만큼 사용하라.

민감도와 특이도의 추정치를 계산하고 이 참조 표준을 최대한 사용하지 못하여서 생겼을 수 있는 편의를 교정하기 위해 보정하라.

  1. 만약 참조 표준이 사용가능하지 않거나 당신의 특정 적응증/또는 의도된  사용군에 대해 적용할 수 없다면: 참조표준을 구성할 수 있을 지에

대해 고려하라. 만약 그러하다면, 구성된 표준 하에서 추정된 민감도와 특이도를 계산하라.

  1. 만약 참조 표준이 사용가능하지 않으며 구성될 수 없다면: 일치도 (agreement)의 척도를 계산하고 보고하라 (Appendices 참조).

우리는 이제 이러한 권고사항들에 대해 더 구체적으로 제시하고자 한다:

If a reference standard is available

참조 표준이 사용 가능할 때

순수히 통계적인 관점에서, FDA는 최선의 방식은 참조 표준을 지명하고 새로운 검사를 의도된 사용군을 대표하는 피험자를 뽑아 지명된 참조 표준과 비교하는 것이라고 믿는다. 우리는 당신이 지명된 참조 표준이 기관(주:FDA)의 요건을 만족시키는 지 보장받기 위해 연구를 계획하기 전에 FDA와 상의할 것을 권장한다. 이러한 상황에서, 민감도와 특이도는 의미를 가지며 추정치는 쉽게 계산할 수 있다. Appendices에 수치적 예시가 있다.

If a reference standard is available, but impractical

참조 표준이 사용가능하지만 적용가능하지 않을 때

만약 모든 피험자에 대해 참조 표준을 사용하는 것이 적용가능하지 않거나 가능하지 않다고 판단한다면, FDA는 새로운 검사와 비교 방식(참조 표준 외의 방식)을 모든 피험자에 대해 사용하여 민감도와 특이도의 추정치를 얻고, 참조 표준은 피험자의 부분집합(종종 부분 확인 연구(partial verification studies) 또는 이-단계 연구(two-stage studies)라고 불림)에 대해서만 사용할 것을 권장한다.

예를 들어, 만약 당신이 지명된 참조 표준을 모든 피험자의 무작위 부분집합에 대해 적용하거나 새로운 검사와 비교 방식이 불일치하는 모든 피험자 그리고 일치하는 피험자의 무작위 표본에 대해 지명된 참조 표준을 적용한다면, 민감도와 특이도의 보정된 추정치(adjusted estimages) (그리고 분산)를 계산하는 것이 가능하다. 이러한 경우에, FDA는 합당한 정밀도(reasonable precision)의 민감도와 특이도를 추정하기 위해 충분한 수의 피험자에 대해 다시 검사할 것을 권장한다.

Appendix에 설명된 민감도와 특이도를 계산하는 간단한 공식은 이 디자인에 대해서는 올바르지 않으며 이러한 단순한 계산은 민감도와 특이도의 편의가 있는 추정치를 낳을 것이라는 점을 주지하라. 이러한 편의의 유형은 확인 또는 검사 편의(verification or work-up bias)의 한 예이다. 자세한 사항에 대해서는 Begg (1987), Pepe (2003), 또는 Zhou et al. (2002)를 참조하라.

선택할 부분집합이 얼마나 커야 할지, 선택할 특정 부분집합 그리고 성능 척도를 어떻게 계산할 지를 판정하는 것은 현재 활발한 통계적 연구의 한 영역이다. Albert (2006), Albert & Dodd (2004,2006), Hawkins et al. (2001), Kondratovich (2003), Pepe (2003), Zhou et al. (2002)와 이러한 참조 문헌에 인용된 참조문헌을 참고하라. 이러한 접근방식이 통계적으로 복잡할 수 있기 때문에, FDA는 이러한 방식을 사용하기 전에 CDRH 통계학자와 상의할 것을 권장한다.

드문 경우에, 연구의 참조 표준을 사용하지 않고도 민감도와 특이도를 추정하는 것이 가능할 수 있다. 이는 합당할 수 있는데, 예를 들어, 지명된 비교 방식의 민감도와 특이도가 유사한 피험자 군에서 참조 표준에 대한 이전의 평가에서 잘 확립되어 있을 때 그러하다. 이 주제에 대한 추가적인 설명은 이 문서의 범위 밖이다. 여기서도 또한 FDA는 이러한 방식을 사용하기 전에 CDRH 통계학자와 상의할 것을 권장한다.

If a reference standard is not available, but might be constructed

참조 표준이 사용가능하지 않지만, 구성될 수 있을 떄

전문가 패널(FDA 권고 패널 또는 그 외 패널)이 지명된 참조 표준으로 쓸 수 있는 임상적 기준의 세트(혹은 참조 검사와 확증적 임상 정보의 조합)를 개발할 수 있을 수 있다. 이러한 접근방식이 더 시간이 많이 소요되는 방식일 수 있는 반면에, 쉽게 민감도와 특이도의 추정치를 계산할 수 있다. 이러한 상황에서, FDA는 다음을 권장한다

  • 검사 라벨(test label)이 구성된, 지명된 참조 표준을 명확하게 설명함

  • 새로운 참조 표준이 새로운 진단 검사 결과 분석과는 독립적으로 생성됨(이상적으로, 어떤 검체가 수집되기 전에 생성됨)

  • 참조 표준을 구성하기 전에 CDRH 의학 관계자(medical officer)와 통계학자와 상의함

If a reference standard is not available and cannot be constructed

참조 표준이 사용가능하지 않으며 구성될 수도 없을 때

새로운 검사가 비-참조 표준과의 비교에 의해서 평가될 때, 민감도와 특이도의 불편 추정치(unbiased estimates)는 직접적으로 계산할 수 없다. 따라서, 민감도와 특이도란 척도는 이 비교 결과를 설명하기에 적절하지 않다. 대신, 민감도와 특이도 보다는 동일한 수치적 계산이 이루어지지만, 이 추정치는 양성 퍼센트 일치도 (positive percent agreement)와 음성 퍼센트 일치도 (negative percent agreement)라고 부른다. 이는 이 추정치들이 정확도(accuracy)에 관한 것이 아니라 새로운 검사와 비-참조 표준의 일치도에 관한 것이라는 것을 반영한다.

추가적으로, 양성 예측도, 음성 예측도, 그리고 양성과 음성 우도비와 같은 양은 계산될 수 없는데 왜냐하면 피험자의 질환 상태(참조 표준에 의해서 결정되는)가 알려져 있지 않기 때문이다.

이러한 상황에서, FDA는 당신이 다음을 보고할 것을 권장한다.

  • 후보 검사를 비교 방식과 비교하는 결과의 2x2 테이블

  • 비교 방식과 이것이 어떻게 수행되는 지에 관한 설명

  • 신뢰구간과 함께 일치도 척도의 쌍

Appendices에서 수치적 예시를 제공한다.

우리는 다음의 주의 사항과 함께 용어 “양성 퍼센트 일치도”와 “음성 퍼센트 일치도”를 채택하였다. 새로운 검사와 비-참조 표준의 일치도는 비-참조 표준과 새로운 검사의 일치도와 수치적으로 다르다(용어 “일치도”가 함축하는 의미와는 대조적임). 따라서, 이러한 일치도 척도를 사용할 때, FDA는 수행되는 계산을 명확히 명시할 것을 권장한다.

일치도 척도의 한 가지 주요한 단점은 일치도가 “올바름(correctness)”의 척도는 아니라는 점이다. 두 가지 검사가 일치하면서 둘 다 잘못되었을 수 있다. 사실, 두 가지 검사들이 잘 일치하지만, 두 검사 모두 낮은 민감도와 특이도를 지닐 수 있다. 그러나, 두 검사가 일치하지 않을 때, 이것이 새로운 검사가 잘못되었고 비교 방식이 올바르다는 것을 의미하는 것은 아니다.

전반적 일치도(overall agreement) (전반적 퍼센트 일치도와 코헨의 Kappa(Cohen’s Kappa) 모두를 포함하여)의 척도가 이러한 환경에서는 그릇된 결론을 유도할 수 있다는 점에 대해 또한 유의하여야 한다. 일부 경우에서, 전반적 일치도는 양성 또는 음성 퍼센트 일치도가 매우 낮을 때 값이 좋을 수 있다. 이러한 이유 때문에, FDA는 검사의 진단 성능을 특징짓기 위해 전반적 일치도의 척도를 독립적(stand-alone)으로 사용하는 것을 권장하지 않는다.

참조 표준이 사용가능하지 않거나 존재하지 않을 때 새로운 검사의 진단 정확도를 어떻게 추정할 수 있을 지에 대한 많은 통계적 연구가 있었다. Albert and Dodd (2004), Pepe (2003), 그리고 Zhou et al., (2002)은 이러한 연구의 일부에 대한 리뷰를 제공하며 이 연구들은 잠재 범주 모형(latent class models)과 베이지언 모형의 사용을 포함한다. 이러한 모형에 근거한 방식들은 민감도와 특이도를 추정하는 목적에 관해서는 문제가 될 수 있는데 왜냐하면 사용된 모형과 가정들이 올바른지 확인하는 것이 종종 어렵기 때문이다. 더 문제가 되는 것은 서로 다른 모형들이 데이터를 동등하게 잘 적합(fit)시킬 수 있으면서도 민감도와 특이도의 매우 다른 추정치를 도출할 수 있다는 점이다. 이러한 분석의 유형들에 대해서, FDA는 여러 가지 모형과 가정에 대한 결과들의 범위를 보고할 것을 권장한다. FDA는 또한 이러한 방식들을 사용하기 전에 CDRH 통계학자와 상의할 것을 권장한다.

4.2 Selecting the Study Population

4.2 연구군을 선택하기

적절한 비교 기준점을 선택하는 데 더하여서, 새로운 검사의 평가는 또한 다음의 적절한 세트를 선택하는 것과 관련되어 있다:

  • 검사될 피험자 또는 검체

  • 검사를 수행할 개인과 실험실

  • 시험이 수행될 조건들

Spectrum bias

스펙트럼 편의

진단 정확도의 추정치는 연구에 포함된 피험자들이 환자 특징의 완전한 스펙트럼을 포함하지 않을 때, 즉, 중요한 환자 하위군이 누락되었을 때 스펙트럼 편의(spectrum bias)에 빠지기 쉽다. Begg (1987), Pepe (2003), 또는 Zhou et al. (2002)을 참조하라. 예를 들어, 중간 단계와 일반적으로 진단하기 훨씬 더 어려운 사례를 누락하고 매우 건강한 피험자와 질병이 위중한 피험자만을 포함한 연구들이 있다고 하자. 이러한 연구들로부터 보고된 정확도 척도는 스펙트럼 편의에 빠지기 쉽다.

어려운 사례들을 제거해버리는 것이 그 기기가 실제로 사용되었을 때 어떻게 수행되는 지에 대해 과도하게 낙관적인 그림을 낳는다. 따라서, FDA는 검사될 피험자와 검체의 세트가 다음을 포함할 것을 권장한다:

  • 질병 단계의 전 범위에 걸친 피험자/검체

  • 적절한 교란 의학적 상태에 있는 피험자/검체

  • 다른 인구 집단들에 걸친 피험자/검체

만약 연구에서 평가될 피험자와 검체의 세트가 의도된 사용군을 충분히 대표하지 못한다면, 진단 정확도의 추정치는 편의가 있을 수 있다.

External validity

외적 타당성

만약 연구 결과가 의도된 사용군에서의 기기의 “현실(real world)” 성능을 충분히 반영하고 있다면 그 연구는 높은 외적 타당성(external validity)을 지니고 있다. 피험자와/또는 검체의 적절한 세트를 선택하는 것이 그 자체로는 높은 외적 타당성을 보장하기에 충분하지 않다. 외적 타당성에 대한 심도 있는 논의는 이 문서의 범위 밖이긴 하지만, FDA는 일반적으로 다음을 권장한다:

  • 최종 사용 설명서에 따른 기기의 최종 버전을 사용하기

  • 당신의 연구에 이러한 기기들을 여럿 사용하기

  • 적절한 훈련과 경험의 범위를 지닌 여러 사용자들을 포함하기

  • 예상되는 사용과 작업 조건들의 범위를 포함하기

무작위 임상시험의 맥락에서의 비-기술적 논의에 대해서는 Rothwell (2006)을 참조하라.