Points to Consider on Switching between Superiority and Non-inferiority#
I. Introduction#
시험군(신약) VS 대조군(활성 대조군) 비교 유형#
신약의 우월성(superiority)
신약의 비열등성(non-inferioriy)
두 군의 동등성(equivalence)
유형 간 전환#
우월성 평가시험 → 비열등성
비열등성 평가시험 → 우월성
동등성 평가시험 → 더 좁은 구간의 동등성
본 문서의 설정#
단일 일차 평가변수를 사용하는 유효성 시험 관점
우월성, 비열등성, 동등성 문제
시험 목적(우월성/비열등성/동등성)을 변경해도 일차 평가변수의 정의는 변경되지 않는다고 가정
II. Trial Objectives#
비교 목적 유형 |
Superiority trial |
Equivalence trial |
Non-inferiority trial |
---|---|---|---|
목적 |
신약 치료군과 대조약 치료군 간 임상적 효과의 차이를 확인 |
신약 치료군과 대조약 치료군 간 임상적 효과에 유의한 차이가 없음을 확인 |
주로 3상 임상시험에서 신약이 표준 치료보다 효과가 작지 않음을 확인 (동등하거나 비슷한 효과가 있음) |
유의성 검정 |
p-value 확인 |
p-value가 작을수록 차이가 크다
두 평균은 5% 유의 수준(p<0.05)에서 유의하게 다르다. | 신뢰구간 주로 사용 | 열등성 확인 시 사용 | | 신뢰 구간 및 허용 한계(Δ) | - 효과 차이에 대한 95% 양측 신뢰 구간은 0을 포함하지 않는다.
허용 한계(Δ) 없음 → 통계적 유의성이 있더라고 임상적 유의성이 없을 수 있다. (우월성 임상시험에서 검정력을 계산하는 것도 임상적 유의성을 나타내지 않을 수 있기 때문에 중요하지 않을 수 있다.) | - 효과 차이에 대한 95% 양측 신뢰 구간은 -Δ~+Δ 사이에 있어야 한다. (동등성 마진은 0에 대해 비대칭적일 수도 있다) | - 효과 차이에 대한 95% 양측 신뢰 구간이 -Δ의 오른쪽에 있어야 한다. |
도식비교#
신뢰구간: 95% 양측 신뢰 구간
왼쪽: 대조군의 효과가 높음 / 오른쪽: 치료군의 효과가 높음 (μT−μC)
Δ: 임상적으로 허용 가능한 가장 큰 차이값
III. Relevance of Pre-definition#
사전 정의가 필요한 이유#
대조군의 치료법, 용량, 대상자, 평가변수가 적절한지 확인하기 위하여
적절한 검정력 계산에 의거한 표본 크기 추정을 위하여
동등성 및 비열등성의 기준이 사전 정의되었는지 확인하기 위하여
프로토콜에 적절한 분석 계획이 기술되었음을 확인하기 위하여
시험이 시험 목적을 달성하기에 충분한 민감도(sensitivity)를 가지고 있는지 확인하기 위하여
IV. Switching the Objective of the Comparison#
IV.1 Interpreting a non-inferiority trial as a superiority trial#
통계적으로 a simple closed test procedure(단순한 닫힌 검정 절차)에 해당하기 때문에 통계적 다중성(statistical muliplicity)에 문제가 없다.
다중성 문제란 동일한 데이터로 여러 개의 가설을 동시에 검정하는 경우 발생할 수 있는 문제로 이를 해결하기 위한 통계적 절차 중 하나가 Simple closed test procedure이다. 다양한 유의수준에 대해 가설 검정을 하여 오류가 낮출 수 있도록 유의 수준을 조정하는 것. (?)
다만, 이상 사례의 증가로 신약 치료군과 대조약 치료군 간의 안전성 정보에 차이가 있다면 유효성이 안전성 문제 보다 효과의 크기가 큰지 평가하는 것이 중요하다.
IV.1.1 Appropriateness of Comparator#
대조군이 치료의 유효성을 보여주기 위해
잘 통제되어야 한다.
‘대조군에 대한 우월성’에 대한 개념이 통계적 유의성 측면에서 명확하게 정의되어야 한다.
IV.1.2 Power calculation#
비열등성시험은 신약의 약간의 열등성의 가능성이라도 배제하기 위해 큰 규모로 진행된다.
신약이 약간이라도 대조군보다 우월한 경우, 비열등성 시험의 검정력은 증가한다.
실제로 더 큰 규모의 임상시험 계획이 필요할 수도 있다.
그러나 임상시험이 완료되면 신뢰구간에 의한 시험의 결과는 어떠한 검정력 계산이라도 대체할 수 있을 만큼 정밀한 결과가 도출된다.
IV.1.3 Size of additional clinical benefit#
비열등성 시험의 대조군은 유효성이 확인된 약제로 선정되기 때문에 대조군보다 우월한 약제은 플라시보(무치료)에 비해서는 우월하다는 것을 의미한다.
신약의 우월성 → 플라시보(무치료)<활성 대조군<신약
따라서 이상반응 등 Risk가 큰 경우를 제외하면 추가적인 Benfit에 대해 정의할 필요가 없다.
그러나 대조군의 우월성을 나타내는 proposed license가 있다면 임상적 용어로 추가적인 임상적 Benefit에 대해 논의되어야 한다.
IV.1.4 Choice of analysis set#
우월성 시험: **ITT(intention-to-treat) 원칙에 따른 FAS(full analysis set)**에 PP(per protocol)를 부수적으로 사용
비열등성 시험: FAS와 PP의 중요도를 동등하게 설정, 비슷한 결론이 나오는지 확인하여 타당성 평가
비교 목적을 전환하는 경우 이러한 상대적인 중요도를 고려해야한다.
IV.1.5 Trial quality#
동등성이나 비열등성을 나타내는 임상시험은 프로토콜의 계획에 높은 수준으로 일치해야 한다.
프로토콜 위반(약물 투여 방법, 선정 기준, 측정 방법 등)은 임상시험의 민감도를 감소시키며 차이가 없다는 결론을 나타낸다는 경향성이 있다.
이러한 프로토콜 위반과 관련된 Bias의 크기를 측정하는 방법은 알려져있지 않고, 임상시험 해석을 불가능하게 만들 수도 있다.
두 치료군이 효과가 없는 경우(부적절한 처방 등의 이유로)에도 차이를 입증하지 못할 수 있다.
우월성 시험에서는 우월성(차이)가 입증되면 민감도가 동시에 입증된다.
이러한 이유로 비열등성에서 우월성으로 전환하는 것은 결론에 대한 신뢰도를 높일 수 있다.
IV.1.6 Conclusion#
다음의 경우 비열등성 시험에서 열등성 시험으로 전환하는 것이 가능하다.
임상시험이 적절히 설계되었고, 비열등성 시험 요구 조건을 엄격히 따르는 경우
p-value가 우월성에 대한 근거를 독립적으로 평가할 수 있도록 제시되는 경우
ITT원칙에 따른 분석에 중요도를 높게 둔 경우
IV.2 Interpreting a superiority trial as a non-inferiority trial#
우월성 임상시험에서 치료군 간의 유의한 차이가 없음 → 비열등성 시험
우월성 시험일지라도 -Δ를 프로토콜에 사전에 정의해두면 나중에 -Δ를 설정해야하는 어려움(객관적인 근거 부족 등)을 피할 수 있다.
약물 효과를 확인하기에 충분한 민감성이 있는지 미리 설계시에 관심을 가지는 것이 좋다.
비열등성 시험에서는 활성 대조군이 유효성에 대한 근거로 적절하지 않아 플라시보를 이용하는 경우가 있다는 점을 알아야 한다.
우월성에서 비열등성 시험으로의 전환이 통계적 다중성(statistical multiplicity) 문제 자체는 없어 보여도 Δ의 사후정의와 관련된 어려움이 있다.
IV.2.1 Appropriateness of comparator, doses, patient population and endpoints#
우월성 시험에서 정의된 대조군은 비열등성 시험의 결과에 적절하지 않을 수 있다.
따라서 대조군이 재현 가능한 효과가 있는 유효한 치료제라는 일관된 증거를 보여주고 치료하지 않는 것보다 유효하다는 것이 입증된 고도로 통제된 우월성 시험의 데이터가 있는지 확인해야 한다.
현재 임상시험에서도 동일한 효과가 있을 것으로 예상하는 합리적인 근거가 있어야 한다.
예를 들어, 환자 모집단과 평가변수가 비슷해야 한다.
IV.2.2 Power calculation#
신뢰구간에 의한 결과는 시험 전 수행된 검정력 계산을 대체할 수 있을만큼 명확하다.
비열등성 시험에서 합의된 기준에 따른 신뢰구간의 하한치 비열등성 판단에 중요한 영향을 미친다.
IV.2.3 Choice of analysis set#
우월성 시험: ITT(intention-to-treat) 원칙에 따른 FAS(full analysis set)에 PP(per protocol)를 부수적으로 사용
비열등성 시험: FAS와 PP의 중요도를 동등하게 설정, 비슷한 결론이 나오는지 확인하여 타당성 평가
비교 목적을 전환하는 경우 이러한 상대적인 중요도를 고려해야한다.
IV.2.4 Trial quality#
동등성이나 비열등성을 나타내는 임상시험은 프로토콜의 계획에 높은 수준으로 일치해야 한다.
프로토콜 위반(약물 투여 방법, 선정 기준, 측정 방법 등)은 임상시험의 민감도를 감소시키며 차이가 없다는 결론을 나타낸다는 경향성이 있다.
이러한 프로토콜 위반과 관련된 Bias의 크기를 측정하는 방법은 알려져있지 않고, 임상시험 해석을 불가능하게 만들 수도 있다.
두 치료군이 효과가 없는 경우(부적절한 처방 등의 이유로)에도 차이를 입증하지 못할 수 있다.
우월성 시험에서는 우월성(차이)가 입증되면 민감도가 동시에 입증된다.
이러한 이유로 우월성에서 비열등성으로 전환하는 것은 결론에 대한 신뢰도가 떨어질 가능성이 높다.
따라서 시험의 민감성을 입증하기 위해 아래에 주의를 기울여야 한다.
직접 또는 간접적으로 대조군 치료법이 유효성을 입증할 증거를 찾을 것
대조군의 유효성을 입증한 선행 연구와 비교할 것
특히 이전 임상시험과 비교할 수 있는 환자 및 데이터의 부적합 수준과 손실 수준을 입증할 것
FAS군과 PP군의 결과가 유사함을 보여줄 것
IV.2.5 Conclusion#
다음의 경우 비열등성 시험에서 열등성 시험으로 전환하는 것이 가능하다.
비열등성 마진(-∆)가 사전 정의되거나 사후에 정당화 된 경우(후자의 경우 일반적으로 인정된 값이 있는 경우에 한정)
열등성에 대한 귀무 가설에 대한 신뢰구간과 유의 수준을 보여주는 ITT원칙에 따른 분석과 PP 분석군은 유사한 결과를 제공하는 경우
시험은 비열등성 시험의 요구 조건을 엄격히 준수하여 설계된 경우
시험의 민감도가 차이가 있는 경우 차이가 있다고 판단하기에 충분히 큰 경우
대조군의 유효성을 나타내는 직간접적 근거가 있는 경우
V. Changing the Equivalence Margins#
동등성 시험에서 시험 결과에 따른 신뢰 구간은 결과를 잘 요약한 것이다. 동등성 마진을 설정하는 것은 Bias의 영향을 받기 쉽기 때문에 측정된 데이터가 아닌 외부 정보(ex. regulatory requirement)를 근거로 선택되어야만 한다.
VI. Discussion#
이 문서는 단일 일차 변수의 활성 대조군에 대한 유효성 임상시험의 관점에서 쓰여졌다. 실제 연구에서는 하나 이상의 일차 변수를 사용하고 대부분의 연구에서 이차 평가변수를 사용한다. 대조군 비교 목적 전환 시 각각의 변수는 우월성과 비열등성에 대해 각각의 결론을 도출하게 된다.
이 문서의 개념은 특정 안전성 평가변수에 대해서도 사전 정의된 활성 대조군에 대한 주요 평가변수라면 동일하게 적용된다.
플라시보에 대한 비열등성이 안전성 평가 변수에 대해 중요한 자료라 할지라도, 실제로 비교 목적 변환의 문제는 플라시보 임상시험과 관련이 없다.
비열등성과 우월성이 모두 잠재적 값에 대한 결과라는 것을 알고 시험을 전향적으로 설계함으로써 목표를 전환하지 않아야 한다. 특히 통계적 분석은 순차적인 절차에 따라 비열등성에서 우월성으로 진행되어야 한다.
VII. Overall Conclusion#
우월성 시험을 비열등성 시험으로 해석하거나 그 반대로 해석하는 것은 시험 결과를 시험군과 대조군 간의 차이에 대한 신뢰 구간으로 접근하는 것이 가장 좋다. 이 신뢰구간을 두 경우에 사용할 때에 근본적인 문제는 없다. 잘 설계되고 시행된 시험의 경우, 비열등성에서 우월성으로 전환 시 어려움이 거의 없다. 그러나 결과 우월성에서 비열등성으로 전환하는 경우 마진을 설정하고 이에 대한 근거를 마련해야 한다는 어려움이 있다.
해석 단계에서 마진에 대한 대안과 관련하여 결론을 검토할 때, 동등성 마진이 더 넓은 범위로 변경되어야 하면 문제가 생길 수 있지만 더 좁은 동등성 마진을 만족하는 데이터는 안전하게 해석될 수 있다.