Q&A#

class token과 Average pooling의 차이#

3장에 classification 파트에 보면 위와 같이 설명이 되어 있습니다. 그렇다면 저희가 지금까지 리뷰했던 ViT 기반의 모델들은 결국 class token을 쓰나 Average pooling을 하나 큰 차이가 없다고 봐도 될까요?

제 생각에는 태스크의 차이에 따라 cls token과 avg pooling 사용하는 것 같습니다. 저도 이전에 큰 차이를 못 느껴서 encoder decoder 구조의 네트워크를 사용했을때는 cls token을 사용하는 것이 맞지만 단순 classification 태스크의 경우 avg pooling을 적용하는 것이 좋다고 생각합니다.

의료 도메인에서의 용도와 기능#

  1. 의료 도메인에서 pretrained 모델을 사용하지 않나요??

  2. 개인적으로 궁금한 것인데 현업분들은 의료 도메인에서 어떤 용도? 기능?으로 딥러닝 기술을 적용하는지 궁금합니다!


1. 제가 알기로는 의료 분야 쪽은 환자에 대한 정보 보안 때문에 pre-trained 모델을 사용하지 않는다고 알고 있습니다.

2. 대표적으로 segmenation 태스크를 적용해서 ct 사진의 부위별 분류하는 것을 많이 봐왔는데 어떤 용도로 사용하는지는 저로써는 잘 모르겠네요;;;

논문에서는 데이터를 모으기 힘든 질병의 경우 pre-train data로 사용할 수 있을만큼 충분하지 못하다는 얘기를 하는군요!

(optional) positional embedding?#

CCT architecture에서 질문이 있습니다. (optional) positional embedding 이라는건 learnable / sinusoidal / none 중 하나를 택해서 한다는 뜻인가요?

convolution을 사용함으로써 두 가지의 PE(learnable, sinusoidal) 또는 none을 모두 적용할 수 있다는 의미입니다. 하지만 성능은 learnable이 가장 좋았다고 얘기합니다.


Edit by 김주영