[스노피 AI] Vision Transformer 쉽게 이해하기 - 4. Positional Encoding in Vision Transformers
Positional Encoding in Vision Transformers1. Introduction to Positional EncodingDefinition: 위치 인코딩은 Transformer 모델의 입력 임베딩에 위치 정보를 주입하는 데 사용되는 기술입니다. Transformer는 본질적으로 입력 시퀀스의 순서를 캡처하지 않으므로 위치 인코딩은 시퀀스 내의 요소 위치에 대해 필요한 컨텍스트를 제공합니다.Importance: ViT(Vision Transformers)에서 위치 인코딩은 이미지 패치에 대한 공간 정보를 유지하는 데 매우 중요합니다. 2. Why Positional Encoding is NeededTransformers and Order: 순환 신경망(RNN)과 달리 변환기는 입력 ..
SnowPea(스노피) AI
2024. 6. 26. 17:07