상세 컨텐츠

본문 제목

[스노피 AI] Vision Transformer 쉽게 이해하기 - 3. Patch Embedding in Vision Transformers

SnowPea(스노피) AI

by 와포 2024. 6. 20. 17:30

본문

Patch Embedding 과

 

1. Introduction to Patch Embedding

  • Definition: 패치 임베딩은 입력 이미지를 더 작은 고정 크기 패치로 나누는 ViT(Vision Transformers)에서 사용되는 기술입니다. 그런 다음 각 패치는 평면화되고 벡터 공간에 선형으로 투영되어 Transformer 아키텍처에서 처리할 수 있는 일련의 임베딩이 생성됩니다.
  • Importance: 패치 임베딩을 사용하면 Transformer가 NLP 작업에서 시퀀스를 처리하는 방식과 유사하게 이미지를 처리할 수 있으므로 모델이 이미지의 여러 부분 간의 관계와 종속성을 캡처할 수 있습니다.

2. Process of Patch Embedding

  •    Steps:

       step 1. 이미지를 패치로 나누기

       step 2. 각 패치를 병합

       step 3. 임베딩을 얻기 위한 Linear Projection 

 

3. Dividing the Image into Patches

  • 입력 이미지는 고정된 크기(예: 16x16픽셀)의 겹치지 않는 패치로 분할됩니다.
  • 예를 들어, 224x224 이미지를 16x16 패치로 분할하면 14x14 패치 그리드가 생성됩니다.

4. Flattening Each Patch

  • 각 패치는 1차원 벡터로 평면화됩니다.

·       예를 들어, 3개의 색상 채널(RGB)이 있는 16x16 패치는 16x16x3 = 768 크기의 벡터를 생성합니다.

  • Formula:

5. Linear Projection to Obtain Embeddings

  • 평탄화된 각 패치 벡터는 학습 가능한 선형 변환을 사용하여 저차원 공간에 선형으로 투영됩니다.
  • Formula:

 

6. Integration with Transformer

  • Positional Encoding: 패치 임베딩을 얻은 후 원본 이미지 내 패치의 공간 정보를 유지하기 위해 위치 인코딩이 추가됩니다.
  • Sequence of Tokens: 위치 인코딩과 결합된 결과 임베딩 시퀀스는 Transformer 인코더의 입력 시퀀스를 형성합니다.

 

7. Example Calculation

작은 입력 이미지를 사용하여 단계별 예를 살펴보겠습니다:

7.1. Input Image

  • Size: 32x32 RGB image.

7.2. Dividing into Patches

  • Patch Size: 8x8.
  • Number of Patches:

7.3. Flattening Each Patch

  • Patch Vector Size: 8×8×3=192

7.4. Linear Projection

  • Weight Matrix (W): 각 192차원 패치 벡터를 128차원 임베딩에 투영합니다.
  • Formula:

 

8. Advantages and Challenges

8.1. Advantages

  • Simplicity: Transformer 모델에 이미지를 적용하는 간단한 방법입니다.
  • Flexibility: 다양한 입력 크기와 패치 크기를 처리할 수 있습니다.

8.2. Challenges

  • Loss of Spatial Information: 패치를 병합하면 일부 공간 컨텍스트가 손실될 수 있습니다.
  • Computational Complexity: 고차원 패치 벡터의 선형 투영은 계산 집약적일 수 있습니다.

9. Applications in Vision Transformers

  • Usage: 패치 임베딩은 Vision Transformers의 기본 단계로, 이미지를 시퀀스로 처리하고 장거리 종속성을 캡처할 수 있게 해줍니다.
  • Benefits: 모델이 이미지 이해 작업을 위해 self-attention 메커니즘의 힘을 활용할 수 있습니다.

10. Summary

  • Key Takeaways: 패치 임베딩은 Vision Transformers의 중요한 구성 요소로, 모델이 NLP의 텍스트 시퀀스와 유사하게 이미지를 처리할 수 있도록 해줍니다. Transformer는 이미지를 패치로 나누고, 평면화하고, 임베딩으로 투영함으로써 시각적 데이터를 효과적으로 처리하고 이해할 수 있습니다.

 

 

 

SNOWPEA AI

상상만으로 만드는 새로운 세상, 스노피 AI가 여러분을 초대합니다. 텍스트만으로 여러분의 상상을 영상으로 만들어보세요. 스노피 AI는 영화, 애니메이션, 광고 등 모든 분야의 영상을 쉽고 빠

www.wafour.com

 

 

관련글 더보기

댓글 영역