[스노피 AI] Vision Transformer 쉽게 이해하기 - 1. Introduction
Vision Transformer (ViT)는 이미지 인식 및 컴퓨터 비전 분야에서 최근 각광받고 있는 기술입니다. ViT는 기존의 Convolutional Neural Networks (CNN) 대신 Transformer 모델을 사용하여 이미지를 처리합니다. 다음은 Vision Transformer의 주요 기술을 10개의 카테고리로 정리한 내용입니다. 1. Transformer ArchitectureTransformer는 Self-Attention 메커니즘과 피드포워드 네트워크로 구성됩니다. 이 구조는 원래 NLP 분야에서 제안되었으나, ViT에서는 이미지를 처리하는 데 사용됩니다. 각 레이어는 인코더와 디코더로 나뉘며, ViT에서는 인코더 부분만 사용됩니다.2. Patch Embedding이미지 ..
SnowPea(스노피) AI
2024. 6. 13. 10:02