상세 컨텐츠

본문 제목

[스노피 AI] Vision Transformer 쉽게 이해하기 - 2. Transformer Architecture

SnowPea(스노피) AI

by 와포 2024. 6. 13. 10:06

본문

트랜스포머 구조

 

Transformer Architecture

1. Introduction to Transformer Architecture

  • Definition: "Attention is All You Need" 논문에 소개된 Transformer 아키텍처는 자연어 처리(NLP) 분야에 혁명을 일으켰으며 현재 Vision Transformers(ViT)를 통해 컴퓨터 비전에 적용되고 있습니다.
  • Importance: Self-Attention 메커니즘을 사용하여 이미지의 여러 부분 간의 관계를 캡처함으로써 이미지 처리 작업에서 기존 CNN(컨볼루션 신경망)을 대체합니다.
  • Architecture

2. Key Components of Transformer Architecture

  • Encoder and Decoder: Transformer는 인코더와 디코더로 구성됩니다. 그러나 Vision Transformers에서는 일반적으로 인코더 부분만 사용됩니다.
  • Layers: 각 인코더와 디코더는 특정 기능을 수행하는 여러 레이어로 구성됩니다

3. Transformer Encoder

  • Structure: 각 인코더 레이어는 두 개의 주요 하위 레이어로 구성됩니다. Multi-Head Self-Attention Mechanism Feed-Forward Neural Network

3.1. Multi-Head Self-Attention Mechanism

  • Purpose: 모델이 입력 시퀀스의 여러 부분에 동시에 집중할 수 있도록 합니다.
  • Process: 입력은 Query(Q), Key(K), Value(V) 벡터로 변환됩니다. Attention score는 Q와 K의 내적을 K 차원의 제곱근으로 나눈 후 소프트맥스 함수를 통해 계산됩니다. 출력은 attention score에 따라 조정된 V 벡터의 가중 합입니다.

3.2. Feed-Forward Neural Network

  • Purpose: 완전히 연결된 피드포워드 네트워크를 각 위치에 개별적으로 동일하게 적용합니다.
  • Structure: 일반적으로 ReLU 활성화를 사이에 두고 두 개의 선형 변환으로 구성됩니다.
  • Formula:

4. Positional Encoding

  • Purpose: Transformer 아키텍처는 본질적으로 입력 시퀀스의 순서를 캡처하지 않으므로 위치 인코딩이 입력 임베딩에 추가되어 시퀀스의 각 요소 위치에 대한 정보를 제공합니다.
  • Formula:

5. Transformer Decoder (Optional for ViTs)

  • Structure: 인코더와 유사하지만 인코더의 출력에 참여하는 추가 multi-head attention layer를 포함합니다.
  • Components:
  1. Masked Multi-Head Self-Attention Mechanism
  2. Multi-Head Attention Mechanism
  3. Feed-Forward Neural Network

6. Applications in Vision Transformers

  • ViT Usage: Vision Transformers에서 Transformer의 인코더 부분은 이미지 패치를 토큰 시퀀스로 처리하는 데 사용되므로 모델이 전역 종속성과 상황별 정보를 캡처할 수 있습니다.

7. Summary

  • Key Takeaways: Self-Attention 메커니즘을 통해 장거리 종속성과 상황별 정보를 처리하는 Transformer 아키텍처의 기능 덕분에 Transformer 아키텍처는 NLP와 컴퓨터 비전 작업 모두에서 강력한 도구가 되었습니다. 위치 인코딩을 사용하면 시퀀스 순서가 유지되며 이는 텍스트와 이미지 모두의 맥락을 이해하는 데 중요합니다.

 

 

 

SNOWPEA AI

상상만으로 만드는 새로운 세상, 스노피 AI가 여러분을 초대합니다. 텍스트만으로 여러분의 상상을 영상으로 만들어보세요. 스노피 AI는 영화, 애니메이션, 광고 등 모든 분야의 영상을 쉽고 빠

www.wafour.com

 

관련글 더보기

댓글 영역