Proprietary Know-how

질문 중심의 Scene Graph를 활용한 Visual Question Answering(VQA)

페이지 정보

작성자 최고관리자 댓글 0건 조회 25회 작성일 26-05-29 14:37

본문

담당자: 최연석
주제: VQA

개요
본 기술은 이미지를 보고 그에 대한 질문에 답하는 visual question answering(VQA) 방법이다. VQA는 이미지와 언어를 동시에 이해해야 하는 과제로, 단순히 사진 속 물체를 알아보는 것을 넘어 물체들 사이의 관계나 상황까지 파악해야 제대로 된 답을 낼 수 있다. 본 기술은 VQA 모델이 더 잘 추론할 수 있도록 이미지에서 뽑아낸 scene graph 중에서 질문과 관련된 부분만 골라 자연어 문장으로 바꿔 모델에 함께 넣어주는 방식으로 성능을 개선한다. 이 방법은 모델을 따로 더 학습시키지 않고도 필요한 정보만 깔끔하게 전달해 VQA 성능을 끌어올릴 수 있다는 점에서 의미가 있다.

핵심 기술
  • 이미지와 텍스트를 함께 이해하는 멀티모달 처리
  • 질문에 맞는 핵심 정보 선별 및 프롬프트 구성
  • VQA 모델의 추론 성능 평가

연구 실적
학회: KCC2025
  • 질문 중심의 Scene Graph를 활용한 Visual Question Answering 성능 향상 KCC 2025

댓글목록

등록된 댓글이 없습니다.

Copyright ⓒ 2020 Natural Language Processing Lab. All rights reserved.