질문 중심의 Scene Graph를 활용한 Visual Question Answering(VQA) > Proprietary Know-how

질문 중심의 Scene Graph를 활용한 Visual Question Answering(VQA)

페이지 정보

작성자 최고관리자 댓글 0건 조회 25회 작성일 26-05-29 14:37

본문

담당자: 최연석
주제: VQA

개요
본 기술은 이미지를 보고 그에 대한 질문에 답하는 visual question answering(VQA) 방법이다. VQA는 이미지와 언어를 동시에 이해해야 하는 과제로, 단순히 사진 속 물체를 알아보는 것을 넘어 물체들 사이의 관계나 상황까지 파악해야 제대로 된 답을 낼 수 있다. 본 기술은 VQA 모델이 더 잘 추론할 수 있도록 이미지에서 뽑아낸 scene graph 중에서 질문과 관련된 부분만 골라 자연어 문장으로 바꿔 모델에 함께 넣어주는 방식으로 성능을 개선한다. 이 방법은 모델을 따로 더 학습시키지 않고도 필요한 정보만 깔끔하게 전달해 VQA 성능을 끌어올릴 수 있다는 점에서 의미가 있다.

핵심 기술

이미지와 텍스트를 함께 이해하는 멀티모달 처리
질문에 맞는 핵심 정보 선별 및 프롬프트 구성
VQA 모델의 추론 성능 평가

연구 실적
학회: KCC2025

질문 중심의 Scene Graph를 활용한 Visual Question Answering 성능 향상 KCC 2025

이전글학생 이해 상태 기반 AI 수학 튜터링 데이터셋 26.05.29

댓글목록

등록된 댓글이 없습니다.