카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

가장 핫한 댓글은?

본문이 수정되지 않는 박제글입니다.

대학원 연구 주제 결정

2025.07.04

0

18

학석사 연계로 교수님께서 추천해주신 논문 2개를 읽고 지금 연구하고 싶은 주제를 발표해야 하는 상황입니다.
저희 교수님께서는 생성형 AI를 연구중이십니다.
저는 원래 개발자로 진로를 생각중이었어서, 개발 동아리로 프로젝트를 여러개 진행중이었다가, 교수님의 "심층학습"이라는 수업을 듣고 학점이 잘 나와서 교수님께 직접 연락을 받은 케이스입니다.
그래서 AI에 대한 연구는 처음이라 고민이 많이 됩니다...

일단 교수님께서 보내주신 논문 2개는 1. VITRON 2.Exp-CLIP 을 주제로 하고 있습니다.
요약하자면, VITRON은 이미지와 비디오를 모두 처리할 수 있는 픽셀 레벨 Vision LLM을 제안, 기존 Vision LLM들은 이미지와 비디오를 분리해서 다뤘지만, VITRON은 하나의 통합된 모델로 이해, 생성, 분할, 편집 모두 가능합니다.
Exp-CLIP은 LLM에서 추출한 task-specific knowledge를 Vision-Language 모델에 전이하여, 라벨이 없는 데이터에서도 표정 인식을 Zero-shot으로 잘 수행할 수 있도록 한 새로운 방법입니다.

위의 논문 2개를 읽고 제가 연구해보고 싶은 주제 2개를 생각해봤습니다.
1. 최근 AI 기술 발전으로 인해서 누구나 이미지, 비디오, 음성, 텍스트를 간단한 prompt만으로 생성이 가능해, SNS, 유튜브, 뉴스, 금융 사기 등에서 AI 생성물이 많이 확산이 되고 있습니다. 현재는 AI 생성 영상, 음성의 품질이 완벽하지 않아서 사람들이 구분이 가능하지만, 이렇게 빠르게 AI가 성장한 것을 보면, 몇 년 내에 실제와 거의 구별이 불가능한 수준으로 발전할 것이라고 생각이 들었습니다.
특히, 보이스피싱, 딥페이크 영상 사기 허위 뉴스의 사회적 피해가 급격히 증가할 우려가 있습니다.
따라서 이미지, 비디오, 오디오, 텍스트를 통합 분석(multimodal fusion)하여서 딥페이크, 합성 음성, AI 생성 뉴스 등의 진위 여부를 검증해, 탐지 결과에 대한 자연어 explanation을 LLM으로 생성하는 것(ex. 이 음성의 pitch contour가 비정상적입니다.)
-> 사실 4 multimodal은 무리일 것 같아서 2 multimodal도 생각하고 있습니다.

2. 기존 OCR 및 handwriting recognition 모델들은 대규모 필기체 dataset을 기반으로 학습되었다. 그러나 사람마다 필기체 스타일, 글자 간격, 기울기, 연결 습관이 달라 recognition accuracy가 낮다는 점을 인지했습니다.
실제로, 제가 직접 경험해본 바로는, 필기한 내용을 GPT에 업로드 했을 때, 글자 인식이 잘 되지 않거나 인식된 텍스트를 그대로 요약하거나 과제로 등록하는 데 오류가 발생하는 경우가 많았습니다. 이러한 한계를 해결하기 위해서, 사용자 개인의 필기체 이미지와 텍스트 데이터를 few-shot으로 학습해, 개인의 필기체를 더 정확하게 인식하고, 인식된 내용을 LLM이 요약하거나, 과제 일정으로 자동 등록해주는 personalized Vision-Language AI 시스템을 연구

이렇게 2가지 주제를 생각해보았는데, 혹시 어떻게 생각하시나요?
두 가지 주제 모두 별로인가요? 아니면 둘 중에 어떤 주제가 더 연구에 적합할까요?
고민이 많이 됩니다.. 어떤 주제가 연구에 적합한지 잘 모르겠어요

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 0개

댓글쓰기

게시판 목록으로 돌아가기

김박사넷의 새로운 거인, 인공지능 김GPT가 추천하는 게시물로 더 멀리 바라보세요.

반도체/AI 게시판에서 핫한 인기글은?

반도체/AI 게시판에서 최근 댓글이 많이 달린 글

🔥 시선집중 핫한 인기글

최근 댓글이 많이 달린 글