카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

가장 핫한 댓글은?

Bayesian Statistics 좀 아시는 분들 계실까요?

2024.08.07

23

2792

제가 생성형모델에(이미지쪽) 관심이 있고 혼자 공부를 해왔습니다. 그래서 Diffusion이나 VAE나 이런거들 공부를 하다보면 결국에 posterior distribution을 구하려고 하는데, 구하기 힘들어서 다른 방식으로 우회해서 구하는 방법들을 공부하게 되는것 같습니다.

제 짧은 생각으로는 Diffusion과 VAE (특히 ELBO 구할때)가 Bayesian Statistics를 활용해서 하는거라고 생각을 하고 있었습니다. 그래서 저번에 모대학교 교수님 (Bayesian쪽)과 면담을 하는데, 생성형 모델에 관심이 있고 그래서 Bayesian에도 관심이 있다라고 말씀드렸더니, 한숨을 쉬시고, 그건 Bayesian이 아니다. ELBO 이야기 하는데, Bayesian이 뭐라고 생각하냐? 고 되물으셔서,

Posterior distribution을 기존에 갖고 있던 정보들을 바탕으로 구하는게 아닌가요? 하니까 기분나쁘게 웃으시면서 아니라는식으로 말씀하시더라구요. 그래서 제가 "아.. 내가 Bayesian을 잘못알고 있었구나... 기분은 나쁘지만 제대로 다시 공부해봐야겠다" 라고 생각하고 넘어갔습니다.

근데 어제 다른 교수님이랑 면담을 하는데, (그 교수님도 연구분야에 Bayesian이 있었습니다.) 그 교수님이 결국에 생성형 모델이랑 디퓨전은 베이시안이다 라고 말씀을 하셔서, 제가 과거에 면담할때 이런일이 있었습니다. 라고 말씀을 드렸더니, 디퓨전이랑 VAE는 논란의 여지없이 베이시안이라고 단정지어서 말씀해주시더라구요.

여기서 좀 혼란이 오는데, 선배님들은 어떻게 생각하시나요? 디퓨전 VAE같은 모델들이 베이시안이 맞다고 생각하시나요? 혹시 아니라고 하셨던데에는 어떤 근거로 그렇게 말씀을 하셨던걸 까요? 두분다 한국에서 상위권 대학원 이었습니다. 특히 아니라고 하신 교수님은 최상위권이셨구요.

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 23개

2024.08.07

로지스틱 회귀만 해도 베이지안 해석을 아주 잘 보여줍니다. VAE에도, optimization에도 베이지안 철학이 있고요. 넓게보면 ML 자체가 베이지안입니다. 한숨 쉰 교수님은 BNN이나 GP같은 베이지안 ML 관점에서 말씀하신 것 같네요. 대화맥락을 다시 짚어보시면 좋을 것 같습니다

대댓글 1개

2024.08.07

답변 감사드립니다

2024.08.07

베이지안 하는 사람인데 diffusion model은 베이지안이라고 보기에는 좀 애매한 부분이 있긴 합니다. Probabilisitic ML 이라고 하면 좀 더 맞는 것 같고요. 반면에 VAE는 의심의 여지도 없이 전형적인 베이지언 모델입니다. 정확히는 decoder 가 posterior를 형성하고 encoder는 각 latent variable의 posterior를 빠르게 추정하기 위한 수단에 불과하죠. 다만 decoder들의 파라미터들의 파라미터를 ELBO maximization 으로 추정하는거는 fully Bayesian이 아니라 empirical Bayes 또는 ML Type-II inference라고 부릅니다. 그러니까 완전한 베이지안 모델이 아닌건 맞아요. 근데 아예 아니라고 하는건 그 교수님이 그냥 기초가 부족하신 분인 것 같네요. 같이 일하시지 않는걸 추천합니다.

대댓글 2개

2024.08.07

다만 VAE 원조 논문은 이런 관점들을 다 아우르지 못하고 autoencoder 관점에서만 접근을 했다보니 이런 연결고리들을 명확하게 짚어주지 못하는 감이 있습니다. 그래서 굉장히 헷갈리게 쓴 논문 (또는 Kingma 와 Welling이 논문을 작성했을 당시에는 아직 생각이 완전히 정리되지 않았을 수도 있고) 이라고 많이들 평가합니다. 그런 점을 고려하면 깊게 이해를 하지 못한게 교수님만의 탓이라고 볼 수 없기도 합니다.

2024.08.07

답변 감사드립니다!

2024.08.07

Theta, 즉 학습 parameters를 확률분포를 갖는 변수로 취급한다면 기본적으로 Bayesian approach라고 볼 수 있습니다.

대댓글 1개

2024.08.07

답변감사드립니다! 저도 기본적인 classification이나 다른것들도 log likelihood를 맥시마이즈하는거라고 생각해서 같은논리로 생성형도 그렇지않나 했는데..

2024.08.07

다들 답변 감사드립니다. 대화맥락은 베이지안에도 관심이 있다던데? -> 생성형 모델을 공부하다 보니 관심이 생겼습니다 -> 베이지안으로 생성형모델을 하는건 몇가지없고 안하는추세이다. 무슨모델을 봤길래? -> 엘보구하는것과 디퓨전이 그러한거같다. -> 엘보랑 디퓨전? 학생은 베이지안이 뭐라고 생각하나? -> posterior를 에비던스와 라이클리후드 프라이어 디스트리뷰션을 업데이트하는게 아닌가요? -> 에휴.. 포스터이얼을 구하는건... 하면서 말을 잇지않으셨습니다.

답변들보니 맞는부분도잇고 아예 완전히 맞지않는 부분도 있었네요..

대댓글 1개

2024.08.07

근데 엘보 가지고 그렇게 반응하시는건 제가 조금 한숨 나오네요. ELBO의 E는 evidence인데 이 용어 자체가 Bayesian 용어입니다. ELBO maximization은 예나 지금이나 Posterior 추정을 위한 기법이고요. 베이지언이 뭐라고 생각하시는건지 제가 오히려 반문하고 싶네요.

2024.08.07

음 근데 교수님께서 통계학 박사를 하셨거나 베이지안을 깊게 연구하신 분이라면 인공지능 모델 가져와서 베이지안이다라고 하면 한숨 나올 수도 있긴 해요. 베이지안쪽 이론이 상당히 깊기도 하고 그런 수학적 이론을 모르는 채로 학부 베이즈 내용만 알아도 접목할 수 있는 모델 가지고 말하는거 자체가 답답하다고 생각하시지 않았을까 싶어요. 디퓨전과 vae가 실제로 베이지안인걸 떠나서요. 크게 신경쓰지마시고 계속 공부하시면 될 것 같네요.

대댓글 1개

2024.08.07

그래도 그런것들을 통해서 베이지안의 철학이나 학문에 대해서 관심을 가져볼수 있지않을까요? 어떤 연유를 통해서 관심을 가지게 되었다 라고 말씀드린게 그렇게 까지 반응을 하셨어야 하나 라는 생각도 들고, 제가 뭐 베이지안을 너무 잘안다. 전문가다. 이런식으로 말씀드린것도 아닌데 말이죠..

의견감사드립니다.

2024.08.07

현재 통계학 박사과정 학생입니다.
결론만 말씀드리자면 Diffusion과 VAE에서 parameter 추정하는 방법은 bayesian approach가 아닙니다.
다만 계산 과정에서 bayesian 쪽에서 많이 쓰이는 계산 technique을 쓴 것입니다.

대댓글 6개

2024.08.07

통계에서는 모델의 parameter를 추정할 때 고정된 값이냐, 확률변수로 볼 것이냐에 따라 frequentist 와 bayesian 으로 나뉘게 됩니다. (정확히는 확률에 대한 정의가 두 분야가 다른데, 이건 너무 철학적이라 넘어가겠습니다.)
Frequentist 적 추론의 대표적 예시가 MLE, 즉 maximum likelihood estimator 를 구하여 통계적 추론을 진행하는 것 입니다.
Bayesian 적 추론의 대표적 예시는 parameter의 posterior distribution에서 sampling을 한 후 통해 통계적 추론을 진행하는 것이구요.
다만 일반적인 상황에서는 posterior 분포 sampling이 쉽지가 않습니다. 그래서 2000년대 초반에 Bayesian 쪽에서 개발된 방법이 posterior와 '유사하지만' sampling이 더 쉬운 variational distribution에서 sampling 을 진행하는 것 입니다. 이 때 variational distribution을 학습하는 방법이 ELBO를 maximize 하는 것 입니다.

언급하신 Diffusion model이나 VAE 모두 생성 모델의 관점에서 보면 parameter를 MLE로 구하기 때문에 frequentist 적 방법이라 볼 수 있습니다.
다만 MLE를 구하는 과정에서 likelihood maximization 계산이 쉽지가 않습니다.
그래서 likelihood function과 유사하지만 계산이 더 쉬운 ELBO를 통해 variational distribution을 학습하는 것입니다.

참고로 모델과 추정은 다른 개념입니다.
같은 linear model이라 하더라도 parameter를 MLE를 추정하여 통계적 추론을 진행하면 그건 frequentist 적인 방법이고, parameter의 posterior 분포를 추정해 통계적 추론을 진행하면 그건 Bayesian 방법입니다.

2024.08.07

그렇군요. 그럼 전공자 입장에서, 학부나온사람이 VAE와 디퓨전을 통해서 bayesian에 관심이 생겼고, 좀더 깊게 공부해보고 싶어졌다. 라고 말씀을 드리면, 사람을 무안줄정도의 반응을 하면서까지 잘못된 방식으로 관심을 가지게 된걸까요? 베이지안 테크닉이 쓰였고, 어쨋든 이론적으로는 베이지안과 관계가 있어보여서, 생성형 모델을 본질적으로 이해하려면 베이지안쪽을 공부하는게 도움이 될거같아서 관심이 생겻다고 표현을 한것인데, 잘못된 방식으로 관심을 가지게 된것일까요?

저도 살짝 공부하면서 빈도주의와 베이지안의 관점의 차이는 부족하지만 알고있습니다. 비루한 학부생한테 전공자 시점에서 조언을 주셔서 감사드립니다!

2024.08.07

어떤 계기로 관심을 가졌든 공부하고 싶다는 의지가 중요하다고 저는 생각하는데요 ..
교수님께서 무안 까지 줄 필요가 있었나 하는 생각이긴 합니다 ㅎㅎ ,,

다만 생성모형을 이해하기 위해 베이지안을 공부하는게 도움될 것 같았다는 표현은 베이지안 전공하시는 분 입장에서는 얘가 뭘 모르고 하는 소리다 라고 느낄 수도 있으실 것 같네요.

2024.08.07

특히 Bayesian 중에서는 variational inference를 근사 방법이기 때문에 별로 좋아하지 않는 분들도 계신 듯 합니다.
그런 분들은 variational inference로 Bayesian에 관심이 가졌다 라고 한다면 썩 좋아하진 않을 것 같다 라는게 제 개인적 생각입니다 ,,

2024.08.07

전공자들분한테는 그렇게 느껴질수도 있겠군요. 답변 감사합니다. Bayesian 전공책이나 사서 한번 읽어봐야겠네요. 감사합니당.

2024.08.08

안녕하세요 약간 명확하게 해야할 부분이 있는 것 같습니다. 엄밀한 관점에서는 VAE에서 latent variable들도 파라미터로 봐야하는데, variational inference로 이 파라미터들을 추정하는 만큼 Bayesian inference가 일부 들어가는 것은 의심의 여지가 없다고 봅니다. 다만 decoder들의 파라미터들은 ML로 추정하는 만큼 전체적인 과정은 Empirical Bayes 에 가깝다고 봐야겠죠. 여기서 empirical Bayes가 Bayesian 이냐 아니냐는 갈리는 부분이긴 한데 아예 아니라고는 할 수 없다고 봅니다.

2024.08.07

저도 머신러닝 책만 공부해서 글쓴님이 맞다고 생각했는데 통계학 박사하신 분들은 관점이 다를 수 있다는걸 알게됐네요.

2024.08.08

전반적인 머신러닝 학습이론 측면에서 베이지안이 아닌게 없어요 그게 후자교수님이고 저도 제목만보고 의견드리면 생성형은 배이지안 통계학이라는 측면에서는 헤이스티나 탑시라니 대가가 말하는같 통계학적입장에선 결이 매우 다릅니다. 전자교수님은 이걸 눈치채고 너가 잘못 생각한거다 라고 하신겁니다
저같아도 맥락에 따라서 달리말하죠

2024.08.09

저도 궁금하네요...

2024.08.09

댓글 상태를 보면 제대로 알고있는 사람이 가뭄에 콩나듯 있군요...

대댓글 1개

2024.08.10

혹시 어떤분들이 제대로 알고 있는 분인지 알려주실 수 있나요? 의견주시면 그분들것 위주로 참고해보겠습니다.

댓글쓰기

게시판 목록으로 돌아가기

반도체/AI 게시판에서 핫한 인기글은?

반도체/AI 게시판에서 최근 댓글이 많이 달린 글

🔥 시선집중 핫한 인기글

최근 댓글이 많이 달린 글