추가 학습 없이 무한히 긴 영상을 생성하는 추론 알고리즘을 개발하는 등 컴퓨터 비전 분야에서 선도적인 연구를 수행하여 우리나라 인공지능 기술의 세계적 위상을 높였다.
사전 학습된 확산(diffusion) 모델을 그대로 활용하면서도 사실상 무한히 긴 영상을 생성할 수 있는 피포 디퓨전(FIFO-Diffusion : First-In-First-Out)이라는 추론 알고리즘을 개발.
피포 디퓨전의 핵심은 대각선 디노이징(diagonal denoising)*으로 컨베이어 벨트처럼 순차적으로 프레임을 배치하여 앞쪽부터 단계적으로 영상을 생성(노이즈를 제거)하는 방식. 비디오 길이가 늘어나더라도 메모리 사용량이 고정되어 기존 모델의 메모리 한계를 극복.
긴 시퀀스를 작은 구간으로 나눠 안정성을 높이는 ‘잠재 구간 분할’(Latent Partitioning)과 상대적으로 깨끗한 프레임을 활용하여 품질을 개선하는 ‘미래 참조 디노이징’(Lookahead Denoising) 기법을 더해 장시간 영상에서도 높은 화질과 시간적 일관성을 확보.


“논문 몇 편을 썼는가가 아니라, 얼마나 중요한 문제를 해결했는가가 연구의 가치라고 생각합니다.”
10월의 이달상 수상자 한보형 교수는 오랜 시간 인공지능의 다양한 영역을 탐구해온 선구자입니다. 컴퓨터 비전, 기계 학습, 딥러닝 응용을 거쳐 최근에는 이미지와 비디오를 효율적으로 생성하고 편집하는 생성 모델 연구에 집중하며, 학계와 산업계 모두에서 주목받는 성과를 내고 있습니다. ‘FIFO-Diffusion’역시 기존의 한계를 넘어서는 해결책을 제시했다는 점에서 의미가 큽니다. “연구자는 작은 성과를 차곡차곡 쌓아가는 꾸준함이 도전적인 상황에서도 흔들림 없이 목표를 추구할 수 있는 힘이 된다”라고 말하는 한보형 교수의 신념과 태도는 새로운 세대 연구자들에게 도전과 탐구의 자세가 얼마나 중요한지 생생히 보여줍니다. 인공지능이 인간의 삶의 질을 높이는 기술로 자리 잡을 수 있도록 노력하는 한보형 교수를 소개합니다.
이달의 과학기술인상 수상자로 선정되어 큰 영광입니다. 지난 20여 년간 컴퓨터 비전 연구를 이어오면서, 새로운 문제를 정의하고 해결해 나가는 과정이 결코 쉽지 않았지만 이렇게 상까지 받으니 감회가 새롭습니다. 이번에 발표한 FIFO-Diffusion 연구 역시 그러한 노력의 연장선에서, 기존의 한계를 뛰어넘을 수 있는 새로운 길을 모색한 결과물이라 더욱 뜻깊습니다. 이 성과는 저 혼자만의 것이 아니라 함께 연구를 수행해온 연구팀의 열정과 헌신 덕분에 가능했습니다. 특히 성장하는 학생들이 보여준 창의성과 집념은 제게도 큰 자극이 되었고, 그 과정에서 배우는 점이 많았습니다. 이번 수상을 계기로 학문적 성취를 넘어 산업과 사회에도 실질적인 기여를 할 수 있는 책임 있는 연구를 이어가고자 합니다.
개강 시즌이라 바쁘게 지내고 있지만, 사실 예년과 크게 다르진 않습니다. 다만 대학원생들이 구글, 아마존, 퀄컴, 화웨이, 네이버, LG AI Research 등 국내외 기업에서 인턴십을 하고 있어서 연구실에 없다보니 예전보다 연구실 분위기가 한결 여유로워진 면도 있습니다. 물론 주요 학회 논문 마감이 계속 이어져 여전히 논문 준비로 분주한 나날을 보내고 있습니다. 최근에는 영재고와 과학고 학생들을 대상으로 강연을 할 기회가 있었는데, 학생들의 열정과 수준 높은 관심에 저 역시 크게 자극을 받았습니다. 앞으로도 여러 기회를 통해 학생들이나 동료 연구자들과 소통의 기회를 늘려가고자 합니다.
오랜 기간 컴퓨터 비전 분야를 연구하며 다양한 주제를 탐구했습니다. 딥러닝 연구 초기에는 영상 분할과 물체 추적 분야에서 후속 연구를 이끄는 토대를 마련했고, 이후에는 이미지 검색과 비디오 이해 등 응용 기술의 발전에도 기여했습니다.
최근에는 생성 모델(Generative Modeling) 연구에 주력하며, 이미지와 비디오를 효율적으로 생성하고 편집하는 기술 개발에 집중하고 있습니다. 또한, 생성 모델 관련 연구를 정적·동적 장면의 3차원 복원 연구와 이미지·비디오 품질 향상 연구와 연계해 수행 중입니다. 이 밖에도 딥러닝 모델의 효율적 학습과 추론, 비디오 표현 학습, 다양한 도전적 환경에서도 예측 오류를 줄이고 설명 가능성을 높이는 강인한 모델 학습 방법 개발에도 힘쓰고 있습니다. 나아가, 연구 성과가 실제 산업에 기여할 수 있도록 반도체, AI 등 응용 분야 연구도 이어가고 있습니다. 학생들에게 최대한 연구의 자율성을 주려다보니 연구 주제가 좀 다양한 편입니다. 이렇게 다양한 주제를 통합하는 큰 그림을 그리는 것이 제 일이라고 생각합니다.
저는 원래 수학적이고 이론적인 주제에 관심이 많아, 유학 초기에는 컴퓨터 알고리즘 분야를 전공하려고 했었습니다. 하지만 그쪽에는 정말 뛰어난 학생들이 많았고, 경쟁 속에서 재미를 느끼지 못했습니다. 그래서 수학적 기반을 유지하면 서도 연구 결과가 눈에 보이는 분야를 찾았고, 컴퓨터 그래픽스와 컴퓨터 비전 사이에서 고민하다가 지도교수님과 이야기 나누며 자연스럽게 컴퓨터 비전을 선택하였습니다. 최근 주력하고 있는 생성 모델 연구도 같은 맥락에서 흥미로운 분야입니다. 생성 모델은 수학적인 배경을 많이 요구하면서도, 다양한 응용에서 이미지나 비디오로 구현되는 과정을 직접 확인할 수 있어 특히 매력적인 주제입니다.
디퓨전 모델은 데이터에 노이즈를 점차적으로 추가하여 완전한 노이즈 데이터를 만드는 ‘순방향 과정’이 있다고 할 때 노이즈를 반대로 줄여가는 ‘역방향 과정’을 학습하는 생성 모델입니다. 즉, 이미지를 완전히 노이즈로 바꾼 뒤, 신경망이 이를 점진적으로 제거해가며 새로운 이미지를 만들어내는 원리입니다. 수학적으로는 확률적 미분방정식을 기반으로 하여, 데이터 분포를 근사하고 새로운 샘플을 생성할 수 있도록 설계되어 있습니다. 최근에는 이 원리를 텍스트 조건과 결합해, 원하는 설명에 맞는 이미지나 영상을 생성하는 데 널리 활용되고 있으며, 다양한 생성형 AI 기술의 핵심 기반이 되고 있습니다.
비디오 생성은 생성형 인공지능 가운데에서도 가장 난이도가 높은 분야입니다. 기존 확산 기반 비디오 생성 모델은 시스템 한계와 계산 시간 때문에 일정한 길이까지만 영상을 만들 수 있었고, 더 긴 영상을 만들기 위해서는 메모리 사용량이 기하급수적으로 늘어나 실제 활용에 한계가 있었습니다.
‘FIFO-Diffusion’은 이러한 구조적 제약을 극복하기 위한 새로운 접근입니다. 사전 학습된 모델을 그대로 활용하면서, 프레임을 마치 컨베이어 벨트처럼 순차적으로 처리하는 ‘대각선 디노이징’ 방식의 추론 알고리즘을 도입해 메모리 사용량을 일정하게 유지하는 것이 핵심입니다. 여기에 긴 시퀀스를 작은 구간으로 나눠 안정성을 높이는 잠재 구간 분할(Latent Partitioning), 그리고 상대적으로 깨끗한 프레임을 활용해 품질을 개선하는 미래 참조 디노이징(Lookahead Denoising) 기법을 더해 장시간 영상에서도 높은 화질과 시간적 일관성을 확보했습니다.
연구 내용은 2024년 NeurIPS에 발표되어 국제적으로 주목을 받았고, 같은 해 삼성 휴먼테크 논문대상 금상을 수상하며 학계와 산업계 양쪽에서 성과를 인정받았습니다. 또한 연구팀이 공개한 소스코드는 현재 깃허브(GitHub)에서 450개 이상의 별(star)을 받으며 전 세계 연구자와 개발자들에게 활용되고 있습니다. 학문적으로는 비디오 생성 분야에서 효율적 확산 모델 연구의 기반을 마련했고, 산업적으로는 영화·애니메이션·게임·광고·메타버스 등 다양한 콘텐츠 제작 현장에서 활용될 잠재력을 입증했습니다.
기존 비디오 생성 모델의 고정 길이 한계와 메모리 병목 문제를 ‘추론 알고리즘의 혁신’만으로 극복했다는 점은 학문적으로 큰 의미가 있습니다. 대규모 추가 학습 없이도 성능과 확장성을 확보할 수 있다는 사실은 효율적인 생성형 모델 연구의 새로운 방향성을 제시하며, 추후 확산 모델의 학습 과정 설계에도 응용될 수 있습니다. 또한 무한 길이 영상 생성이라는 개념 자체가 장기적 맥락을 가진 데이터 생성·분석 연구에 새로운 가능성을 열어주었습니다.
또한 사회·경제적 측면에서, 이 기술은 콘텐츠 제작 비용과 시간을 획기적으로 줄일 수 있다는 장점이 있습니다. 영화·애니메이션·게임·광고 등 다양한 산업 현장에서 장시간 영상을 자동으로 생성하거나 반복 장면을 쉽게 만들어낼 수 있어 제작 효율이 크게 향상됩니다. 메타버스와 같은 실시간 가상환경 구현에도 응용될 수 있으며, 새로운 비즈니스 모델과 시장을 창출할 잠재력을 지니고 있습니다.
이번 연구를 진행하면서 ‘어떻게 하면 기존의 한계를 단순하지만 세련된 방법으로 넘을 수 있을까’라는 질문에 대한 고민이 컸습니다. 그때 떠올린 것이 바로 노이즈 레벨이 서로 다른 프레임들을 동시에 디노이징하는 이른바 대각선 디노이징 아이디어였습니다. 특히 기억에 남는 순간은, 대각선 디노이징의 단점인 ‘긴 시퀀스에서 노이즈 차이가 커지면서 품질이 저하되는 문제’를 어떻게 해결할지 고민할 때였습니다. 그 과정에서 나온 것이 잠재 구간 분할(Latent Partitioning)과 미래 참조 디노이징(Lookahead Denoising)이었습니다. 단순히 덧붙이는 기능이 아니라, 기존 아이디어의 약점을 가려주고 장점을 극대화하는 방향으로 발전시킬 수 있었던 것이죠.
실제 논문을 준비하면서 가장 어려웠던 부분 중 하나는 새로운 알고리즘의 성능을 객관적으로 보여주는 일이었습니다. 무한히 긴 영상을 직접 비교할 수는 없으니, 어떻게 하면 기존 모델 대비 품질과 일관성을 납득할 만하게 보여줄 수 있을지 팀원들과 토론했던 기억이 납니다. 돌이켜보면, 이 연구는 하나의 아이디어에서 출발했지만, 아이디어를 어떻게 구체화하고 다듬어 나갈지에 대한 팀원들과의 치열한 논의와 시행착오 속에서 완성된 결과물이라고 생각합니다. 그래서 이번 성과가 더욱 특별하게 느껴집니다.
FIFO-Diffusion 연구는 기존 비디오 생성 모델의 구조적 한계를 새로운 추론 알고리즘으로 극복했다는 점에서 큰 의미가 있지만, 여전히 개선해야 할 과제가 있습니다. 앞으로는 대각선 디노이징 아이디어를 학습 단계에도 도입해 학습과 추론의 불일치를 줄이고, 샘플링 과정을 효율화해 실시간 응용이 가능하도록 발전시킬 계획입니다. 또한 사용자가 원하는 대로 영상을 제어하거나 편집할 수 있는 조건부 생성·편집 기능을 강화하거나 물리 법칙을 반영하여 보다 정밀하고 자연스러운, 실용적인 비디오 생성 기술을 구현하고자 합니다.
산업적 측면에서는 영화, 애니메이션, 게임, 광고, 메타버스 등 다양한 콘텐츠 제작 현장에서 이 기술을 적용될 수 있도록 학계와 산업계의 긴밀한 협업을 통해 실용화 가능성을 높이고자 합니다.
ICCV(International Conference on Computer Vision)는 컴퓨터 비전 분야의 가장 권위 있는 국제 학술대회로 2년마다 개최됩니다. 저는 공동 프로그램 위원장을 맡아, 전 세계 연구자들이 제출한 논문을 관리하고 우수 논문을 선별하는 과정을 감독하고 있습니다. 이렇게 권위있는 학술대회에 중책을 맡게 된 것은 저 뿐만 아니라 국내 컴퓨터 비전 커뮤니티에도 큰 성과로 볼 수 있습니다. 최근 들어 학회의 규모가 급격히 커져서 해야 할 일도 많아졌는데, 1년 전부터 다른 프로그램 위원장들과 매주 온라인으로 회의하며 준비해왔습니다. 해에는 1만 1천 편이 넘는 논문이 제출되었고, 그중 약 2,700편이 채택되었습니다. 리뷰 과정에서 어려움도 있었지만, 이를 함께 해결하는 과정이 값진 경험이 되었습니다. 이제 개막까지 보름남짓 남았습니다. 무사히 마무리된다면 정말 큰 짐을 내려놓는 기분일 것 같습니다.
최근 학술대회에서 주목하는 트렌드는 아무래도 대규모 데이터와 모델에 기반한 파운데이션 모델 연구, 멀티모달 학습을 통한 영상·언어·음성 융합, 그리고 생성 모델의 활용 확대입니다. 더불어, 효율적 학습과 신뢰성 확보 같은 문제도 중요한 화두입니다. 앞으로는 단순히 성능을 높이는 것을 넘어, 사회적 파급력과 책임성을 고려하는 방향으로 연구가 발전해 나가리라 기대합니다.
말씀하신 대로 저는 여러 컴퓨터 비전과 기계학습 관련 최우수 학술대회 및 학술지 등에서 시니어 급의 멤버로 활동하고 있습니다. 아카데믹 커뮤니티는 연구자들의 자발적 봉사로 운영되는 구조이기 때문에, 이런 활동은 학술대회 및 학술지의 학문적 수월성을 지키는 데 필수적인 요소입니다. 동시에 국내 연구자들이 국제무대에서 더 주목받고, 한국의 컴퓨터 비전 및 기계 학습 커뮤니티의 위상이 높아지는 데도 중요한 기여를 할 수 있다고 생각합니다. 이러한 활동을 통해 국내 연구자들이 세계적인 커뮤니티에서 더욱 인정받을 수 있도록 뒷받침하고 싶습니다.
말씀처럼 인공지능은 산업 현장뿐만 아니라 우리 일상에서도 빠르게 자리 잡고 있습니다. 일반인들에게는 AI를 막연히 두려워하거나 과신하기보다는, 이를 이해하고 올바르게 활용하려는 태도가 중요하다고 생각합니다. 특히 인공지능에 의존하기보다, 비판적 사고를 갖고 능동적으로 인공지능을 사용해야 합니다. 결국 AI는 사람의 삶을 더 편리하고 풍요롭게 만들 수 있는 도구이기 때문입니다.
한편 학계와 산업계는 단순히 기술적 성능을 높이는 데 그치지 않고, 신뢰성, 투명성, 사회적 책임 같은 가치를 함께 고려해야 합니다. 그래야만 AI가 장기적으로 지속 가능한 방식으로 발전할 수 있습니다. 연구자와 기업이 함께 협력해 안전하면서도 유용한 AI를 만들어 나간다면, 인공지능은 사회 전체에 긍정적인 영향을 줄 수 있을 것입니다.
저는 학생들이 논문 주제 정하는데 세세하게 간섭하는 스타일은 아닙니다. 연구는 본인의 자율성과 주도성이 무엇보다 중요하다고 생각하기 때문입니다. 다만 늘 강조하는 가치는 분명합니다. 언제나 높은 목표를 세우고, 그 목표를 달성하기 위해 남들보다 훨씬 더 치열하게 노력해야 한다는 점입니다. 동시에 연구는 혼자가 아니라 함께하는 과정이기 때문에, 동료들과 활발히 소통하고 즐겁게 학문적 토론을 이어가는 자세도 매우 중요하다고 말합니다. 학생들도 연구는 혼자 공부하는 것이 아니라 다양한 논의를 통해 새로운 길을 개척하는 것임을 이해하고 실천하면 좋겠습니다.
저는 연구자로서 가장 중요한 덕목으로 자신감과 자기 절제를 꼽습니다. 특히 오랜 기간 연구를 지속하기 위해서는 이 두 가지가 필수입니다. 연구실에서는 학생들과 정기적인 미팅을 거의 하지 않는데, 학생들이 미팅을 위한 연구가 아니라 길게 보고 주도적이고 의미 있는 연구를 하길 바라기 때문입니다. 다만 학생들이 미팅을 요청하면 최대한 신속히 대응하며, 스스로 생각하고 소통하는 습관을 길러주려고 합니다. 또한 연구자로서 항상 창의적인 아이디어를 탐구하고, 단순히 논문 수를 늘리는 대신 임팩트 있는 연구를 수행하려는 태도가 중요하다고 강조합니다. 더 이상 ‘논문 몇 편을 썼는가’가 아니라, ‘얼마나 중요한 문제를 해결했는가’가 진정한 가치라고 생각합니다.
연구자로서 좋은 결과를 얻었던 순간들도 의미 있지만, 제자들이 성장하는 모습을 볼 때가 가장 좋습니다. 특히 연구실 졸업생들이 졸업 후 학계나 산업계에서 중추적인 역할을 하는 인재로 자리 잡았을 때 큰 자부심을 느낍니다. 실제로 제 연구실 졸업생 중에는 카이스트, 포스텍, 고려대 등 학계로 진출한 경우가 여럿 있고, 산업계에서도 오픈AI, 메타, 엔비디아, 삼성전자를 비롯한 국내외 유수 기업에서도 다양하게 활약하고 있습니다. 이처럼 제자들이 각자의 자리에서 의미 있는 성과를 내고, 스스로 연구와 실무에서 중요한 역할을 해 나가는 모습을 지켜보는 것은 교수로서 더할 나위 없는 보람입니다. 그들이 성장하고 활약하는 순간순간이 제가 연구와 교육에 쏟는 노력의 가장 큰 보상이자, 앞으로도 계속 헌신해야겠다는 동기부여가 됩니다.
박사 과정 졸업 무렵 건강이 좋지 않았을 때였습니다. 사실 몸이 안 좋은 것 자체보다, 그로 인해 정신적으로 많이 힘들었던 것이 더 큰 어려움이었죠. 당시 여러 기회를 놓치기도 했고, 마음가짐이나 자신감에도 영향을 받았습니다. 다행히 건강이 회복되면서 상황은 정상으로 돌아왔지만, 그 경험을 통해 느낀 점이 있습니다. 어려움이 있어도 언제든 준비되어 있는 사람이 되는 것이 중요하다는 것입니다. 연구에서도 마찬가지입니다. 꾸준히 할 일을 하고, 일상의 작은 성과를 쌓아가는 과정만이 진정으로 준비된 사람이 되는 방법이라는 것을 깨달았습니다. 이런 경험 덕분에 이후에는 도전적인 상황에서도 차분하게 대응하며, 장기적인 목표를 흔들림 없이 추구할 수 있었습니다.
솔직히 말씀드리면, 기술 발전 그 자체가 과연 항상 필요한가에 대해 때때로 회의적인 생각을 하기도 합니다. 그동안 과학기술은 우리의 생활을 편리하게 하고 신체적 자유를 확장하는 데 큰 역할을 해왔지만, 앞으로는 인간의 정신세계와 삶의 질을 향상하는 데 기여하는 기술이 더 중요하다고 생각합니다. 예를 들어, 정신건강, 노인 문제, 사회적 문제, 환경 문제와 같은 분야에 과학기술이 실질적인 도움을 줄 수 있다면 매우 의미 있을 것입니다. 인공지능 분야에서도 이런 역할을 할 수 있는 기술이 분명 존재하며, 저는 이러한 방향의 연구를 수행하고 싶습니다.
저는 어렸을 때부터 막연히 과학자가 되어야겠다고 생각하며 자랐습니다. 당시에는 자연스럽게 연구자의 길을 꿈꾸었지만, 지금 돌이켜보면 법률이나 의학 같은 분야도 충분히 재미있게 할 수 있을 것 같다는 생각이 듭니다. 다만 그러한 직업을 선택했더라도 아마 저는 그 가운데서도 연구의 길을 택했을 것 같습니다.
미래 과학자를 꿈꾸는 학생들뿐만 아니라, 진로와 상관없이 모든 학생들에게 강조하고 싶은 점은 과학적 사고방식을 갖는 것입니다. 항상 논리적으로 생각하고, ‘왜 그런가?’를 끊임없이 고민하며, 다양한 가능성을 고려하는 습관은 우수한 인력으로 성장하는 밑거름이 됩니다. 또한 공부나 연구를 할 때도, 단순히 적은 노력으로 만족스러운 결과를 얻는 데 치중하기보다는, 주어진 일에서 100점이 아닌 110점, 그 이상의 목표를 세우고 도전하는 자세가 중요합니다. 이런 습관과 태도가 꾸준한 성장과 발전으로 이어진다고 생각합니다.