요약문
글로벌 팟캐스트 시장은 청취자가 점점 더 영상 플랫폼을 통해 오디오 콘텐츠를 소비하면서 구조적 전환을 맞고 있다. 유튜브의 월간 팟캐스트 시청자가 10억 명을 넘어섰고 미국인의 절반 이상이 팟캐스트를 시청한 경험을 갖게 되면서, 이 매체는 이제 섬네일(Thumbnail)이 주도하는 콘텐츠 발견(discovery) 환경에서 더 이상 보이지 않는 채로 머물 수 없게 되었다. 이 글은 내러티브 팟캐스트(Narrative Podcast)를 영상으로 전환하는 일에 특화된 싱가포르의 제작사 1UpMedia의 관점에서 오디오의 시각적 전환을 살펴본다. BBC 월드서비스(BBC World Service)와 '위트니스 히스토리(Witness History)'를 인공지능 애니메이션으로 각색한 협업 — 한 달 만에 약 8만 회의 자연 조회수를 올렸고, 그중 2년 된 아카이브 에피소드 한 편이 5만 1천 회를 기록 — 을 바탕으로 청취자 행동, 댓글 정서 분석, 알고리즘 누적 확산 효과에 관한 자체 데이터를 제시한다. 이 글은 내러티브 오디오가 토크쇼형 팟캐스트와는 구별되는 고유한 '패키징(packaging)' 문제에 직면해 있다고 보고, 인간이 주도하는 인공지능 제작 프레임워크(Framework)를 제안하며, 미래 오디오 지형을 형성할 다섯 가지 흐름을 짚는다. 아울러 NRK(노르웨이), 라디오 프랑스, ARD(독일) 등 유럽 공영방송사를 위한 초기 영상화 탐색 사례를 소개하고, 아시아·태평양 지역 방송사에 주는 함의를 짚는다.
1. 들어가며: 오디오가 얼굴을 드러내는 법을 배웠을 때
라트비아 리가(Riga)에서 열린 '라디오 데이즈 유럽 2026(Radiodays Europe 2026)'에서, 필자는 청중에게 팟캐스팅에 관해 '두 개의 진실과 하나의 거짓'을 가려내는 게임으로 세션을 열었다.
· 유튜브(YouTube)는 가장 큰 팟캐스트 플랫폼이다.
· 젊은 청취자는 영상을 통해 프로그램을 발견한다.
· 내러티브 오디오는 죽었다.
청중은 곧바로 거짓을 짚어냈지만, 이 게임의 의도는 다른 데 있었다. 앞의 두 문장은 너무도 확고히 자리 잡아 논쟁거리조차 되지 않는다. 여전히 다툼의 여지가 있는 것은 세 번째다. 다큐멘터리, 오디오 드라마, 탐사 시리즈, 스토리텔링 팟캐스트 같은 내러티브 오디오가 구조적으로 쇠퇴하고 있다는 끈질긴 통념이다. 그 통념은 틀렸다. 그럼에도 사라지지 않는 까닭은, 업계가 더디게 대응해온 실재하는 시급한 문제가 있기 때문이다.
문제는 청취자가 내러티브 오디오를 외면한다는 데 있지 않다. 오디오 드라마, 다큐멘터리, 픽션, 심층 스토리텔링에 대한 수요는 분명히 존재한다.
문제는 '패키징(packaging)'이다. 내러티브 오디오는 발견 가능성이 무너져 있다. 콘텐츠 발견이 섬네일, 자동재생, 스크롤 기반 피드 같은 시각 신호에 압도적으로 좌우되는 미디어 생태계에서, 제 얼굴을 보여주지 못하는 콘텐츠는 보이지 않는 존재가 될 위험에 놓인다. 내러티브 오디오는 섬네일이 앞서는 세계에서 경쟁하지 못하며, 바로 그 문제가 이 글의 주제다.
내러티브 팟캐스트를 영상으로 전환하는 일에 특화된 싱가포르의 제작사 1UpMedia의 창립자로서, 필자는 수년간 오디오 스토리텔링과 비주얼 디자인, 그리고 신흥 인공지능 기술이 만나는 지점에서 일해왔다. 1UpMedia의 고객으로는 BBC 월드서비스(BBC World Service)와 싱가포르의 국영 미디어 네트워크인 미디어콥(Mediacorp)이 있다. 1UpMedia는 BBC와의 생성형 인공지능 제작을 승인받은 최초의 팟캐스트 제작사가 되었다. 수상작 'Heinous: An Asian True Crime Podcast'부터 이를 영상화 한 'Grim Asia'에 이르기까지, 직접 만들어온 제작물은 필자에게 오디오 산업을 영구히 재편하리라 믿는 그 전환을 맨 앞자리에서 지켜볼 기회를 주었다.
2. 시장의 변화: 오디오는 왜 영상으로 가는가
2-1. 플랫폼 데이터
지난 2년간의 데이터는 주요 조사기관과 플랫폼 전반에 걸쳐 놀라울 만큼 일관된 그림을 보여준다. 에디슨 리서치(Edison Research)의 〈Infinite Dial 2025〉 보고서에 따르면, 12세 이상 미국인의 73%가 오디오 또는 영상 형태로 팟캐스트를 소비한 경험이 있다. 결정적으로 51%는 팟캐스트를 '시청'한 적이 있는데, 이는 이제 일부의 행동이 아니라 다수의 행동이다. 미국의 주간 팟캐스트 이용률은 2025년 40%에 이르러 역대 최고치를 기록했고, 팟캐스트에 쓰는 총 시간은 2015년 이후 355% 늘었다.1)
유튜브는 2025년 초 월간 팟캐스트 시청자가 10억 명을 넘었다고 발표했으며, 미국에서 팟캐스트 발견에 가장 많이 쓰이는 단일 플랫폼으로 떠올랐다. 딜로이트(Deloitte) 조사에 따르면 2025년 가을 기준 미국 소비자의 약 27%가 매주 비디오 팟캐스트를 시청하고 있었으며, Z세대와 밀레니얼 세대가 그 확산을 이끈 것으로 나타났다. Z세대의 59%는 유튜브에서 팟캐스트 콘텐츠를 소비하며, 유튜브는 이들이 가장 많이 쓰는 팟캐스트 플랫폼으로 자리잡고 있다.2)
스포티파이(Spotify)의 카탈로그에는 이제 50만 개에 육박하는 비디오 팟캐스트 프로그램이 담겨 있는데, 이는 2024년 중반의 약 25만 개에서 늘어난 수치다. 3억 9천만 명이 넘는 이용자가 이 플랫폼에서 비디오 팟캐스트 콘텐츠를 이용했다. 2025년 1월 출범한 '스포티파이 파트너 프로그램'(Spotify Partner Program)은 첫해에 영상 소비를 80% 끌어올린 촉매가 되었다.3) 애플 팟캐스트(Apple Podcasts)는 2026년 초부터 영상 에피소드를 지원하기 시작했으며, 이는 이제 모든 주요 플랫폼이 영상을 실험이 아니라 핵심 인프라로 다루고 있음을 뜻한다.
| 플랫폼 | 주요 지표 | 시점 |
|---|---|---|
| 유튜브 | 월간 팟캐스트 시청자 10억 명 이상 | 2025년 초 |
| TV로 실시간 재생된 비디오 팟캐스트 월 7억 시간 이상 | 2025년 10월 | |
| 스포티파이 | 비디오 팟캐스트 약 50만 개 | 2025년 말 |
| 비디오 팟캐스트 이용 사용자 3억 9천만 명 이상 | 2025년 3분기 | |
| 파트너 프로그램 이후 영상 소비 80% 증가 | 2025년 1월~2026년 1월 | |
| 애플 팟캐스트 | 비디오 에피소드 지원 시작 | 2026년 초 |
유튜브 이용자는 2025년 10월 한 달 동안 TV로 7억 시간이 넘는 영상 팟캐스트를 시청했는데, 이는 1년 전의 거의 두 배에 달한다.4) 딜로이트는 2026년 글로벌 팟캐스트 광고 매출이 전년 대비 약 20% 늘어 약 50억 달러에 이를 것으로 전망한다. 플랫폼과 시장이 보내는 신호는 분명하다. 팟캐스팅의 미래는 멀티포맷(Multi-format)이며, 영상은 더 이상 선택 사항이 아니다.
- 1) Edison Research. (2025). The Infinite Dial 2025. Edison Research. https://www.edisonresearch.com/the-infinite-dial-2025/
- 2) Deloitte. (2026). Technology, media and telecom predictions 2026: Video podcasts dominate. Deloitte Insights. https://www.deloitte.com/
- 3) Spotify. (2026, January). Spotify Partner Program and video podcast growth. Spotify Newsroom.
- 4) EMARKETER. (2026, February 27). FAQ on podcasting: Video's rise, CTV growth, and what it means for advertisers in 2026. EMARKETER. https://www.emarketer.com/
2-2. 내러티브 오디오의 발견 문제
대다수 업계 논평이 놓치는 지점이 바로 여기다. 시각적 전환은 모든 팟캐스트에 똑같이 작용하지 않는다는 것이다. 유명인이 진행하는 토크쇼와 인터뷰 형식은 비교적 손쉽게 적응했다. 진행자에게 카메라를 맞추고, 대화를 담아, 그 영상을 내보내면 된다. 오늘날 영상 팟캐스팅 지형이 인물 중심 프로그램으로 채워진 까닭이 여기에 있다. 사람이 말하는 모습을 촬영하는 일은 그저 더 쉽기 때문이다.
매체의 가장 높은 예술적 성취를 대표하는 내러티브 오디오는 근본적으로 다른 과제에 부딪힌다. 책상 앞에 앉혀 촬영할 진행자가 없다는 것이다. 섬네일로 내세울 유명인 게스트도 없다. 거기에는 아카이브 녹음, 사운드 디자인, 해설, 편집 구성으로 정교하게 빚어낸 이야기가 있을 뿐이다. 이런 팟캐스트야말로 상을 받고 오디오만의 고유함을 규정하는 작품들이다. 그리고 바로 이 작품들이 시각이 앞서는 세계에서 가장 큰 어려움을 겪는 유형의 팟캐스트이기도 하다.
바로 이 간극을 해결하고자 1UpMedia가 설립되었다. 1UpMedia는 녹음 스튜디오에 카메라를 더하지 않는다. 애초에 시각용으로 설계되지 않은 내러티브 오디오를 모션 디자인, 아카이브 영상, 캐릭터 애니메이션, 시각 연출을 통해 매력적인 영상 콘텐츠로 전환한다. 팟캐스트 원본 자체는 그대로 유지된다. 원본 음성 파일은 손대지 않으며, 그 위에 장면과 배경, 캐릭터와 움직임, 타이틀과 타이포그래피(Typography) 등 시각적 요소를 얹는다. 그 결과물은 동일한 오디오 콘텐츠에 시각적 요소가 더해져 플랫폼에서 노출되고 청취자가 발견할 수 있는 형태로 재구성된다.
3. 'Heinous'에서 'Grim Asia'로: 모델을 입증하다
1UpMedia는 동남아시아의 방송사 및 미디어 기업과 협업하는 풀서비스 팟캐스트 제작사로 출발했다. 대표작 'Heinous: An Asian True Crime Podcast'는 미디어콥과의 공동제작으로 200편 넘게 이어졌다.
이 작품은 싱가포르 최대의 트루 크라임 팟캐스트로 자리 잡았고 아시아 팟캐스트 페스티벌(Asia Podcast Festival, APF)에서 인정받았다. 2023년 1UpMedia는 라디오인포(RadioInfo)로부터 '올해의 팟캐스트 퍼블리셔(Podcast Publisher of the Year)'로 선정되기도 했다. 2024년에는 아시아 팟캐스트 제작사로는 처음으로 업계의 에미상(Emmy Awards) 격인 앰비상(The Ambies) 후보에 올라 소니 뮤직(Sony Music), 워너 브라더스 디스커버리(Warner Bros. Discovery)와 어깨를 나란히 했다. 뉴욕 페스티벌(New York Festivals)에서는 금상과 동상을 수상했다.
그런데 자체 분석 결과, 청취자가 점점 더 유튜브와 SNS 영상을 통해 오디오 콘텐츠를 발견하고 있다는 사실이 확인되었다. 이에 1UpMedia는 사업의 방향을 바꾼 질문을 던졌다. 'Heinous'의 내러티브 오디오를 단순히 정지 이미지를 입힌 팟캐스트가 아니라 오디오 스토리텔링을 유지하면서도 시각적으로도 홀로 설 수 있는 진정한 다큐 애니메이션, 즉 완전히 영상화된 시리즈로 옮길 수 있다면 어떨까?
그 결과물이 바로 'Grim Asia'다. 'Heinous'의 내러티브 오디오를 토대로 만든 완전히 영상화된 다큐 애니메이션 시리즈다. 에피소드마다 오디오를 압도하지 않으면서 이를 보완하는 시각적 언어가 필요했다. 원본 오디오는 더하거나 빼는 것 없이 온전히 그대로 두었다. 이렇게 영상화된 내러티브 콘텐츠를 중심으로 운영되는 유튜브 채널은 이제 약 2만 명의 구독자를 기반으로 매월 10만 회의 자연 유입 조회수를 기록하고 있다. 이 조회수는 유명인 게스트가 아니라, 롱폼(Long-form) 내러티브 트루 크라임 콘텐츠, 곧 통념상 유튜브에서 성공할 수 없다고들 하는 바로 그 콘텐츠가 만들어낸 것이다.
팟캐스트 영상화를 두고 가장 흔히 나오는 우려는, 영상이 오디오 청취층을 잠식하리라는 것이다. 1UpMedia가 확인한 결과는 정반대였다. 유튜브 채널을 시작한 해에, 'Heinous'가 이미 싱가포르 최대의 트루 크라임 팟캐스트였음에도 전체 청취층은 63% 늘었다. 영상 시청자는 대체로 '새로 더해진' 층이었다. 오디오 전용 플랫폼만으로는 결코 이 팟캐스트를 발견하지 못했을 사람들이었다. 영상 시청자가 시간이 지나며 오디오 청취자로 전환되는 양상도 꾸준히 관찰됐다. 한 유튜브 댓글 작성자는 몇 달간 영상을 보다가 스포티파이에서 팟캐스트를 찾아 듣기 시작했고 그 뒤로 줄곧 듣고 있다고 적었다. 영상은 팟캐스트를 대체하지 않는다. 그 세계를 넓힌다.
'Grim Asia'는 단순한 스핀오프 이상이 되었다. 디지털 청중을 위해 시각을 앞세운 경험으로 재해석한 내러티브 팟캐스트라는, 완전히 새로운 콘텐츠 범주의 '개념 증명(proof of concept)'이 된 것이다. 'Grim Asia'는 오디오를 영상으로 옮기는 작업이 사려 깊게 이루어질 경우, 원본 팟캐스트를 결코 접하지 못했을 청중에게 도달하고, 기존 오디오 자산의 상업적 수명을 늘리며, 완전히 새로운 수익원을 열 수 있음을 보여주었다. 제작 현장의 규모에서 내러티브 영상화의 창의적·기술적 난제와 씨름하며 'Grim Asia'를 만든 경험이, 1UpMedia를 가장 중요한 국제 협업으로 이끌었다.
4. BBC '위트니스 히스토리' 협업
4-1. 제작 과정과 성과
2026년 초, BBC 월드서비스는 일일 내러티브 역사 프로그램 '위트니스 히스토리(Witness History)'의 에피소드를 인공지능 애니메이션으로 각색한 영상 다섯 편을 공개했다. 이 프로젝트는 1UpMedia가 제작했으며, 1UpMedia는 BBC에게 생성형 인공지능 제작을 승인받은 최초의 팟캐스트 제작사가 되었다. 다섯 편은 '세계 최초의 래브라두들(The World's First Labradoodle)', '브라질 사상 최대의 은행 강도 사건(Brazil's Biggest Bank Heist)', '람세스 2세의 '미라 단장'(Ramesses II's 'Mummy Makeover')', '페루 시판 군주의 발견(The Discovery of Lord Sipan in Peru)', '브라질에서 축구를 했다는 이유로 체포되다(Arrested for Playing Football in Brazil)'였다.5)
1UpMedia의 제작 과정은 엄격한 원칙을 따른다. 팟캐스트는 본래 상태 그대로 두며, 원본 MP3를 토대로 제작한다는 것이다. 오디오를 다시 녹음하거나, 재편집하거나, 손대지 않는다. 그 위에 시각 요소를 얹는다. 배경과 분위기를 잡아주는 장면과 배경, 이야기에 생명을 불어넣는 캐릭터와 움직임, 시청자를 이끄는 타이틀과 타이포그래피다. 엄격한 편집 기준 아래 움직이는 BBC 같은 방송사에게, 편집 콘텐츠는
- 5) [각주 내용이 원본 텍스트에서 제공되지 않았습니다]
츠와 시각적 각색을 분리하는 이 원칙은 필수적이다. 성과는 기대를 뛰어넘었다. 영상화된 '위트니스 히스토리' 콘텐츠 다섯 편은 공개 첫 달 동안 유료 홍보 없이 약 8만 회의 자연 조회수를 기록했다. 그러나 가장 두드러진 결과는 한 편에서 나왔다. '시판의 군주' 편은 한 번의 우연한 사건이 어떻게 아메리카 대륙을 대표하는 고고학적 발견으로 이어졌는지를 다룬 작품으로, BBC 월드 서비스의 방대한 콘텐츠 목록 깊숙이 묻혀 있던 2년 된 오디오 에피소드였다. 이 에피소드를 인공지능 애니메이션으로 영상화해 유튜브에 공개하자, 첫 달에만 5만 1천 회를 끌어모았고, 이후로도 조회수는 꾸준히 증가했다. 이 결과는 업계에 끈질기게 자리 잡은 통념을 정면으로 반박한다. 긴 형식의 오디오는 쇠퇴하고 있고, 사람들의 주의 지속 시간은 너무 짧으며, 내러티브 팟캐스트는 키우기 더 어렵다는 통념 말이다. 그러나 '위트니스 히스토리'의 데이터는 다른 이야기를 들려준다. 탄탄한 내러티브 오디오는 설령 수년이 지났더라도, 시각 플랫폼에 맞게 제대로 패키징되면 완전히 새로운 청중에게 도달할 수 있다. 콘텐츠는 언제나 훌륭했다. 부족했던 것은 콘텐츠가 아니라 패키징이었다.5)
4-2. 데이터가 실제로 가르쳐준 것
초기 성과가 나온 뒤, 필자는 청중이 콘텐츠와 어떻게 상호작용하는지 파악하기 위해 '위트니스 히스토리' 다섯 편의 영상의 댓글을 대상으로 정서 분석(sentiment analysis)을 진행했다. 핵심 질문은 시청자가 애니메이션 스타일과 시각 연출 같은 '시각적 요소'를 이야기하는지, 아니면 '이야기 그 자체'에 집중하는지였다.
| 분류 | 댓글 비중 | 해석 |
|---|---|---|
| 소재(역사, 인물, 사건) | 83% | 시청자가 콘텐츠를 스토리텔링으로 받아들임 |
| 시각 스타일(애니메이션, 시각 연출) | 17% | 시각 레이어는 인지되었으나 주된 화제는 아님 |
결과는 분명했다. 댓글의 83%가 역사·인물·사건 등 소재 그 자체를 다루고 있었고, 애니메이션 스타일을 언급한 댓글은 17%에 그쳤다. '시판의 군주' 편에서 댓글은 대체로 이 발견의 고고학적 의의를 토론하고, 용어를 바로잡고, 추가적인 역사적 맥락을 보태는 데 집중됐다. 애니메이션을 언급한 17% 안에서도, 가장 많은 공감을 얻은 댓글은 '생성형 인공지능 졸작(Gen-AI slop)' 식의 반발이 아니라, 작품의 완성도를 긍정하고 어떻게 더 나아질 수 있을지에 온전히 초점을 맞추고 있었다.
"애니메이션이 아름답습니다. 다만 유물과 유적지의 사진도 함께 볼 수 있었다면 더 좋았을 것 같아요."
— @cafecitoconazucar · 좋아요 77개 · 2026년 5월 4일
이 결과가 중요한 이유는 '영상화'의 목적을 다시 규정하기 때문이다. 시각적 처리가 이야기를 압도하거나 경쟁하려 하지 않고, 서사를 뒷받침하도록 정성스럽게 설계되면, 시청자는 그것을 하나의 '예술 작품'으로 소비하기보다 이야기를 들여다보게 해 주는 '창(窓)'으로 인식한다. 시각은 배경으로 물러나고, 전면에는 이야기와 정보가 선다. 실무적으로 이는 적지 않은 함의를 갖는다. 유튜브의 문을 여는 데 반드시 걸작 수준의 영상미가 필요한 것은 아니다. 시각 플랫폼에서 이야기가 자연스럽게 도달하고 이해될 만큼 충분히 좋은 수준이면 된다. 그 문턱은 업계 통념이 상정해 온 기준보다 낮고, 그 대신 돌아오는 보상은 더 크다는 것이 데이터로 입증된 셈이다.
데이터에서는 세 가지 추가적인 발견도 도출됐다. 첫째, 짧은 내러티브 형식도 유튜브에서 충분히 경쟁력을 가진다. 재생시간이 약 10분 수준인 에피소드라도 하나의 완결된 서사적 매듭을 명확히 제시하기만 하면, 더 긴 에피소드 못지않은 성과를 낸다. 변수는 길이가 아니라 이야기의 완결성이다.
둘째, 유튜브 알고리즘의 누적(compounding) 작동을 촉발하려면 최소 다섯 편 이상의 이야기가 필요하다는 점을 확인했다. 다섯 번째, 여섯 번째 이야기가 공개되는 시점부터 새 이야기가 업로드될 때마다 이전 에피소드들의 조회수가 함께 오르기 시작했고, 플랫폼 추천 알고리즘이 이전 작품들(back catalogue)을 본격적으로 노출하기 시작했다. 이는 단발성 우연이 아니라 반복 관찰된 패턴이며, 에피소드 수가 일정 임계치에 미치지 못하면 이런 현상이 발생하지 않는다.
셋째, 아카이브(archive) 활용 기회가 업계 전반에서 거의 방치되고 있다는 점이다. 많은 제작사가 본능적으로는 신작을 토크쇼·인터뷰 형태로 영상화하는 데 주력하지만, 우리가 관찰한 알고리즘 누적 효과를 실제로 이끈 것은 런칭 전략이 아니라 축적된 카탈로그(catalogue)였다. 잠자고 있는 과거 콘텐츠, 즉 백로그(backlog)는 가장 큰 성장 잠재력을 지닌 자산이다.
4-3. BBC의 확장된 비디오 팟캐스트 전략
'위트니스 히스토리' 프로젝트는 BBC가 추진 중인 더 광범위한 비디오 팟캐스트 전략의 일부였다. 2025년 10월, BBC 아이플레이어(BBC iPlayer) 서비스 책임자(Service Executive) 베아트리스 쿡(Beatrice Cooke)은 유럽방송연맹(European Broadcasting Union, EBU) 세션에서 아이플레이어가 팟캐스트 영상화를 활용해 브랜드 인지도를 키우고 청중 참여를 심화하는 방식을 소개했다.6) 이 전략은 2026년 3월 들어 한층 본격화됐다. BBC는 BBC 아이플레이어, BBC 사운즈(BBC Sounds), 유튜브에 걸쳐 비디오 팟캐스트 라인업을 크게 확대한 것이다. '언캐니 위드 대니 로빈스(Uncanny with Danny Robins)'의 영상화 포맷이 대표적이며, '솔트 유어 라이프 아웃(Sort Your Life Out)', '레이스 어크로스 더 월드(Race Across the World)' 같은 텔레비전 브랜드의 크로스플랫폼 확장도 포함됐다.7)
BBC 내부 청중 조사에서 팟캐스트의 팬 다섯 명 중 세 명이 지난 1주일 동안 팟캐스트를 시청(watch)한 경험이 있는 것으로 나타났다. BBC 사운즈의 팟캐스트 전략 및 비디오 팟캐스트 담당 매니징 에디터(Managing Editor) 조너선 카나가수리암(Jonathan Kanagasooriam)은 비디오 팟캐스트가 '오디오가 BBC 전체에서 영향력을 발휘하게 하는 레버'라고 설명한다. 빠르게 파편화되는 미디어 지형 속에서, 공영방송사인 BBC에게 영상화는 전략적 필요조건으로 자리 잡고 있다.
- 5) BBC. (2026a, February 24). BBC World Service to launch AI-animated editions of Witness History. BBC Media Centre. https://www.bbc.com/mediacentre/
- 6) EBU. (2025, October 7). Visualised podcasts on BBC iPlayer [Conference session]. EBU Video Talks. https://www.ebu.ch/video-talks/restricted/2025/10/BDMU/visualised-podcasts-on-bbc-iplayer
- 7) BBC. (2026b, March 13). BBC expands video podcast strategy with multiple new launches. BBC Media Centre.
5. 중간 단계의 인공지능: 책임 있는 제작을 위한 프레임워크
팟캐스트 영상화에서 인공지능의 역할은 시각적 전환에서 가장 흥미로우면서도 가장 첨예한 쟁점이다. 업계가 인공지능을 어떻게 다루느냐가 이 새로운 제작 방식이 청중의 신뢰를 얻고 지킬 수 있을지를 결정한다.
라디오 데이즈 유럽(Radiodays Europe 2026)에서 필자는 이후 적잖은 논의를 불러일으킨 표현과 함께 우리의 제작 프레임워크를 제시했다. "인공지능은 가운데에 있다. 처음도, 끝도 아니다."
| 단계 | 주도 주체 | 기능 |
|---|---|---|
| 1. 창의적인 연출 | 인간 | 편집 의도, 스토리 이해, 시각 연출 결정 |
| 2. 제작 및 반복 작업 | 인공지능 (인간의 지도하에) | 시각 에셋 반복 생성, 빠른 제작 규모 확장 |
| 3. 품질 관리 및 최종 승인 | 인간 | 큐레이션, 편집 검수, 최종 승인 |
모든 프로젝트는 인간에게서 시작한다. 창의적인 연출, 편집 의도, 이야기에 대한 이해는 인간의 판단과 문화적 감수성, 그리고 편집 책임을 요구한다. 인공지능은 역사적 사건을 어떻게 시각적으로 풀어낼지, 애니메이션이 어떤 정서적 톤을 띠어야 할지 스스로 정하지 못한다. 그 다음 단계에서 인공지능이 이를 확장한다. 인공지능은 시각 자산을 반복 생성하고, 제작 규모를 빠르게 키우며, 본래라면 훨씬 큰 예산이 있어야 가능했을 콘텐츠를 소규모 팀이 만들도록 돕는다. 그리고 모든 프로젝트는 인간에게서 끝난다. 기획·구성과 품질 관리, 편집 승인은 양보할 수 없는 영역이다. 우리가 모든 제작물에 던지는 두 가지 질문은 다음과 같다. 이것은 인간에게서 시작하는가? 그리고 이것은 인간에게서 끝나는가?
우리의 인공지능 원칙은 도구 선택에까지 이어진다. 우리는 두 가지 확고한 규칙 아래 일한다. 첫째, 상업용 라이선스가 제대로 갖춰진 생성형 인공지능 도구만 사용한다. 약관이 불분명하거나 사용 방식이 떳떳하지 않으면 그 도구는 쓰지 않는다. 둘째, 그 기술의 배후가 누구인지, 곧 개발사가 독립적으로 운영되며 자사 데이터에 대한 통제권을 쥐고 있는지를 검증한다.8)
이러한 원칙은 BBC 자체의 인공지능 편집 지침과도 맞닿아 있다. BBC의 지침은 공익을 최우선으로 할 것, 인재와 창작자를 우선할 것, 기술 사용에 대해 청중에게 투명할 것이라는 세 가지 핵심 원칙을 토대로 삼는다. BBC는 뉴스 기사나 사실 확인 조사에 생성형 인공지능을 쓰는 것은 배제하고 있지만, 편집 감독 아래 이뤄지는 콘텐츠 제작에는 그 활용을 지지한다.9) '위트니스 히스토리' 프로젝트에서는 투명성이 처음부터 내재되어 있었다.
- 8) Yeo, G. J. (2026, March). The visual turn in audio [Conference presentation]. Radiodays Europe 2026, Riga, Latvia.
- 9) BBC. (2025). Editorial guidance on the use of AI. BBC Media Centre. https://share.google/JyEmYKf1O9LecHpum
6. BBC를 넘어서: 국제적 탐색
오디오의 시각적 전환은 영어권에만 국한된 현상이 아니다. 필자는 '라디오 데이즈 유럽 2026(Radiodays Europe 2026)'에서 유럽 주요 공영방송사 세 곳의 내러티브 프로그램이 어떻게 영상 형식으로 확장될 수 있는지에 대한 초기 시각적 탐색 사례를 발표했다. 노르웨이 국영 방송(Norsk rikskringkasting, NRK)의 '헐레 히스토리엔(Hele Historien)', 라디오 프랑스(Radio France)의 '레 오디세(Les Odyssées)', 독일 공영방송 연합(Arbeitsgemeinschaft der öffentlich-rechtlichen Rundfunkanstalten der Bundesrepublik Deutschland, ARD)의 '카인 무크스!(Kein Mucks!)'는 장르도 타깃 청중도 서로 다르지만, 공통된 과제를 공유한다. 내용이 풍부하고 수상 경력까지 갖춘 내러티브 오디오가 시각 중심 환경에서 새로운 청중에게 다가가는 데 어려움을 겪고 있다는 점이다.
각 프로그램에는 서로 다른 시각적 접근이 요구된다. 노르웨이 역사 다큐멘터리와 프랑스 아동 모험 시리즈, 독일 장르 오디오 드라마가 같은 미학과 호흡으로 영상화될 수는 없다. 이는 일률적인 양식 작업이 아니라, 원작 오디오의 편집 정체성과 목표 청중의 문화적 맥락을 동시에 깊이 이해해야만 가능한 창작 과정이다. 팟캐스트 영상화의 시각 언어, 즉 아트 스타일과 모션 디자인, 색채와 타이포그래피 운용은 프로그램별 편집 정체성과 문화적 맥락에 맞춰 세밀하게 조정해야 한다. BBC 월드 서비스 청중에게 효과적이었던 접근법이 노르웨이·프랑스·독일 청중에게 그대로 통할 것이라고 가정할 수 없으며, 제작 과정 역시 이런 차이를 수용할 만큼 유연해야 한다.
이러한 시도들이 의미를 갖는 이유는 내러티브 팟캐스트 영상화가 영미권의 특수 현상이 아님을 보여주기 때문이다. 유럽 전역의 공영방송사는 수십 년에 걸쳐 축적된 고품질 내러티브 오디오를 보유하고 있고, 상당수는 영어가 아닌 언어로 제작되었다. 그러나 오늘날 시각이 주도하는 디지털 환경에서 이 아카이브는 새로운 청중을 찾는 데 어려움을 겪어 왔다. '팟캐스트 인덱스(Podcast Index)' 집계에 따르면 전체 팟캐스트의 약 55%가 영어로 제작되어 있지만, 스페인어·포르투갈어·프랑스어·독일어 등 비영어권 언어의 비중도 상당하며 계속 확대되는 추세다.10) 영상화는 이 다국어 오디오 유산을 전 세계 새로운 시청·청취층에게 열어 주는 하나의 통로가 될 수 있다.
싱가포르에서 바라보면, 아시아·태평양 지역은 특히 시사적인 평행 사례를 보여준다. 동남아시아 전역에서 모바일 우선(Mobile-first) 인터넷 이용은 이미 일상이며, 나이지리아·필리핀·인도네시아 같은 신흥 시장에서는 데이터 비용이 빠르게 하락하면서, 과거에는 오디오 전용 소비에 머물렀던 수억 명의 이용자에게도 동영상 실시간 재생이 현실적인 선택지가 되고 있다. 유튜브와 틱톡(TikTok), 그리고 각 지역에서 우세한 지역 기반 SNS 영상 플랫폼은 젊은 세대에게 사실상의 주된 미디어 소비 통로가 되었다. 이런 맥락에서 오디오 전용 팟캐스트는 다수의 잠재 청중에게 거의 보이지 않는다. 이들은 시각 기반 플랫폼에서 콘텐츠를 발견하며, 오디오 콘텐츠가 그 플랫폼에 존재하지 않는다면 해당 콘텐츠는 이들의 세계에서 '없는 것'과 크게 다르지 않다.
필자가 팟캐스팅의 미래 논의를 위해 참여해 온 아시아·태평양 방송연맹(Asia-Pacific Broadcasting Union, ABU) 내부에서는 영상화가 권역 내의 공영방송사로 하여금 전통 라디오·텔레비전에서 멀어지는 젊은 세대에게 다시 닿을 수 있게 해 주는 중요한 기회라는 인식이 빠르게 확산되고 있다. 글로벌 팟캐스트 청취자는 2026년 약 6억 1,900만 명 규모에 이를 것으로 전망되며, 이 가운데 중국, 인도, 라틴 아메리카가 점점 더 큰 비중을 차지할 것으로 예상된다. 여러 언어와 문화권에 걸쳐 내러티브 팟캐스트 영상화를 유연하게 다룰 수 있는 제작사와 방송사에게 잠재적으로 도달 가능한 청중의 규모는 이미 거대하며 앞으로도 계속 확대될 전망이다.
- 10) PodcastVideos.com. (2026, March 3). AI enhances podcast accessibility: From visuals to disclosure. PodcastVideos.com. https://www.podcastvideos.com/
7. 그 다음은 무엇인가: 미래 오디오 지형을 형성할 5가지 트렌드
7-1. 팟캐스팅과 텔레비전의 수렴
팟캐스트와
텔레비전의 경계는 빠르게 흐려지고 있다. 넷플릭스와 스포티파이는 2025년 말 일부 비디오 팟캐스트를 넷플릭스에 도입하기 위한 제휴를 발표했다.11) 동시에 유튜브에 따르면 이용자들은 한 달 동안 텔레비전 화면으로만 7억 시간이 넘는 비디오 팟캐스트를 시청했고, 닐 모한(Neal Mohan) 유튜브 최고 경영자는 "이용자들이 이제 스마트폰보다 텔레비전에서 더 많은 콘텐츠를 소비한다"고 밝히며 거실 스크린의 위상을 재확인했다.12) 이 변화는 비디오 팟캐스트를 프레스티지 텔레비전 콘텐츠와 동일한 화면에서 경쟁하게 만든다. 자연스럽게 제작 완성도에 대한 기대치도 높아진다. 단순한 고정 카메라 토크쇼 형식만으로는 점점 차별화가 어려워지고, 시각적 연출 및 이야기 방식에 무게를 둔 내러티브 영상화가 상대적으로 유리해진다.
7-2. 규모를 갖춘 인공지능 기반 제작
인공지능 도구의 발전으로 팟캐스트 영상화 비용과 복잡성은 계속 낮아질 전망이다. 향후 몇 년 안에는 제작 준비 기간이 더욱 짧아져 사실상 실시간에 가까운 시각화도 가능해질 수 있다. 다만 관건은 신뢰를 유지할 수 있는 편집 작업 체계를 마련하는 것이다. 적절히 설계된 인공지능 작업 절차는 새로운 갈래의 시각 콘텐츠, 예컨대 맞춤형 비주얼 레이어, 인터랙티브 내러티브, 에피소드 안의 내장형 데이터 시각화 등 새로운 형식의 실험을 가능하게 한다.
7-3. 크로스플랫폼 콘텐츠 아키텍처
앞으로 5년 동안 가장 강력한 오디오 브랜드는 일관된 크로스플랫폼 콘텐츠 아키텍처(Cross-platform Content Architecture)를 갖춘 곳일 가능성이 높다. 하나의 원천 콘텐츠가 오디오, 롱폼 영상, 숏폼 SNS, 인터랙티브 형식에서 동시에 작동하도록 설계하는 전략이다. 이제는 팟캐스트를 다 만든 뒤 홍보 방법을 고민하는 것이 아니라, 기획 단계에서부터 크로스플랫폼 전략을 가지고 시작될 것이다.
7-4. 광고를 넘어선 수익화
딜로이트(Deloitte)는 2026년 세계 팟캐스트 광고 매출을 약 50억 달러 규모로 전망한다.13) 그러나 가장 큰 기회는 전통적인 광고 모델 바깥에 있을 가능성이 크다. 스포티파이의 파트너 프로그램(Spotify Partner Program)처럼 창작자에게 직접 수익을 배분하는 구조, 멤버십·후원 플랫폼, 프리미엄 전용 피드(premium feeds) 등의 모델이 빠르게 성장하고 있다. 방송사 입장에서 영상화는 오디오 전용 콘텐츠로는 접근하기 어려웠던 라이선싱과 신디케이션(Syndication) 기회를 연다. 영상화된 팟캐스트는 텔레비전 편성용 형식으로 재판매되거나, 해외 채널과 플랫폼에 라이선스될 수 있고, 교육·아카이브·전시 등 2차 활용을 위한 자료로 재가공될 수 있다. '위트니스 히스토리' 프로젝트 역시 BBC의 오디오 라이브러리에 새로운 유형의 시각 자산을 추가한 사례다.
7-5. 윤리 기반 작업 체계와 산업 표준
인공지능이 제작 공정 곳곳에 깊이 들어올수록 윤리 기반의 중요성도 커진다. BBC가 보여준 접근법은 참고할 만한 모델이지만, 아직 업계 차원의 표준이라고 보기는 어렵다. 많은 제작사가 명확한 지침이나 투명한 고지, 저작권·라이선스 합의 없이 인공지능을 도입하고 있다. 업계에는 인공지능 사용 고지(disclosure), 편집 책임, 창작 기여도 표시(attribution)에 대한 공동 표준이 필요하다는 인식이 커지고 있다. RSS.com의 인공지능 사용 고지 기능, 애플 팟캐스트의 인공지능 관련 투명성 요구사항은 이런 방향에서 의미 있는 출발점이지만,14) 세계 제작 생태계를 포괄하는 공통 규범으로 보기에는 아직 갈 길이 멀다.
- 11) Axios. (2025). Netflix and Spotify partner on video podcasts. Axios. https://www.axios.com/2025/10/14/netflix-spotify-video-podcasts-the-ringer
- 12) EMARKETER. (2026, February 27). FAQ on podcasting: Video's rise, CTV growth, and what it means for advertisers in 2026. EMARKETER. https://www.emarketer.com/
- 13) Deloitte. (2026). Technology, media and telecom predictions 2026: Video podcasts dominate. Deloitte Insights. https://www.deloitte.com/
- 14) PodcastVideos.com. (2026, March 3). AI enhances podcast accessibility: From visuals to disclosure. PodcastVideos.com. https://www.podcastvideos.com/
8. 마치며
필자는 '라디오데이즈 유럽' 발표를 마치며, 지금의 변화를 가장 잘 요약한다고 믿는 한 문장을 남겼다. "시각이 앞서는 세계에서도 가장 좋은 오디오는 여전히 이긴다. 다만 세상에 제 얼굴을 보여주기만 하면 된다." 이는 영상이 우위에 있다는 사실을 인정하는 것이 아니다. 오디오 스토리텔링의 힘, 곧 그 특유의 친밀함과 상상력을 자극하는 능력, 그리고 높은 접근성이 여전히 유효하다는 전제를 깔고 있다. 다만 그 힘이 온전히 발휘되려면, 그 스토리텔링을 만날 수 있는 청중에게 실제로 도달해야 한다는 인식이 전제된다. 2026년 현재, 이 '발견'의 대부분은 시각적 사용자 환경에서 일어난다.
BBC '위트니스 히스토리' 협업에서 나온 데이터는 이 변화를 구체적으로 보여준다. 한 달 만에 8만 회에 이른 자연 조회 수, 2년 된 아카이브 에피소드가 올린 5만 1천 회의 조회 수, 애니메이션이 아닌 소재와 내용에 반응한 댓글 비중 83%, 이미 자리 잡은 오디오 브랜드에 영상을 병행했을 때 나타난 63% 청취층 성장. 이 숫자들은 예외적인 사례라기보다, 구조 자체가 움직이고 있음을 가리키는 신호다.
수년 치 내러티브 오디오 자산을 쌓아 둔 모든 방송사, 팟캐스트 네트워크, 미디어 기업은 이 변화가 자사 백로그(backlog)에 어떤 의미를 가지는지 진지하게 따져봐야 한다. 오래된 오디오는 포맷을 바꾸고 다시 포장하면 더 이상 '옛것'에 머물지 않는다. 콘텐츠 품질은 충분히 높았을지 모른다. 부족했던 것은, 그 콘텐츠가 만났어야 할 청중에게 도달하도록 돕는 올바른 포장과 유통 경로였다.
오디오를 사랑하는 사람들, 곧 정보를 전하고 감정을 움직이며 사람과 사람을 잇는 이 매체의 고유한 힘을 믿는 우리에게, 시각적 전환은 위협이 아니다. 지금 세대가 맞닥뜨린 가장 큰 기회에 가깝다. 내러티브 오디오는 죽지 않았다. 아직 화면 밖에 서 있을 뿐이다. 이제 해야 할 일은 그 얼굴을 보여주는 일이다.
이 함의는 개별 제작사나 방송사를 넘어, 규제기관·정책 당국·공영미디어 기관을 포함한 더 넓은 미디어 시스템 전체로 확장된다. 시각적 전환은 오디오 유산을 어떻게 보존하고, 그 가치를 어떻게 평가·측정하며, 어떤 방식으로 대중에게 접근 가능하게 할 것인지 묻는 질문이기도 하다. 전 세계 아카이브에는 수십억 시간에 이르는 내러티브 오디오가 잠들어 있고, 그 상당수는 막대한 공적 재원으로 제작된 대체 불가능한 문화·저널리즘 자산이다. 영상화는 이 유산을 원래의 오디오 형태로는 결코 접하지 못했을 새로운 세대 청중에게 열어 줄 수 있는 현실적인 수단이다.
라디오 스토리텔링과 오디오 제작에서 풍부한 전통을 쌓아 온 한국 방송 산업에게, 시각적 전환은 동시에 도전이자 기회다. 한국 방송사 역시 이 글에서 다룬 것과 같은 플랫폼 역학 속에 놓여 있다. 젊은 층에서의 유튜브 지배력, 영상 우선 소비 습관의 확산, 콘텐츠를 여러 형식과 플랫폼으로 확장해야 한다는 압력은 동일하다. BBC '위트니스 히스토리' 협업에서 확인된 교훈, 특히 구조화된 인공지능 작업 절차의 활용과 엄격한 편집 감독의 결합, 그리고 아카이브 오디오가 지닌 예상 밖의 상업적·공적 잠재력은 자사 오디오 카탈로그의 수명과 도달 범위를 어떻게 넓힐지 고민하는 한국 방송사가 곧바로 참고할 수 있는 사례다.
물론 아직 표본은 크지 않지만, 다섯 편은 작은 출발점이 될 것이다. 그럼에도 댓글 정서의 83:17 분포, 2년 된 아카이브 에피소드의 5만 1천 회 조회 수, 축적되는 알고리즘 누적 효과, 63%의 청취층 성장이라는 지표들은 모두 같은 방향을 가리키고 있다. 방향은 이미 충분히 명확해져 있으며, 이제는 실행의 문제다.