버시스는 듣기만 하는 음악이 아닌 음악과 스토리, 비주얼이 사용자의 인터랙션에 따라 진화하고 변화하는 인터랙티브 뮤직을 전개하고 있습니다. 인터랙티브 뮤직은 다양한 형태로 나타나는데요. 그중에서도 음악과 메타버스를 결합해 선보인 인터랙티브 뮤직 월드의 대표 사례가 바로 ‘에스파 월드(aespa world)’입니다. SM엔터테인먼트와 협업하여 네이버 제트의 메타버스 플랫폼 제페토(ZEPETO)에 구축된 에스파 월드는 K-POP과 제너러티브 AI를 사용한 인터랙티브 기술이 결합된 공간으로, CES 2025 혁신상을 수상하며 그 기술적 우수성을 인정받았습니다.
에스파 월드는 단순한 가상공간이 아니라, 유저들이 에스파의 세계관을 직접 체험하고 음악을 창작하며 상호작용할 수 있는 새로운 개념의 ‘인터랙티브 뮤직 월드’입니다. 메타버스 공간에 구현된 에스파의 세계관은 에스파 월드의 디자인에서 특히 두드러지게 나타나는데요. 에스파 월드 디자인은 사용자의 인터랙션을 유도하고 에스파의 세계관과 테마를 비주얼로 구현한 정교한 작업으로 이루어져 있습니다. 이번 인터뷰에서는 그 놀라운 디자인과 기획을 담당한 강정우, 장수지, 이주연 기획자 및 디자이너가 전하는 ‘에스파 월드 디자인 비화’를 들어봤습니다.
<aside> 💡
김은경 : 모더레이터 강정우 : 기획자, 디자이너 이주연 : 기획자, 디자이너 장수지 : 기획자, 디자이너
</aside>
강정우 님.
이주연 님.
장수지 님.
김은경: 에스파 월드는 기존에 없었던 ‘인터랙티브 뮤직 월드’라는 개념으로 시작되었어요. 처음 디자인할 때 어떤 도전이 있었나요?
버시스의 비트 기반 인공지능 뮤직비디오 생성기(Beat-based AI Music Video Generator.
강정우: 원래 이 프로젝트는 CES 2024에서 혁신상을 받은 ‘비트 기반 인공지능 뮤직비디오 생성기(Beat-based AI Music Video Generator)’ 기술에서 출발했어요. 사용자가 음악에 맞춰 캐릭터를 실시간으로 편집할 수 있는 기술이었죠. 그런데 이걸 제페토라는 플랫폼 안에서 구현하려다 보니 예상치 못한 기술적 제약이 많았습니다. 특히 제페토의 개발 환경이 기존 유니티(Unity)와 달라서 시행착오를 많이 겪었어요.
(웃으며) 아, 그리고 처음에 저희가 이걸 기획했을 때 "와, 이거 진짜 대단한 거 나올 거다" 하고 기대했는데, 막상 제페토랑 맞춰보니까 "이거... 될까?" 싶었죠. (웃음)
이주연: 제페토는 기본적으로 3D 기반의 가상 공간이지만, 사용자의 경험이 모바일 최적화에 맞춰져 있어요. 그래서 처음 기획했던 것보다 기술적인 부분이 축소될 수밖에 없었죠. 하지만 오히려 이 환경에 맞게 최적화하면서 더 직관적이고 플레이어블한(Playable) 경험을 설계할 수 있었던 것 같아요.
네이버 Z의 메타버스 플랫폼 ‘제페토’.
강정우: 처음에는 우리가 ‘비트 기반 AI 뮤직비디오 생성기’ 기술을 그대로 제페토에 적용하려 했어요. 그런데 제페토의 사용자 문화와 기술적 한계를 고려하다 보니 방향을 수정해야 했죠. 그래서 탄생한 것이 ‘마이 스테이지’였어요. 유저들이 자유롭게 음악과 캐릭터를 조작하는 대신, 보다 직관적인 인터랙션을 제공하는 기능으로 변형한 거죠.
근데 진짜 웃긴 게, 저희가 처음에 이걸 기획할 때는 AI랑 유저가 음악을 협업해서 만드는 뭔가 굉장히 화려한 기능이 들어갈 거라고 생각했거든요? 그런데 개발을 하다 보니까... (한숨) 현실적인 문제들이 자꾸 나오더라고요. 결국에는 유저 경험을 더 단순하고 직관적으로 만드는 게 더 중요하다는 결론이 났어요. 그래도 그 과정에서 여러 가지 재밌는 실험을 많이 했죠.