버시스, 멀티모달 생성 AI로 향하는 이유 - 감상과 창작 사이의 경계를 지우다

1. 시작은 ‘질문’에서

우리는 처음부터 거대한 질문을 품고 시작했습니다.

‘음악이 단지 듣는 것에 그쳐야 할까?’

‘왜 창작은 여전히 전문가의 영역에 머물러 있을까?’

‘기술이 음악을 어떻게 바꿔야 할까, 아니, 바꿀 수 있을까?’

그 질문은 음악을 만드는 기술을 넘어서, 음악이 사람에게 어떤 감정과 연결을 줄 수 있는가에 대한 호기심이었습니다.

그래서 우리는 ‘메타뮤직 시스템’을 개발했습니다. 시각, 오디오 정보들과 내러티브를 결합해 새로운 감각의 음악 경험을 만들 수 있는 도구, 듣는 음악을 벗어나 시각적, 상호 교류적 음악 미디어로의 진화, 또 단순한 생성 AI를 넘어, 음악이 시각과 상호작용을 만나며 어떻게 확장될 수 있는지에 대한 실험입니다.

그 여정에서 우리는 CES 최고 혁신상을 수상했고, 세계적인 뮤지션들과 협력을 통해 우리 아이디어를 실현하였습니다. 하지만 여전히 무언가 부족했습니다. 우리는 알고 있었습니다. 진짜 전환은, 누구나 참여할 수 있는 구조가 만들어질 때 시작된다는 것을.

2. 창작은 ‘특권’이 아니라 ‘일상’이 되어야 한다

오늘날 대부분의 사람들은 음악을 듣는 데에 익숙합니다. 하지만 음악을 ‘만드는 일’은 여전히 높은 진입장벽을 가지고 있습니다.

작곡을 하려면 악기를 알아야 하고,
노래를 하려면 좋은 목소리가 필요하고,
뮤직비디오를 만들려면 영상 편집 기술이 필요합니다.

이건 너무 불공평하지 않을까요? 누구에게나 감정이 있고, 표현하고 싶은 메시지가 있는데, 그걸 음악이라는 언어로 풀어낼 수 있는 사람은 극히 일부입니다.

우리는 생각했습니다. ‘기술이 이 벽을 허물 수는 없을까?’그 해답이 바로 멀티모달 생성 AI입니다.

3. 음악은 더 이상 ‘소리’만이 아니다

지금 이 순간에도 유튜브, 틱톡, 인스타그램에는 수많은 음악 기반 콘텐츠가 올라오고 있습니다. 그런데 재미있는 사실은, 이 콘텐츠들에서 음악은 단독으로 존재하지 않는다는 점입니다.

음악은 항상 비주얼과 함께하고, 짧은 이야기와 함께하며, 유저의 얼굴, 춤, 감정, 주변 풍경과 함께 존재합니다.

즉, 지금의 음악 소비는 멀티모달합니다. 그런데도 음악 창작은 여전히 ‘소리를 만드는’ 수준에 머물러 있었습니다.