Adsens infeed Desk

AI가 만든 음악은 오디오파일의 귀를 속일 수 있을까

죽은 목소리가 돌아왔을 때

2023년 11월, 이글스의 호텔 캘리포니아를 오디오 테스트 곡으로 사용하는 사람들 사이에서 조용한 화제가 생겼습니다. 이글스가 아니라 비틀즈 이야기였습니다. 'Now and Then'이라는 곡이 발표됐는데, 존 레논의 목소리가 담겨 있었습니다. 레논은 1980년에 세상을 떠났습니다. 이 목소리는 1977년 그가 뉴욕 아파트에서 카세트 테이프에 녹음해둔 데모에서 왔고, AI가 그 테이프에서 레논의 목소리를 피아노 소리와 분리해 추출했습니다. 폴 매카트니와 링고 스타가 나머지 연주를 더했습니다. 이 곡은 2024년 그래미에서 최우수 록 퍼포먼스를 수상했고, AI 기술이 개입된 음반으로서는 처음으로 그래미 노미네이션을 받은 사례가 됐습니다.

현대적인 미디(MIDI) 음악 작업실에서 작곡가가 AI 음악 생성 소프트웨어가 실행 중인 대형 모니터를 보며 작업하고 있는 모습.
AI 기술을 활용해 새로운 선율을 구성 중인 차세대 음악 프로듀서의 작업실 풍경


많은 사람들이 이 곡에서 기묘한 감동을 느꼈습니다. 실제로 존재한 사람의 목소리인데, 그 사람은 이미 없습니다. 기술이 그를 현재로 불러왔지만, 그것이 진짜인지 아닌지 경계가 불분명합니다. 폴 매카트니는 이 작업에 대해 "AI를 사용해서 소리를 정리했다. 아무것도 인위적으로 만들거나 합성하지 않았다. 모든 것이 실제고, 우리 모두 연주에 참여했다"고 설명했습니다. 기술로 복원했지만 합성하지는 않았다는 주장입니다. 이 구분이 앞으로의 오디오 세계에서 점점 더 복잡한 질문이 될 것입니다.

소스 세퍼레이션 — AI가 오디오에서 하는 일

Now and Then에 사용된 핵심 기술은 소스 세퍼레이션(Source Separation), 한국어로 음원 분리입니다. 여러 악기와 목소리가 섞인 하나의 녹음 파일을 개별 트랙으로 분리하는 기술입니다. 전통적으로 이 작업은 멀티트랙 녹음을 통해서만 가능했습니다. 각 악기를 별도의 마이크로 따로 녹음해두면 나중에 원하는 대로 조합할 수 있었습니다. 하지만 하나의 파일에 모든 소리가 섞여 있으면, 특정 악기나 목소리만 꺼내는 것은 불가능에 가까웠습니다.

AI 기반 소스 세퍼레이션은 이 제약을 상당 부분 허물었습니다. 머신러닝 모델이 수백만 개의 음원 데이터를 학습하면서 피아노 소리와 보컬 소리의 패턴 차이를 구분하는 방법을 익혔고, 이를 통해 혼합된 녹음에서 특정 요소를 분리해낼 수 있게 됐습니다. 피터 잭슨 감독이 2021년 비틀즈 다큐멘터리 'Get Back'을 제작할 때 4년에 걸쳐 개발한 이 기술이 Now and Then에도 적용됐습니다. 결과가 완벽하지는 않습니다. 분리된 목소리에는 여전히 잡음이 남고, 원래 녹음에서의 특성이 일부 손상됩니다. 하지만 이전에는 불가능했던 것을 가능하게 만들었습니다.

AI 생성 음악의 음질 — 오디오파일의 관점

소스 세퍼레이션처럼 기존 음원을 복원하거나 분리하는 용도와 달리, 텍스트 입력으로 완전히 새로운 음악을 만드는 AI 음악 생성 도구들도 빠르게 발전하고 있습니다. Suno와 Udio가 현재 가장 앞선 플랫폼입니다. 2026년 현재 이 도구들의 출력 품질은 CD 음질(44.1kHz 스테레오) 수준에 달합니다. 프롬프트 하나로 수십 초 안에 보컬이 포함된 완성된 곡을 만들어냅니다.

AI 음악 생성 화면 앞에서 사려 깊게 감상하는 한국 여성
AI가 만든 음악이 귀에 그럴듯하게 들릴 때, 우리가 느끼는 감정의 정체는 무엇인가.


오디오파일의 관점에서 이 음악의 품질은 어떻게 평가될까요. 현재 AI 생성 음악의 한계는 측정값보다 청감에서 더 명확하게 드러납니다. 전자 음악, 힙합, 팝 장르에서는 상당히 그럴듯한 수준에 도달했습니다. 드럼과 신시사이저의 음색, 편곡의 구성, 믹스의 균형이 프로 수준에 근접합니다. 그러나 어쿠스틱 악기가 주를 이루는 장르 — 재즈, 클래식, 포크 — 에서는 한계가 뚜렷합니다. 기타 음색이 합성 느낌을 주거나, 피아노 건반 음이 자연스럽게 감쇠하지 않거나, 바이올린의 현 질감이 실제 악기와 다르게 들립니다. 하이파이 시스템에서 이 차이는 더 선명하게 드러납니다. 해상도가 높을수록 AI의 흔적이 더 잘 보입니다.

더 근본적인 문제는 뉘앙스입니다. 인간 연주자는 음표 하나에도 수십 년의 삶, 감정의 흔들림, 그날의 피로, 청중을 향한 의도가 담깁니다. 마일스 데이비스가 트럼펫을 부는 방식, 에릭 클랩튼이 기타 현을 끊는 순간의 손가락 압력 — 이것들은 스코어나 MIDI 데이터로 표현될 수 없는 인간 고유의 정보입니다. AI는 통계적으로 가장 그럴듯한 조합을 만들 수 있지만, 그 안에 이야기가 있는지는 다른 문제입니다. 오디오파일이 음악에서 찾는 것은 종종 바로 그 이야기입니다.

AI가 오디오 세계를 바꾸는 방식

AI가 오디오 분야에 미치는 영향은 음악 생성보다 음향 처리 기술에서 더 빠르게 현실화되고 있습니다. 소스 세퍼레이션이 발전하면서 과거의 훼손된 녹음들을 복원하는 일이 가능해졌습니다. 노이즈가 심한 오래된 라이브 녹음, 멀티트랙을 남기지 않고 단일 믹스로만 존재하는 역사적 레코딩들이 새로운 형태로 재생될 수 있게 됐습니다. 이 분야에서의 발전은 오디오파일에게도 직접적인 혜택을 줍니다.

AI 기반 업샘플링과 노이즈 제거도 점점 정교해지고 있습니다. 낮은 해상도의 음원을 고해상도처럼 처리하거나, 녹음 과정에서 유입된 노이즈를 제거하는 기술들이 소프트웨어 레벨에서 상용화되고 있습니다. 단, 이 기술들의 결과물이 실제 고해상도 음원과 동일한지에 대해서는 오디오 커뮤니티에서 논쟁이 있습니다. 없던 정보를 AI가 추측해서 채운 것과 원래부터 있던 정보는 다르다는 주장이 있고, 그 차이를 청감으로 구별할 수 있는지에 대해서도 의견이 나뉩니다.

오디오파일의 귀는 AI를 구별할 수 있는가

이 질문의 답은 지금 이 순간도 빠르게 바뀌고 있습니다. 2024년 기준으로 훈련된 오디오파일은 AI 생성 음악을 어쿠스틱 악기 장르에서 비교적 정확하게 구별했습니다. 하지만 전자 음악이나 팝에서는 구별하기 어렵다는 의견이 많았습니다. 2026년 현재 AI의 출력 품질은 다시 한 단계 올라갔습니다. 보컬의 자연스러움, 악기 음색의 리얼리티, 편곡의 완성도 모두 향상됐습니다.

그러나 오디오파일이 음악에서 찾는 것은 기술적 완성도만이 아닙니다. 빌 에반스의 피아노 반주에서 들리는 침묵, 닐 영의 목소리에 배어있는 세월, 마일스 데이비스가 신호를 보내지 않고 즉흥으로 방향을 바꾸는 순간 — 이것들은 데이터로 학습되어도 진정으로 복제되기 어려운 인간의 흔적입니다. AI는 이런 흔적을 통계적으로 유사하게 만들 수 있지만, 그것이 진짜 흔적인지는 듣는 사람이 결정합니다.

화이트 홈 오디오 공간에 공존하는 아날로그 턴테이블과 디지털 태블릿
아날로그와 디지털, 인간과 AI — 결국 좋은 소리는 기술이 아니라 선택의 문제다.


Now and Then을 들으며 감동을 받은 수백만 명의 사람들에게 그 감동이 가짜였는지 물어본다면, 대부분은 아니라고 할 것입니다. 기술의 도움을 받았지만, 존 레논이 1977년에 실제로 불렀던 목소리가 거기 있었습니다. AI는 그 목소리를 현재로 데려오는 다리였습니다. 오디오의 미래는 아마도 이 방향에 있을 것입니다. AI가 음악을 대체하는 것이 아니라, AI가 음악을 가능하게 하는 도구로서 기능하는 방향입니다. 그리고 오디오파일의 역할은 그 과정에서 소리의 진정성을 평가하는 기준점으로 남는 것입니다. 당신은 AI가 만든 음악에서 인간의 흔적을 느낀 적이 있습니까?


GentlemanVibe의 더 많은 글들을 만나 보세요. 


읽어주셔서 감사합니다. GentlemanVibe입니다.
이 글이 ‘일상’을 더욱 쉽고 단단하게 만드는 데 도움이 되었으면 합니다.
다음 글에서는 더욱 유익한 글을 이어가겠습니다.
가꾸고 꾸미고
소리와 공간이 만나는 곳
새로 만든 나의 일상 
[젠틀맨바이브 GentlemanVibe]
© GENTLEMANVIBE. ALL RIGHTS RESERVED.

댓글 쓰기

0 댓글