반응형
Notice
Recent Posts
Recent Comments
Link
관리 메뉴

bro's coding

고대원.AI 기반 보이스피싱 및 합성음성 탐지 프로젝트 본문

[AI]/workSpace

고대원.AI 기반 보이스피싱 및 합성음성 탐지 프로젝트

givemebro 2026. 6. 15. 20:43
반응형

AI 기반 보이스피싱 및 합성음성 탐지 프로젝트

GRU · LCNN · CRNN 비교와 XLS-R + AASIST 고도화 방향

최근 생성형 AI 기술의 발전으로 사람의 목소리를 거의 완벽하게 모방하는 음성 합성 기술이 등장하고 있다.

과거 보이스피싱은 특정 시나리오나 대본에 의존했지만, 최근에는 가족이나 지인의 목소리를 그대로 복제한 AI 음성이 범죄에 활용되고 있다.

실제로 해외에서는 자녀의 목소리를 모방하여 부모에게 송금을 요구한 사례가 보고되었으며, 국내 금융권에서도 음성 위·변조 탐지 기술에 대한 관심이 높아지고 있다.

본 프로젝트에서는 실제 음성과 AI 합성 음성을 구분하는 딥러닝 기반 탐지 모델을 구현하고 비교하였다.


프로젝트 개요

본 프로젝트의 목표는 음성 파일이 실제 사람의 음성인지, AI가 생성한 합성 음성인지를 분류하는 것이다.

입력 : 음성 파일 (.wav)

출력
real = 0
synthetic = 1

이는 보이스피싱 방어 시스템의 핵심 모듈로 활용될 수 있으며, 향후 STT, FDS 등과 결합하여 금융사기 탐지 체계로 확장할 수 있다.


왜 합성음성 탐지가 중요한가?

기존 보이스피싱 탐지는 다음과 같은 방식에 의존해왔다.

  • 위험 키워드 탐지
  • STT 기반 문맥 분석
  • 거래 이상 탐지(FDS)
  • 사용자 행동 분석

하지만 AI 음성 복제 기술이 발전하면서 단순 텍스트 분석만으로는 탐지가 어려워지고 있다.

예를 들어 부모가 자녀의 실제 목소리라고 믿게 만드는 수준의 음성 복제가 가능해지고 있다.

따라서 앞으로는

"무엇을 말했는가"보다

"누가 말했는가"

"그 목소리가 진짜인가"

를 판별하는 기술이 중요해질 것으로 예상된다.


데이터 구성

데이터는 크게 두 개의 클래스로 구성하였다.

Real Voice

실제 사람 음성

label = 0

Synthetic Voice

AI 기반 합성 음성

label = 1

합성 음성은 다양한 TTS 엔진을 활용하여 생성하였다.

  • ElevenLabs
  • Google TTS
  • 기타 합성 음성

이를 통해 특정 엔진에 과적합되지 않고 다양한 합성 음성의 공통 패턴을 학습하도록 구성하였다.


Mel-Spectrogram이란?

컴퓨터는 음성을 직접 이해하지 못한다.

따라서 음성을 수치 형태로 변환해야 한다.

본 프로젝트에서는 Mel-Spectrogram을 활용하였다.

Mel-Spectrogram은 음성을

  • 시간(Time)
  • 주파수(Frequency)
  • 에너지(Energy)

정보로 변환한 표현 방식이다.

쉽게 말하면

음성을 이미지 형태로 변환한 것

이라고 볼 수 있다.


Mel-Spectrogram을 사용하는 이유

합성음성 탐지는 단순히 발화 내용을 분석하는 문제가 아니다.

중요한 것은 음성이 생성되는 과정에서 나타나는 미세한 패턴 차이를 찾는 것이다.

Mel-Spectrogram은

  • 시간 정보
  • 주파수 정보
  • 에너지 분포

를 동시에 표현할 수 있다.

따라서 합성 음성 특유의 패턴을 학습하는 데 매우 적합하다.


전처리 설정

모든 음성은 동일한 조건으로 변환하였다.

항목
Sampling Rate 16,000 Hz
Mel Bin 80
FFT 1,024
Hop Length 256
Max Length 400

최종 입력 크기

80 × 400

모델 비교

본 프로젝트에서는 3개의 Baseline 모델과 향후 고도화 모델을 비교하였다.

GRU

GRU는 시계열 데이터를 처리하는 대표적인 RNN 계열 모델이다.

장점

  • 시간 흐름 학습 가능
  • 구현 단순
  • 학습 비용 낮음

단점

  • 공간적 특징 추출 한계
  • 스펙트럼 패턴 학습 부족

LCNN

LCNN은 CNN 기반 음성 탐지 모델이다.

Mel-Spectrogram을 이미지처럼 처리한다.

장점

  • 주파수 패턴 학습 우수
  • 계산량이 적음

단점

  • 시간 흐름 학습 부족

CRNN

CRNN은 CNN과 GRU를 결합한 모델이다.

CNN 역할

  • 시간-주파수 패턴 추출

GRU 역할

  • 시간 흐름 학습

음성 데이터의 특성을 가장 잘 반영할 수 있는 구조이다.


XLS-R + AASIST

향후 고도화 모델이다.

XLS-R

Meta의 대규모 사전학습 음성 모델

특징

  • Raw Waveform 직접 입력
  • 다국어 지원
  • 강력한 일반화 성능

AASIST

Anti-Spoofing 분야 대표 모델

특징

  • 위조 음성 탐지 특화
  • 최신 연구에서 높은 성능

평가 지표

Accuracy

전체 정답률

Precision

합성음성으로 판단한 것 중 실제 합성음성 비율

Recall

실제 합성음성 중 탐지 성공 비율

F1 Score

Precision과 Recall의 조화 평균

EER

Equal Error Rate

낮을수록 우수


왜 Recall이 중요한가?

보이스피싱 탐지에서 가장 위험한 상황은

합성 음성
→ 실제 음성으로 판단

하는 경우이다.

이를 False Negative(FN)라고 한다.

실제 금융권에서는 Accuracy보다 Recall이 중요할 수 있다.

위험 음성을 놓치는 순간 실제 금융 피해가 발생할 수 있기 때문이다.


최종 평가 결과

첨부된 실험 결과 기준

Model Accuracy Precision Recall F1 EER
GRU 95.28% 97.97% 90.49% 93.99% 6.91%
LCNN 95.52% 98.03% 90.83% 94.29% 4.13%
CRNN 97.71% 99.80% 94.58% 97.12% 1.58%
XLS-R + AASIST 99.92% 99.86% 99.95% 99.90% 0.10%

결과 분석

실험 결과 CRNN은 기존 Baseline 모델 중 가장 우수한 성능을 보였다.

CRNN 성능

  • Accuracy : 97.71%
  • Precision : 99.80%
  • Recall : 94.58%
  • F1 : 97.12%
  • EER : 1.58%

GRU와 LCNN 대비 모든 주요 지표에서 우수하였다.


그러나 가장 뛰어난 결과는 XLS-R + AASIST 모델에서 나타났다.

XLS-R + AASIST 성능

  • Accuracy : 99.92%
  • Precision : 99.86%
  • Recall : 99.95%
  • F1 : 99.90%
  • EER : 0.10%

거의 완벽에 가까운 탐지 성능을 기록하였다.


Synthetic Miss Rate 비교

합성 음성을 놓치는 비율

Miss Rate = 1 - Recall
Model Miss Rate
GRU 9.51%
LCNN 9.17%
CRNN 5.42%
XLS-R + AASIST 0.05%

Baseline 모델 최종 선정

Mel-Spectrogram 기반 Baseline 모델 중에서는 CRNN을 최종 모델로 선정하였다.

선정 이유는 다음과 같다.

성능

  • Accuracy 97.71%
  • F1 97.12%
  • EER 1.58%

리스크

  • Miss Rate 5.42%

구조적 적합성

  • CNN : 스펙트럼 패턴 학습
  • GRU : 시간 흐름 학습

Mel-Spectrogram 구조를 가장 효과적으로 활용


향후 발전 방향

Phase 1

CRNN Baseline 확보


Phase 2

데이터 확장

  • Noise Augmentation
  • Codec Augmentation
  • 다양한 TTS 확보

Phase 3

SOTA 모델 적용

  • XLS-R
  • AASIST
  • Fine-Tuning

Phase 4

실서비스 적용

  • STT 결합
  • FDS 결합
  • 실시간 추론
  • 대시보드 구축

금융권 적용 시나리오

실제 금융 서비스에서는 음성만으로 판단하지 않는다.

다양한 위험 신호를 결합한다.

Voice Score

합성 음성 확률

Text Score

STT 기반 위험 문맥 분석

Transaction Score

이상 거래 탐지

최종 위험도

Final Risk Score
=
Voice Score
+
Text Score
+
Transaction Score

이를 기반으로

  • 정상
  • 주의
  • 위험

단계로 고객 보호 체계를 구축할 수 있다.


결론

이번 프로젝트에서는 AI 기반 합성 음성 탐지 모델을 구현하고 비교하였다.

실험 결과

  • GRU
  • LCNN
  • CRNN
  • XLS-R + AASIST

를 비교하였으며,

가장 우수한 성능은 XLS-R + AASIST 모델에서 확인되었다.

주요 성능은 다음과 같다.

  • Accuracy : 99.92%
  • Precision : 99.86%
  • Recall : 99.95%
  • F1 : 99.90%
  • EER : 0.10%

또한 Baseline 모델 중에서는 CRNN이 가장 우수한 결과를 기록하였다.

향후에는 STT, FDS, 거래 분석 모델과 결합하여 멀티모달 기반 보이스피싱 탐지 플랫폼으로 발전시킬 수 있을 것으로 기대된다.


#AI #보이스피싱 #합성음성 #음성AI #딥러닝 #머신러닝 #CRNN #GRU #LCNN #XLSR #AASIST #음성인식 #금융AI #FraudDetection #고려대학교 #인공지능융합학과

반응형

'[AI] > workSpace' 카테고리의 다른 글

고대원.소셜.주가예측  (0) 2025.11.16
Comments