| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- web 개발
- html
- bccard
- 머신러닝
- vscode
- 자료구조
- CES 2O21 참여
- 대이터
- classification
- CES 2O21 참가
- 결합전문기관
- inorder
- paragraph
- tensorflow
- broscoding
- web 사진
- discrete_scatter
- cudnn
- 웹 용어
- web 용어
- web
- postorder
- 재귀함수
- C언어
- java역사
- pycharm
- 데이터전문기관
- KNeighborsClassifier
- mglearn
- Keras
- Today
- Total
bro's coding
고대원.AI 기반 보이스피싱 및 합성음성 탐지 프로젝트 본문
AI 기반 보이스피싱 및 합성음성 탐지 프로젝트
GRU · LCNN · CRNN 비교와 XLS-R + AASIST 고도화 방향
최근 생성형 AI 기술의 발전으로 사람의 목소리를 거의 완벽하게 모방하는 음성 합성 기술이 등장하고 있다.
과거 보이스피싱은 특정 시나리오나 대본에 의존했지만, 최근에는 가족이나 지인의 목소리를 그대로 복제한 AI 음성이 범죄에 활용되고 있다.
실제로 해외에서는 자녀의 목소리를 모방하여 부모에게 송금을 요구한 사례가 보고되었으며, 국내 금융권에서도 음성 위·변조 탐지 기술에 대한 관심이 높아지고 있다.
본 프로젝트에서는 실제 음성과 AI 합성 음성을 구분하는 딥러닝 기반 탐지 모델을 구현하고 비교하였다.
프로젝트 개요
본 프로젝트의 목표는 음성 파일이 실제 사람의 음성인지, AI가 생성한 합성 음성인지를 분류하는 것이다.
입력 : 음성 파일 (.wav)
출력
real = 0
synthetic = 1
이는 보이스피싱 방어 시스템의 핵심 모듈로 활용될 수 있으며, 향후 STT, FDS 등과 결합하여 금융사기 탐지 체계로 확장할 수 있다.
왜 합성음성 탐지가 중요한가?
기존 보이스피싱 탐지는 다음과 같은 방식에 의존해왔다.
- 위험 키워드 탐지
- STT 기반 문맥 분석
- 거래 이상 탐지(FDS)
- 사용자 행동 분석
하지만 AI 음성 복제 기술이 발전하면서 단순 텍스트 분석만으로는 탐지가 어려워지고 있다.
예를 들어 부모가 자녀의 실제 목소리라고 믿게 만드는 수준의 음성 복제가 가능해지고 있다.
따라서 앞으로는
"무엇을 말했는가"보다
"누가 말했는가"
"그 목소리가 진짜인가"
를 판별하는 기술이 중요해질 것으로 예상된다.
데이터 구성
데이터는 크게 두 개의 클래스로 구성하였다.
Real Voice
실제 사람 음성
label = 0
Synthetic Voice
AI 기반 합성 음성
label = 1
합성 음성은 다양한 TTS 엔진을 활용하여 생성하였다.
- ElevenLabs
- Google TTS
- 기타 합성 음성
이를 통해 특정 엔진에 과적합되지 않고 다양한 합성 음성의 공통 패턴을 학습하도록 구성하였다.
Mel-Spectrogram이란?
컴퓨터는 음성을 직접 이해하지 못한다.
따라서 음성을 수치 형태로 변환해야 한다.
본 프로젝트에서는 Mel-Spectrogram을 활용하였다.
Mel-Spectrogram은 음성을
- 시간(Time)
- 주파수(Frequency)
- 에너지(Energy)
정보로 변환한 표현 방식이다.
쉽게 말하면
음성을 이미지 형태로 변환한 것
이라고 볼 수 있다.
Mel-Spectrogram을 사용하는 이유
합성음성 탐지는 단순히 발화 내용을 분석하는 문제가 아니다.
중요한 것은 음성이 생성되는 과정에서 나타나는 미세한 패턴 차이를 찾는 것이다.
Mel-Spectrogram은
- 시간 정보
- 주파수 정보
- 에너지 분포
를 동시에 표현할 수 있다.
따라서 합성 음성 특유의 패턴을 학습하는 데 매우 적합하다.
전처리 설정
모든 음성은 동일한 조건으로 변환하였다.
| 항목 | 값 |
|---|---|
| Sampling Rate | 16,000 Hz |
| Mel Bin | 80 |
| FFT | 1,024 |
| Hop Length | 256 |
| Max Length | 400 |
최종 입력 크기
80 × 400
모델 비교
본 프로젝트에서는 3개의 Baseline 모델과 향후 고도화 모델을 비교하였다.
GRU
GRU는 시계열 데이터를 처리하는 대표적인 RNN 계열 모델이다.
장점
- 시간 흐름 학습 가능
- 구현 단순
- 학습 비용 낮음
단점
- 공간적 특징 추출 한계
- 스펙트럼 패턴 학습 부족
LCNN
LCNN은 CNN 기반 음성 탐지 모델이다.
Mel-Spectrogram을 이미지처럼 처리한다.
장점
- 주파수 패턴 학습 우수
- 계산량이 적음
단점
- 시간 흐름 학습 부족
CRNN
CRNN은 CNN과 GRU를 결합한 모델이다.
CNN 역할
- 시간-주파수 패턴 추출
GRU 역할
- 시간 흐름 학습
음성 데이터의 특성을 가장 잘 반영할 수 있는 구조이다.
XLS-R + AASIST
향후 고도화 모델이다.
XLS-R
Meta의 대규모 사전학습 음성 모델
특징
- Raw Waveform 직접 입력
- 다국어 지원
- 강력한 일반화 성능
AASIST
Anti-Spoofing 분야 대표 모델
특징
- 위조 음성 탐지 특화
- 최신 연구에서 높은 성능
평가 지표
Accuracy
전체 정답률
Precision
합성음성으로 판단한 것 중 실제 합성음성 비율
Recall
실제 합성음성 중 탐지 성공 비율
F1 Score
Precision과 Recall의 조화 평균
EER
Equal Error Rate
낮을수록 우수
왜 Recall이 중요한가?
보이스피싱 탐지에서 가장 위험한 상황은
합성 음성
→ 실제 음성으로 판단
하는 경우이다.
이를 False Negative(FN)라고 한다.
실제 금융권에서는 Accuracy보다 Recall이 중요할 수 있다.
위험 음성을 놓치는 순간 실제 금융 피해가 발생할 수 있기 때문이다.
최종 평가 결과
첨부된 실험 결과 기준
| Model | Accuracy | Precision | Recall | F1 | EER |
|---|---|---|---|---|---|
| GRU | 95.28% | 97.97% | 90.49% | 93.99% | 6.91% |
| LCNN | 95.52% | 98.03% | 90.83% | 94.29% | 4.13% |
| CRNN | 97.71% | 99.80% | 94.58% | 97.12% | 1.58% |
| XLS-R + AASIST | 99.92% | 99.86% | 99.95% | 99.90% | 0.10% |
결과 분석
실험 결과 CRNN은 기존 Baseline 모델 중 가장 우수한 성능을 보였다.
CRNN 성능
- Accuracy : 97.71%
- Precision : 99.80%
- Recall : 94.58%
- F1 : 97.12%
- EER : 1.58%
GRU와 LCNN 대비 모든 주요 지표에서 우수하였다.
그러나 가장 뛰어난 결과는 XLS-R + AASIST 모델에서 나타났다.
XLS-R + AASIST 성능
- Accuracy : 99.92%
- Precision : 99.86%
- Recall : 99.95%
- F1 : 99.90%
- EER : 0.10%
거의 완벽에 가까운 탐지 성능을 기록하였다.
Synthetic Miss Rate 비교
합성 음성을 놓치는 비율
Miss Rate = 1 - Recall
| Model | Miss Rate |
|---|---|
| GRU | 9.51% |
| LCNN | 9.17% |
| CRNN | 5.42% |
| XLS-R + AASIST | 0.05% |
Baseline 모델 최종 선정
Mel-Spectrogram 기반 Baseline 모델 중에서는 CRNN을 최종 모델로 선정하였다.
선정 이유는 다음과 같다.
성능
- Accuracy 97.71%
- F1 97.12%
- EER 1.58%
리스크
- Miss Rate 5.42%
구조적 적합성
- CNN : 스펙트럼 패턴 학습
- GRU : 시간 흐름 학습
Mel-Spectrogram 구조를 가장 효과적으로 활용
향후 발전 방향
Phase 1
CRNN Baseline 확보
Phase 2
데이터 확장
- Noise Augmentation
- Codec Augmentation
- 다양한 TTS 확보
Phase 3
SOTA 모델 적용
- XLS-R
- AASIST
- Fine-Tuning
Phase 4
실서비스 적용
- STT 결합
- FDS 결합
- 실시간 추론
- 대시보드 구축
금융권 적용 시나리오
실제 금융 서비스에서는 음성만으로 판단하지 않는다.
다양한 위험 신호를 결합한다.
Voice Score
합성 음성 확률
Text Score
STT 기반 위험 문맥 분석
Transaction Score
이상 거래 탐지
최종 위험도
Final Risk Score
=
Voice Score
+
Text Score
+
Transaction Score
이를 기반으로
- 정상
- 주의
- 위험
단계로 고객 보호 체계를 구축할 수 있다.
결론
이번 프로젝트에서는 AI 기반 합성 음성 탐지 모델을 구현하고 비교하였다.
실험 결과
- GRU
- LCNN
- CRNN
- XLS-R + AASIST
를 비교하였으며,
가장 우수한 성능은 XLS-R + AASIST 모델에서 확인되었다.
주요 성능은 다음과 같다.
- Accuracy : 99.92%
- Precision : 99.86%
- Recall : 99.95%
- F1 : 99.90%
- EER : 0.10%
또한 Baseline 모델 중에서는 CRNN이 가장 우수한 결과를 기록하였다.
향후에는 STT, FDS, 거래 분석 모델과 결합하여 멀티모달 기반 보이스피싱 탐지 플랫폼으로 발전시킬 수 있을 것으로 기대된다.
#AI #보이스피싱 #합성음성 #음성AI #딥러닝 #머신러닝 #CRNN #GRU #LCNN #XLSR #AASIST #음성인식 #금융AI #FraudDetection #고려대학교 #인공지능융합학과
'[AI] > workSpace' 카테고리의 다른 글
| 고대원.소셜.주가예측 (0) | 2025.11.16 |
|---|
