# 💬AI 아바타가 자연스럽게 발화하도록 하는 스크립트 작성법이 있나요?

네, 스크립트를 작성할 때 맞춤법, 띄어쓰기와 같은 기본 규칙과 TTS 엔진별 특징에 맞게 스크립트를 작성한다면 보다 자연스럽고 효과적인 AI 휴먼 발화를 생성할 수 있습니다. 스크립트 작성 방법에 대한 자세한 내용은 아래 설명을 참고하시기 바랍니다.

**같은 스크립트도 TTS 엔진에 따라 다르게 발화**하는 경우가 있으니 아래 **공동 규칙과 TTS 엔진 별 특징을 파악하고 적용**하여 스크립트를 작성해주시기 바랍니다!

---

## 스크립트 작성 공동 규칙

스크립트 작성 공동 규칙이란 **모든 TTS 엔진에 적용되며, 시청자가 편안하게 시청할 수 있도록 대본을 작성할 때 참고하는 규칙**입니다. 아래의 규칙에 따라 스크립트를 작성한다면 더욱 효과적인 발화를 생성할 수 있습니다.

### **말하듯이 작성하기**

- **한자어, 전문 용어 사용을 자제**하여 쉽고 간결한 단어를 선택합니다.

- **격식적이거나 문어적인 접속어를 지양**하고 간결한 어휘로 전달합니다.

> **금번** 행사 일정이 **확정되었습니다.** → **이번** 행사 일정이 **정해졌습니다****.**

**그러므로**, 이번 행사는 → **그래서**, 이번 행사는

### **짧고 명확한 문장**

- 한 문장에는 하나의 아이디어만 담고 **간결하게** 마무리 합니다.

- 긴 문장은 숨소리나 어색한 억양이 나타나므로 **쉼표나 마침표로 나누어 처리**합니다.

- **길고 짧은 문장을 적절히 섞어**줍니다.

> 이번 배포에는 성능 개선과 보안 패치가 포함되어 있으며 관리자 대시보드의 통계 레이아웃도 변경되었고 가이드 문서가 함께 업데이트되었으니 확인해 주시기 바랍니다. **(구분 없이 긴 문장)**

→ 

이번 배포에는 성능 개선과 보안 패치가 포함됩니다. 관리자 대시보드의 통계 레이아웃도 바뀝니다. 가이드 문서를 함께 업데이트했습니다. 꼭 확인해 주세요. **(구분된 짧은 문장)**

### 문장 부호 활용

- **쉼표, 마침표, 물음표, 느낌표를 사용**하여 억양과 호흡을 결정합니다.

> 신규 기능은 어떤 방식으로 제공 되나요 신규 통계 리포트는 베타로 제공되며 일부 차트가 불안정할 수 있고 데이터 반영에 시간이 걸릴 수 있으니 실서비스 적용 전 테스트 환경에서 확인해 주세요 **(문장 부호 X)**

→ 

신규 기능은 어떤 방식으로 제공 되나요**?** 신규 통계 리포트는 베타로 제공됩니다**!** 일부 차트가 불안정할 수 있고**,** 데이터 반영에 시간이 걸릴 수 있습니다**.** 실서비스 적용 전**,** 테스트 환경에서 확인해 주세요**!** **(문장 부호 O)**

### 감탄사 및 추임새 제거

- 섬세한 감정을 담은 말들은 어색함이 느껴질 수 있으니 **감탄사와 추임새 사용을 지양**합니다.

> **와****,** 중요한 공지예요! 오늘 자정부터 점검이 있으니, **음…** 이용에 참고해 주세요.

→

중요 공지입니다! 오늘 자정부터 점검이 있습니다. 이용에 참고해 주시기 바랍니다.

### 일관된 스타일

- 스크립트의 어조와 용어를 일관성 있게 유지합니다.

> 지금 **가입해요**. 고객은 등록 버튼을 **누르십시오**.

→

고객님, 지금 **가입해 주세요**. '가입' 버튼을 **눌러 주세요**.

고객님, 지금 **가입해요**. '가입' 버튼을 **눌러 주세요.**

### 특수 표현 작성법

- 특수 부호 등을 활용한 특수 표현들은 읽는 발음대로 표기합니다.

> **16:15** → **16시 15분 / 16대 15**

**1kg** → **1 킬로그램**

---

## TTS 엔진 별 작성 규칙

**같은 내용의 스크립트도 설정한 TTS 엔진, 목소리에 따라 다르게 발화**하는 경우가 있습니다. 아래 TTS 엔진 별 작성 규칙을 참고하여 선택한 엔진에 맞는 스크립트를 작성해주시기 바랍니다.

## PERSO TTS

### 언어 혼합 사용 지양

- 스크립트에 **영어가 포함될 경우** **철자는 제대로 읽지만** (MVP, VIP, TTS 등) **영어 단어는** (Sentence, Value 등) **발음이 어색**하므로 **사용을 지양**합니다.

### 숫자 사용

- 숫자가 붙어있는 경우 개별로 읽지 않고 **붙어있는 만큼의 단위로 읽습니다**.

> **123456789** → 일이삼사오육칠팔구 (X) / **일억이천삼백사십오만육천칠백팔십구 (O)**

- 숫자 사이에 **쉼표+띄어쓰기**를 넣어 구분하면 개별적으로 읽습니다.

> **1, 2, 3, 4, 5, 6, 7, 8, 9** → **일이삼사오육칠팔구 (O)** / 일억이천삼백사십오만육천칠백팔십구 (X)

- **단위 구분을 위한 쉼표**는 숫자를 개별적으로 읽지 않습니다.

    - **쉼표+띄어쓰기** 의 경우 숫자를 개별적으로 읽습니다.

> **12,345** → **만이천삼백사십오 (O)** / 십이, 삼백사십오 (X)

**12, 345**** → 만이천삼백사십오 ****(X)**** / ****십이, 삼백사십오 (O)****십이, 삼백사십오 (O)**

- 숫자 뒤에 단위가 붙으면 **단위에 맞게 발화**합니다.

> 5명 → 다섯 명

55분 → 오십오분

55개 → 쉰 다섯 개

- 숫자를 연속적으로 나열할 경우 발화가 불안정하기에 **문자로 풀어 작성**하길 권장합니다

> **1, 2, 3, 4, 5위를 발표하겠습니다**** → ****일, 이, 삼, 사, 오 위를 발표하겠습니다****일, 이, 삼, 사, 오 위를 발표하겠습니다**

## Microsoft Azure

### 문장 부호

- 쉼표, 온점을 통한 문장 구분이 매우 중요하게 작용합니다.

- 쉼표, 온점을 사용하지 않을 시 모든 문장을 이어서 발화할 수 있습니다.

### 언어 혼합 사용 지양

- 한글 스크립트에 **영어가 포함될 경우** **철자는 제대로 읽지만** (MVP, VIP, TTS 등) **영어 단어는** (Sentence, Value 등) **발음이 어색**하므로 사용을 지양합니다.

- 멀티링구얼 TTS는 스크립트에 다양한 언어가 포함될 경우 **가장 높은 비율의 언어가 기준 언어가 되어, 다른 언어는 발음이 어색**한 경우가 발생할 수 있으니 **언어 혼합 사용을 지양**합니다.

### 숫자 사용

- 숫자는 **7개가 붙어있는 경우부터 개별**적으로 읽습니다.

> **123456**** → 십이만삼천사백오십육 ** → 십이만삼천사백오십육 

**123456789**** → 일이삼사오육칠팔구** → 일이삼사오육칠팔구

- 숫자 사이에 **쉼표+띄어쓰기**를 넣어 구분하면 개별적으로 읽습니다.

> **1, 2, 3, 4, 5, 6, 7, 8, 9**** → ****일이삼사오육칠팔구 (O)**** / 일억이천삼백사십오만육천칠백팔십구 (X)** / 일억이천삼백사십오만육천칠백팔십구 (X)

- **단위 구분을 위한 쉼표**는 숫자를 개별적으로 읽지 않습니다.

    - **쉼표+띄어쓰기** 의 경우 숫자를 개별적으로 읽습니다.

> **12,345**** → ****만이천삼백사십오 (O)**** / 십이, 삼백사십오 (X)** / 십이, 삼백사십오 (X)

**12, 345**** → 만이천삼백사십오 ****(X)**** / ****십이, 삼백사십오 (O)****십이, 삼백사십오 (O)**

- 숫자 뒤에 단위가 붙으면 **단위에 맞게 발화**합니다.

> 5명 → 다섯 명

55분 → 오십오분

55개 → 쉰 다섯 개

## Elevenlabs

### 언어 혼합 사용 가능

- 언어가 혼합 되더라도 **각 언어를 올바른 발음으로 발화**합니다. (너무 많은 언어의 혼합은 지양합니다)

### 숫자 사용

- 숫자를 사용해야 할 경우 **숫자보다 문자로 풀어서 작성하길 권장**합니다.

> **1234567**** → ****일이삼사오육칠****일이삼사오육칠**

- 숫자가 **긴 경우 제대로 발화히지 않습니다.**

> **12345**** → 타국어로 발화 or 제대로 발화되지 않음 (한글은 100자리, 영어는 1000자리부터 에러)** → 타국어로 발화 or 제대로 발화되지 않음 (한글은 100자리, 영어는 1000자리부터 에러)

- 숫자 뒤에 단위가 붙으면 **단위에 맞게 발화**합니다. (PERSO, Azure의 비해 성능이 떨어집니다)

> 5명 → 다섯 명

55분 → 오십오분

55개 → 오십 다섯 개

---

## 상황 별 TTS 엔진 추천

제작하는 영상의 목적, 스크립트의 내용에 따라 TTS를 선택하여 최적의 AI 영상을 만들 수 있습니다. 아래 예시를 참고하여 TTS 엔진을 선택하시기 바랍니다.

### 일반적인 상황

- 기본적으로 선택되어 있는 **'BEST FIT' 뱃지가 붙은 목소리를 사용**하는 것이 좋습니다.

### 숫자가 많이 들어간 스크립트

- **Microsoft Azure** 를 사용하는 것이 좋습니다. 현재 STUDIO PERSO가 제공하는 3개의 엔진 중 **숫자 발화에서 가장 강력한 성능**을 보여주고 있습니다.

### 다양한 언어를 포함한 스크립트

- **멀티링구얼 TTS를** 사용하는 것이 좋습니다. 멀티링구얼 TTS는 언어가 혼합되더라도 정확한 발음으로 발화합니다. MS Azure에서 멀티링구얼 표시가 되어있는 목소리를 선택하거나 Elevenlabs 를 선택하면 멀티링구얼 TTS를 사용할 수 있습니다.

### 다양한 상황, 톤이 필요한 경우

- **Elevenlabs**를 사용하는 것이 좋습니다. Elevenlabs는 **7,000개가 넘는 다양한 음성을 직군, 상황 별로 제공**하고 있어 상황에 맞는 음성을 선택할 수 있습니다.

> **Elevenlabs는**** ****Enterprise 전용 기능****입니다**입니다

---

## 자주 묻는 질문 · 해결 방법

- **멀티링구얼은 어떻게 사용**할 수 있나요?

    - 멀티링구얼은 MS Azure TTS에서 멀티링구얼이 표시된 음성을 사용하거나 Elevenlabs TTS를 통해 사용할 수 있습니다.

---

## 관련 문서

- **[모든 AI 휴먼이 같은 언어를 지원하나요?](https://community.perso.ai/7vgjr4m173v1wmdwpy86)**

- **[AI 휴먼의 발화 속도와 템포를 조절할 수 있나요?](https://community.perso.ai/qpv5x427g53nx2kyn3dw)**

---

**스크립트 작성 가이드를 통해 이해하기 쉬운 고퀄리티의 AI 영상을 제작해보세요!**

[STUDIO PERSO에서 영상 제작하기](https://perso.ai/ko/workspace/studio)

![Image](https://upload.cafenono.com/image/slashpagePost/20251020/143642_kZ5MDQZjwlrNfwL7ri?q=80&s=1280x180&t=outside&f=webp)

For the site tree, see the [root Markdown](https://community.perso.ai/.md).
