編輯點評:自媒體配音必備的語音合成軟件
非常適合需要自媒體配音的朋友使用,tts語音合成助手是一個專業的工具,支持文字轉語音,大咖主播,廣告配音,海量的素材可以選擇,還可以將mp3文件導出來在u播上播放,很實用。
破解說明
已破解付費功能,免費使用所有功能。
可以選擇語音聲音、調整語速、免費音樂和導入文本等。
需要制作短視頻配音的同學可以試試。
功能介紹
1、智能語音合成:專業配音,一鍵合成。
2、導出Mp3文件:生成的MP3文件可以拷貝到U盤或者內存卡里面播放。
3、藍牙播放:可連接藍牙音箱播放,無需導出文件也可使用。
4、海量背景音樂:支持添加背景音,個性化定制背景音樂。
5、文字轉語音,簡單快捷。
優勢介紹
1、操作簡單,中英文隨意切換,多種發音人選擇。
2、海量背景音樂,與您的廣告完美搭配。
3、同步導出MP3和歌詞文件,多平臺分享微信朋友圈和好友。
4、支持藍牙音箱播放,無需導出文件免費播放。
支持的場景
1、廣告配音:商場廣告促銷、地攤叫賣、企業宣傳、影視配音等。
2、英語讀物:制作各類英語配音,英語聽力音頻制作等。
3、有聲閱讀:小說、雜志、課本、童話,打造屬于你的個性化聽書APP。
4、廣播配音:學校、企業、車站、機場、商場的廣播播音。
5、配音類:動畫片、flash影片、各類廣播劇。
6、影視配音:廣告片配音、影視片配音、動畫后期配音。
7、工業用聲:防盜、報警、車輛船舶導航系統的語音錄制。
8、出版物:有聲讀物、文藝作品、課件、培訓軟件的語音錄制。
9、多媒體:光盤解說、集團彩鈴、電信、金融CTI的語音錄制。
10、解說配音:企業專題片、建筑動畫、工程標書解說等配音解說。
11、教學配音:電子詞典、教材、電子圖書、各類語音IC系列錄制。
12、自有視頻配音:快手等自媒體視頻快速配音,適配剪映、快影等本地導入功能。
語音和TTS介紹
語音合成基礎(1)——語音和TTS
本文未經允許,禁止轉載,謝謝合作。
本文我們主要介紹語音合成的一些基礎知識,我們從最基本的發聲的物理過程開始,逐步深入到語音合成。
1. 語音
發聲的物理過程
總體來說, 我們首先在腦中產生要說的東西的概念,然后大腦會控制肌肉來調整聲道中的空氣流動,從而產生語音。
空氣從肺(lung)中產生(當然一開始是你把空氣吸進來的),聲帶(vocal chord)使得空氣產生震動,因此控制了基礎頻率(base frequency),是聲音產生的起點。
基礎聲波會依次通過聲道(vocal tract)、軟顎(palate,即將嘴的上半部分和鼻子分開的部分)、口腔(oral cavity)和舌頭(lip)等器官,這些器官相當于一個大的濾波器,調整了原始聲波的頻率,從而生成了最終的語音。
phone/sound
任何清晰的語音都是phone/sound
phoneme音素
能區分意義的最小聲音單位
比如dog和fog中,d和f只要改變一個就改變了意義。
voiced/unvoiced
聲帶振動/不振動
漢語中一般稱這兩個概念為濁音和清音
清音
簡單來說,發清音時聲帶不振動,因此清音沒有周期性。
如:[p]pea豌豆、[t]tea茶、[k]key鑰匙、[f]fat肥胖、[s]seat座位
濁音
發音時聲帶振動的音稱為濁音。輔音有清有濁,而多數語言中的元音均為濁音,鼻音、邊音、半元音也是濁音。
vowel元音
Sound produced with open vocal tract,一般都是voiced,元音的清晰度主要取決于聲道的形狀
consonant輔音
Sound produced with (partially) closed vocal tract,輔音可以是清音也可以是濁音(voice/voiceless)。輔音的質量同樣取決于聲道關閉的形狀,且有很多種類的發音
爆破音Stops/plosives: total closing + “explosive” release,比如p
鼻音Nasals:停止的時候鼻腔會張開, 比如n
摩擦音fricatives:聲道半張半開,因此產生震動,比如s, z
半元音approximants:發音時聲道先閉合然后再張開,比如w, j
下圖展示了元音和輔音發音時各種發音器官的變化
2. 語音的頻率
speech wave
語音波是一種compound wave,即包含各種頻率的波。因此在頻域上表示語音更為合適。
pitch音高
聲音的尖銳程度,在頻域中表現為頻率的高低。
基礎頻率F0
正如我們之前介紹的,濁音中存在基礎頻率,而清音中不存在,F0決定了聲音的音高。
formants共振峰
是一種元音特有的在頻域中的現象,因為只有元音有基礎頻率。每個元音都有兩個共振峰,可以用來區分元音,記為F1和F2。F1,F2取決于基礎頻率,如果基礎頻率太高,共振峰可能會消失,這種情況下就區分不出來元音,這種現象在各種女高音身上比較常見。
timbre音色
音色在廣義上是指聲音不同于其它的特點,在語音中不同的音節都有不同的特點,這可以通過頻域觀察出來,另外,特別地,對于元音我們可以通過共振峰來分辨音色。
noise
噪音、輔音(摩擦音)都會有broad spectrum,也就是說我們無法通過共振峰來識別它們。
下圖展示了各種聲音在時頻域中的樣子:
envelope包絡
在波的時域和頻域圖中,用來形容圖形的整體形狀的叫做包絡。
比如在時域中,如果時間的分辨率較低,我們可以看到語音被分成一個一個菱形,上半部分三角形的輪廓就叫做包絡。
3. Utterance
hierarchy of phone
如下圖所示:
可以看到Utterance滿足層次結構,一般提取特征也是基于多個層次來做的。
syllables
最小的可以發聲(pronounceable)的單元。
open syllable:以元音為結尾的音節,日語基本上都是這樣
closed syllable:以輔音為結尾的音節
consonant cluster:很多個輔音連接在一起,英文中常見
accent / stress units
發音的特性,有些語言通過聲調來區分意義,比如日語或者中文,而英語是通過重音來區分意義的。
rhythm / isochrony
也就是發聲時候的節奏,比如日語是平假名分隔,而中文是漢字,英文是由重音來作為分隔的。
prosodic / intonation units
韻律、聲調,針對單詞和短語
utterances
一般是句子,但也可以變長。標點符號分隔。
neighboring phones influence each other a lot。
4. 語音合成及其歷史
TTS
Text-To-Speech,語音合成,特指從文字合成出語音
VC
Voice Conversion,聲音轉換,就是把一個人的聲音轉成另一個
ASR
Automatic Speech Recognition,即語音識別,從語音到文字
歷史
Mechanical speech production system-1790,即機械系統
Electric system-1930,電子系統,鍵盤操作,貝爾實驗室開發
Computer TTS-1960,基于計算機的TTS
Production systems-1980
5. TTS Pipeline
傳統的TTS主要是通過組合多個模塊構成流水線來實現的,整個系統可以大致分為前端(frontend)和后端(backend)。
frontend
主要是文字處理,使用NLP技術,從離散到離散,包括基本的分詞、text normalization、POS以及特有的Pronunciation標注。
前端和后端基本獨立。
backend
根據前端結果生成語音,從離散到連續
segmentation & normalization
去噪、分句、分詞以及把縮寫、日期、時間、數字還有符號都換成可發音的詞,這一步叫spell out。
基本都基于規則
grapheme-to-phoneme
利用發音詞典和規則,生成音素。
音素一般利用ASCII編碼,比如SAMPA和ARPAbet,這種編碼在深度模型中也可以被支持。
這里的一個問題是pronunciation一般基于上下文,因為上下文可能決定了詞的詞性等,比如read的過去式就有不同的讀音。
IPA(international Phonetic Alphabet)
是一個基于拉丁字母的語音標注系統。IPA只能表示口語的性質,比如因素,音調,音節等,如果還想要表示牙齒舌頭的變動則還有一個extension IPA可以用。
IPA中最基本兩種字母是letter和diacritic(變音符號),后者用來表示聲調。
IPA雖然統一了不同語言的發音,但是英語本身是stress language所以注音很少,而中文這樣依賴于音調的語言就會包含很多音調。
intonation/stress generation
這一步比較難,基本根據規則,或者構造統計模型
SSML(speech synthesis markup language)
一種專門為語音合成做出來的語言,基于XML,包含了發音信息。
waveform synthesis
包含很多方法
formant-based: 基于規則來生成共振峰還有其它成分
concatenative: 基于database copy&paste
parametric model: HMM等,神經網絡就是最新的參數模型
更新日志
2.0.11更新
1、【修復】部分bug,優化用戶體驗
2.0.9更新
1、【修復】部分已知bug,優化用戶體驗
2.0.5更新
1、【修復】部分已知bug,優化用戶體驗
1.4.1120更新
1、【增加】文件分享功能,一鍵分享你的音頻
2、【增加】云端儲存功能,文件查看更便捷
3、【增加】作品集文件管理功能,分類更清晰
4、【修復】部分已知bug,優化用戶體驗
1.4.1118更新
1、【修復】部分Bug,優化體驗
Windows 10支持( 0 ) 蓋樓(回復)