本文是关于 DiffSinger 声库:Ria / 狸安 的特性、使用规范及制作用参考的说明。请在仔细阅读本文且同意相关条款后再进行使用。
-
2025.01.18
-
2025.01.14
- 增加自动音高和微调声码器两个扩展包,适用于 Ria-DiffSinger-v0.4 以及 Ria-DiffSinger-v0.4-lynxnet, 使用方式参见 Release 页面。
-
2024.09.15
- 增加 multi-dict 分支的声库版本。该版本未新增采样及更改标记。该版本使用需求 OpenUtau 版本 v0.1.543.0 及以上。
-
2024.09.14
- 增加 lynxnet 分支的声库版本。该版本未新增采样及更改标记。
姓名:Ria / 狸安
收录语种:粤语(1hr)、日语(30mins)、普通话(30mins)
中之人:RibosomeK
音素方案:类 ARPABET
训练步长:76k
唱法模型:音素长度(duration)、张力(tension)、发声(voicing)、气声(breathiness)
可用音域:A2~G#4
试听曲:
DiffSinger 已正式推出多语言字典分支版本及其说明,预计在 OpenUTAU 对其正式后会对现行音素方案进行少量修改。
2024.08.22 更新:关于多字典分支,经测试后预计后续更新不会更新适配,而是保留现行合并方案。
本声库的音素方案修改自 ARPABET,并借用了 X-SAMPA 中的一些概念,在只包含小写字母和半角分号 : 的情况写囊括了粤语、日语、普通话、英语的发音。其中元音以 2 位小写字母表示;辅音以 1~2 位小写字母表示;音尾以半角分号 : 加 1 位小写字母表示。不同于原 ARPABET 方案的地方会以星号 * 标记。另外包括的特殊音素统一为 DiffSinger 保留音素的格式,即双大写字母。
注:本声库不包含英语采样及其独占音素!
| 音素记号 | 粤语 | 普通话 | 日语 | 英语 |
|---|---|---|---|---|
| aa | 啊 aa | 啊 a | あ a | lot |
| ae | 不 bat | |||
| ah | 包 baau | 包 bao | strut | |
| ax | about | |||
| ea | 石 sek | trap* | ||
| eh | 啤 be | 叶 ye | え e | dress |
| eo | 春 ceon | |||
| er | 儿 er | bird | ||
| ex | 的 de | |||
| ih | 星 sing | 杯 bei | bit | |
| ir | 只 zhi | |||
| ix | 字 zi | |||
| iy | 衣 ji | 衣 yi | い i | beat |
| nn | ん nn | |||
| oa | 波 bo | thought* | ||
| oe | 朵 doe | |||
| oh | 罗 luo | お o | ||
| ox | 寳 bou | 凑 cou | low* | |
| uh | foot | |||
| uw | 烏 wu | 乌 wu | goose | |
| ux | う u | |||
| vw | 與 jyu | 与 yu |
| 音素记号 | 粤语 | 普通话 | 日语 | 英语 |
|---|---|---|---|---|
| :g | 倉 cong | 仓 cang | sing* | |
| :i | 拜 baai | 白 bai | buy* | |
| :k | 白 bak | |||
| :l | all* | |||
| :m | 參 caam | same* | ||
| :n | 產 caan | 班 ban | sand* | |
| :p | 輯 cap | |||
| :r | art* | |||
| :t | 不 bat | |||
| :u | 包 baau | 包 bao | low* |
| 音素记号 | 类型 | 粤语 | 普通话 | 日语 | 英语 |
|---|---|---|---|---|---|
| b | stop | 巴 baa | 巴 ba | ||
| bb | stop | ば ba | bat* | ||
| c | affricate | 擦 caat | 擦 ca | ||
| ch | affricate | 吃 chi | |||
| d | stop | 打 daa | 打 da | ||
| dd | stop | だ da | dig* | ||
| dh | fricative | this | |||
| dx | liquid | better* | |||
| f | fricative | 發 faat | 发 fa | far | |
| fh | fricative | ふ fu | |||
| g | stop | 家 gaa | 改 gai | ||
| gg | stop | が ga | get* | ||
| h | fricative | 哈 haa | 哈 ha | は ha | hi* |
| j | affricate | 家 jia | |||
| jx | affricate | ち chi | church* | ||
| jh | affricate | judge | |||
| jz | fricative | じ ji | |||
| k | stop | か ka | kit | ||
| kh | stop | 卡 kaa | 卡 ka | ||
| l | liquid | 啦 laa | 啦 la | lie | |
| m | nasal | 馬 maa | 吗 ma | ま ma | my |
| n | nasal | 那 naa | 那 na | な na | night |
| ng | nasal | 啞 ngaa | ガ nga | ||
| p | stop | ぱ pa | pet | ||
| ph | stop | 怕 paa | 怕 pa | ||
| q | affricate | 恰 qia | |||
| r | liquid | ら ra | |||
| rx | liquid | 日 ri | read | ||
| s | fricative | 沙 saa | 撒 sa | さ sa | sad |
| sh | fricative | 是 shi | she | ||
| t | stop | た ta | ted | ||
| tf | fricative | thing* | |||
| th | stop | 他 taa | 他 ta | ||
| ts | affricate | 渣 zaa | 杂 za | つ tsu | cats* |
| v | fricative | vase | |||
| w | semivowel | 哇 waa | 哇 wa | わ wa | white |
| x | fricative | 下 xia | し shi | ||
| y | semivowel | 也 jaa | 亚 ya | や ya | yet |
| yv | semivowel | 魚 jyu | 元 yuan | ||
| z | fricative | ざ za | zoo | ||
| zh | affricate | 只 zhi | |||
| zr | fricative | measure* |
SP:DiffSinger 保留音素,表示空白部分AP:DiffSinger 保留音素,表示呼吸音CL:表示类似喉塞音的部分(不推荐使用)RP:表示语尾息(不推荐使用,使用时可搭配气声参数使用)
本声库一共包含了 4 份字典:dsdict.yaml、dsdict-zh-yue.yaml、dsdict-zh.yaml、dsdict-ja.yaml,分别对应默认音素器 DIFFS、粤语音素器 DIFFS ZH-YUE、中文音素器 DIFFS-ZH、日语音素器 DIFFS-JA。
默认字典 dsdict.yaml 为了区分三种不同的语言,分别使用了粤拼(JyutPing)、注音(ㄅㄆㄇㄈ)、平假名(ひらがな)作为输入方式。在需要混用不同语言的情况下可以使用默认音素器 DIFFS 。一般情况下不推荐使用。
粤语字典 dsdict-zh-yue.yaml 内除了包含粤拼作为输入方式外,还包含了大陆地区通用规范汉字约 8000 个,香港地区常用字字表约 4700 个,即还可以输入汉字字符作为歌词。 由于 OpenUTAU 自带 G2P,先仅包含粤拼。使用时请选择 DIFFS ZH-YUE 作为音素器,并请注意由于多音字的存在,使用汉字字符作为歌词输入不可能百分百得到合适的发音,还请手动调整。
普通话字典 dsdict-zh.yaml 则以拼音(pinyin)、注音、汉字字符作为输入方式。其中汉字字符包含大陆地区通用规范汉字约 8000 个,台湾地区国字标准字体表-常用(甲表)约 4800 个,台湾地区国字标准字体表-次常用(乙表)约 6300 个。 同样改用 OpenUTAU 自带的 G2P。使用时请选择 DIFFS-ZH 作为音素器,同样的请注意,使用汉字字符作为歌词输入时可能存在的不合适发音。
日语字典 dsdict-ja.yaml 包含了平假名和一部分用作外来语的片假名,以及其对应的罗马字(romaji)。使用时请选择 DIFFS-JA 作为音素器。
- 编辑器请使用 OpenUTAU 0.1.529 及以上的版本
- 请前往 Release 下载任一版本的声库
(Ria-*.zip),当前推荐 lynxnet 分支版本 - 请下载声码器 NSF-HiFiGAN,下载文件后缀名为
.oudep的文件,并作为依赖安装到 OpenUTAU 中。安装方式为在 OpenUTAU 的编辑器界面的菜单栏上选择工具 -> 安装依赖项(.oudep),并选择方才下载的声码器进行安装 - 在 OpenUTAU 的编辑器界面的菜单栏上选择
工具 -> 安装歌手,并选择声库压缩包,按照提示,在出现歌手类型时选择diffsinger进行安装 - 更详细的使用方式请参阅 OpenUTAU 文档
- 本声库使用规范默认采用白名单,只有本节提及的使用方式是被允许的
- 经该声库直接输出的音频文件,可以直接或经过重采样、混音、母带(以下简称加工),以媒体方式(以下简称媒体)进行传播展示,且需要注明声库的任一姓名。
- 加工过程中所使用插件、效果器的类型不能包括 RVC(real-time voice changer)、SVC(singing voice changer)等具有变声器效果的软件
- 媒体不能包含或用于制造:hate speech(仇恨发言)、spamming(骚扰)、trolling(钓鱼式发言)、fighting words(引战)
- 开头元音可能会带有爆破辅音,可以在前面添加音符
AP解决 - 部分辅音可能会出现发声不明显,如
[n]、[l]、[h],手动调整长度可能会改善该状况 - 部分开头辅音可能会过短,请手动调节长度
- 长音符音尾部分可能会过长,请手动调节长度
- 部分情况下介音长度可能会过长,请手动调节长度