Skip to content

RibosomeK/RiaDiffSinger

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 

Repository files navigation

用前须知

本文是关于 DiffSinger 声库:Ria / 狸安 的特性、使用规范及制作用参考的说明。请在仔细阅读本文且同意相关条款后再进行使用。

更新日志

  • 2025.01.18

    • 增加 TPSE 分支的声库版本。该版本未新增采样及更改标记。详情请看 Release 页面。
  • 2025.01.14

  • 2024.09.15

    • 增加 multi-dict 分支的声库版本。该版本未新增采样及更改标记。该版本使用需求 OpenUtau 版本 v0.1.543.0 及以上。
  • 2024.09.14

    • 增加 lynxnet 分支的声库版本。该版本未新增采样及更改标记。

  1. 声库特性
    1. 基本信息
    2. 音素(暂行)
      1. 元音
      2. 音尾
      3. 辅音
      4. 特殊音素
    3. 字典文件
  2. 使用方式
  3. 使用规范
  4. 已知不符预期的表现(Bugs)
  5. 致谢

声库特性

基本信息

姓名:Ria / 狸安

收录语种:粤语(1hr)、日语(30mins)、普通话(30mins)

中之人:RibosomeK

音素方案:类 ARPABET

训练步长:76k

唱法模型:音素长度(duration)、张力(tension)、发声(voicing)、气声(breathiness)

可用音域:A2~G#4

试听曲:

音素(暂行)


DiffSinger 已正式推出多语言字典分支版本及其说明,预计在 OpenUTAU 对其正式后会对现行音素方案进行少量修改。

2024.08.22 更新:关于多字典分支,经测试后预计后续更新不会更新适配,而是保留现行合并方案。


本声库的音素方案修改自 ARPABET,并借用了 X-SAMPA 中的一些概念,在只包含小写字母和半角分号 : 的情况写囊括了粤语、日语、普通话、英语的发音。其中元音以 2 位小写字母表示;辅音以 1~2 位小写字母表示;音尾以半角分号 : 加 1 位小写字母表示。不同于原 ARPABET 方案的地方会以星号 * 标记。另外包括的特殊音素统一为 DiffSinger 保留音素的格式,即双大写字母。

注:本声库不包含英语采样及其独占音素!

元音

音素记号 粤语 普通话 日语 英语
aa aa a a lot
ae 不 bat
ah 包 baau 包 bao strut
ax about
ea 石 sek trap*
eh 啤 be 叶 ye e dress
eo 春 ceon
er er bird
ex 的 de
ih 星 sing 杯 bei bit
ir 只 zhi
ix 字 zi
iy 衣 ji 衣 yi i beat
nn nn
oa 波 bo thought*
oe 朵 doe
oh 罗 luo o
ox 寳 bou 凑 cou low*
uh foot
uw 烏 wu 乌 wu goose
ux u
vw 與 jyu 与 yu

音尾

音素记号 粤语 普通话 日语 英语
:g 倉 cong 仓 cang sing*
:i 拜 baai 白 bai buy*
:k 白 bak
:l all*
:m 參 caam same*
:n 產 caan 班 ban sand*
:p 輯 cap
:r art*
:t 不 bat
:u 包 baau 包 bao low*

辅音

音素记号 类型 粤语 普通话 日语 英语
b stop baa ba
bb stop ba bat*
c affricate caat ca
ch affricate chi
d stop daa da
dd stop da dig*
dh fricative this
dx liquid better*
f fricative faat fa far
fh fricative fu
g stop gaa gai
gg stop ga get*
h fricative haa ha ha hi*
j affricate jia
jx affricate chi church*
jh affricate judge
jz fricative ji
k stop ka kit
kh stop kaa ka
l liquid laa la lie
m nasal maa ma ma my
n nasal naa na na night
ng nasal ngaa nga
p stop pa pet
ph stop paa pa
q affricate qia
r liquid ra
rx liquid ri read
s fricative saa sa sa sad
sh fricative shi she
t stop ta ted
tf fricative thing*
th stop taa ta
ts affricate zaa za tsu cats*
v fricative vase
w semivowel waa wa wa white
x fricative xia shi
y semivowel jaa ya ya yet
yv semivowel jyu yuan
z fricative za zoo
zh affricate zhi
zr fricative measure*

特殊音素

  • SP:DiffSinger 保留音素,表示空白部分
  • AP:DiffSinger 保留音素,表示呼吸音
  • CL:表示类似喉塞音的部分(不推荐使用)
  • RP:表示语尾息(不推荐使用,使用时可搭配气声参数使用)

字典文件

本声库一共包含了 4 份字典:dsdict.yamldsdict-zh-yue.yamldsdict-zh.yamldsdict-ja.yaml,分别对应默认音素器 DIFFS、粤语音素器 DIFFS ZH-YUE、中文音素器 DIFFS-ZH、日语音素器 DIFFS-JA

默认字典 dsdict.yaml 为了区分三种不同的语言,分别使用了粤拼(JyutPing)、注音(ㄅㄆㄇㄈ)、平假名(ひらがな)作为输入方式。在需要混用不同语言的情况下可以使用默认音素器 DIFFS 。一般情况下不推荐使用。

粤语字典 dsdict-zh-yue.yaml 内除了包含粤拼作为输入方式外,还包含了大陆地区通用规范汉字约 8000 个,香港地区常用字字表约 4700 个,即还可以输入汉字字符作为歌词。 由于 OpenUTAU 自带 G2P,先仅包含粤拼。使用时请选择 DIFFS ZH-YUE 作为音素器,并请注意由于多音字的存在,使用汉字字符作为歌词输入不可能百分百得到合适的发音,还请手动调整。

普通话字典 dsdict-zh.yaml 则以拼音(pinyin)、注音、汉字字符作为输入方式。其中汉字字符包含大陆地区通用规范汉字约 8000 个,台湾地区国字标准字体表-常用(甲表)约 4800 个,台湾地区国字标准字体表-次常用(乙表)约 6300 个。 同样改用 OpenUTAU 自带的 G2P。使用时请选择 DIFFS-ZH 作为音素器,同样的请注意,使用汉字字符作为歌词输入时可能存在的不合适发音。

日语字典 dsdict-ja.yaml 包含了平假名和一部分用作外来语的片假名,以及其对应的罗马字(romaji)。使用时请选择 DIFFS-JA 作为音素器。

使用方式

  1. 编辑器请使用 OpenUTAU 0.1.529 及以上的版本
  2. 请前往 Release 下载任一版本的声库(Ria-*.zip),当前推荐 lynxnet 分支版本
  3. 请下载声码器 NSF-HiFiGAN,下载文件后缀名为 .oudep 的文件,并作为依赖安装到 OpenUTAU 中。安装方式为在 OpenUTAU 的编辑器界面的菜单栏上选择 工具 -> 安装依赖项(.oudep),并选择方才下载的声码器进行安装
  4. 在 OpenUTAU 的编辑器界面的菜单栏上选择 工具 -> 安装歌手,并选择声库压缩包,按照提示,在出现 歌手类型 时选择 diffsinger 进行安装
  5. 更详细的使用方式请参阅 OpenUTAU 文档

使用规范

  1. 本声库使用规范默认采用白名单,只有本节提及的使用方式是被允许的
  2. 经该声库直接输出的音频文件,可以直接或经过重采样、混音、母带(以下简称加工),以媒体方式(以下简称媒体)进行传播展示,且需要注明声库的任一姓名。
  3. 加工过程中所使用插件、效果器的类型不能包括 RVC(real-time voice changer)、SVC(singing voice changer)等具有变声器效果的软件
  4. 媒体不能包含或用于制造:hate speech(仇恨发言)、spamming(骚扰)、trolling(钓鱼式发言)、fighting words(引战)

已知不符预期的表现(Bugs)

  1. 开头元音可能会带有爆破辅音,可以在前面添加音符 AP 解决
  2. 部分辅音可能会出现发声不明显,如 [n][l][h],手动调整长度可能会改善该状况
  3. 部分开头辅音可能会过短,请手动调节长度
  4. 长音符音尾部分可能会过长,请手动调节长度
  5. 部分情况下介音长度可能会过长,请手动调节长度

致谢

About

Distribution repository of Ria the DiffSinger voicebank

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors