Skip to content

大模型流式回答,然后文本流式输入到MOSS-TTS-Nano,保证音色一致性 #65

@iamyishan

Description

@iamyishan

使用场景:智能体回答时,实时语音播报,就像手机豆包一样,边回答文本,边语音播报。
尝试了:把大模型回答文本切片之后喂入语音合成模型,但是各个片段的音色会出现不一致,而且衔接处会音调会跳跃
如果等大模型回答完整之后,再喂入语音合成模型,这样会有延迟
请问大佬如何解决这个问题?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions