使用场景:智能体回答时,实时语音播报,就像手机豆包一样,边回答文本,边语音播报。 尝试了:把大模型回答文本切片之后喂入语音合成模型,但是各个片段的音色会出现不一致,而且衔接处会音调会跳跃 如果等大模型回答完整之后,再喂入语音合成模型,这样会有延迟 请问大佬如何解决这个问题?
使用场景:智能体回答时,实时语音播报,就像手机豆包一样,边回答文本,边语音播报。
尝试了:把大模型回答文本切片之后喂入语音合成模型,但是各个片段的音色会出现不一致,而且衔接处会音调会跳跃
如果等大模型回答完整之后,再喂入语音合成模型,这样会有延迟
请问大佬如何解决这个问题?