大模型流式回答，然后文本流式输入到MOSS-TTS-Nano，保证音色一致性

使用场景：智能体回答时，实时语音播报，就像手机豆包一样，边回答文本，边语音播报。
尝试了：把大模型回答文本切片之后喂入语音合成模型，但是各个片段的音色会出现不一致，而且衔接处会音调会跳跃
如果等大模型回答完整之后，再喂入语音合成模型，这样会有延迟
请问大佬如何解决这个问题？