我觉得卫东的想法是符合实际的文字转WAV音频