当然这些都只是最粗略的统计文字转WAV音频