因为说话不仅会分心文字转WAV音频