实际上每损失一个文字转WAV音频