第一方案成功的可能性应该是一半都没有文字转WAV音频