视频生成字幕时卡在“从视频中提取音频”这一步

生成字幕,在“从视频提取音频”这一步花了15分钟还未完成,似乎在这一步卡住了。重试了几次亦是如此。用本地免费语音识别模型和Enjoy API都是一样。

目前可以用AI识别字幕,但结果只能提取为几句“thank you”