生成字幕,在“从视频提取音频”这一步花了15分钟还未完成,似乎在这一步卡住了。重试了几次亦是如此。用本地免费语音识别模型和Enjoy API都是一样。
目前可以用AI识别字幕,但结果只能提取为几句“thank you”