卡卡字幕助手(VideoCaptioner)是一款功能强大的字幕处理工具,旨在为用户提供简单、高效的字幕生成与编辑体验。无论是网络调用还是本地离线处理,卡卡字幕助手都能轻松应对,支持GPU加速,同时利用大语言模型(LLM)实现智能断句、校正和翻译,为视频配上效果惊艳的字幕。最新版本还新增了VAD、人声分离、字级时间戳和批量字幕等实用功能,满足多样化的字幕处理需求。
功能特点:
无需高配置:无需GPU即可使用强大的语音识别引擎,生成精准字幕。
智能断句与校正:基于大语言模型(LLM)的智能分割与断句,使字幕阅读更自然流畅。
AI字幕优化与翻译:支持多线程优化与翻译,调整字幕格式,表达更地道专业。
批量处理:支持批量视频字幕合成,显著提升处理效率。
直观编辑界面:提供直观的字幕编辑查看界面,支持实时预览和快捷编辑。
开箱即用:内置基础LLM模型,消耗模型Token少,保证开箱即用。
最新功能:支持VAD、人声分离、字级时间戳等实用功能,满足更多场景需求。
使用说明:
下载最新版本的可执行程序进行安装,软件轻量且已集成所有必要环境。
将视频文件拖拽到软件窗口,即可全自动处理。
可对字幕样式进行修改,同时可以自行配置LLM API,用于字幕断句与校正,默认使用B接口,中英以外的语言请使用本地转录。
如需对字幕进行翻译,可自行配置,默认使用微软翻译,推荐使用大模型翻译以获得更高质量。
配置项 | 说明 |
---|---|
LLM 大模型翻译 | 🌟 翻译质量最好的选择。使用 AI 大模型进行翻译,能更好理解上下文,翻译更自然。需要在设置中配置 LLM API(比如 OpenAI、DeepSeek 等) |
DeepLx 翻译 | 翻译较可靠。基于 DeepL 翻译, 需要要配置自己的后端接口。 |
微软翻译 | 使用微软的翻译服务, 速度非常快 |
谷歌翻译 | 谷歌的翻译服务,速度快,但需要能访问谷歌的网络环境 |
推荐使用 LLM 大模型翻译
,翻译质量最好。
接口名称 | 支持语言 | 运行方式 | 说明 |
---|---|---|---|
B接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
J接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
WhisperCpp | 中文、日语、韩语、英文等 99 种语言,外语效果较好 | 本地 | (实际使用不稳定)需要下载转录模型 中文建议medium以上模型 英文等使用较小模型即可达到不错效果。 |
fasterWhisper 👍 | 中文、英文等多99种语言,外语效果优秀,时间轴更准确 | 本地 | (🌟极力推荐🌟)需要下载程序和转录模型 支持CUDA,速度更快,转录准确。 超级准确的时间戳字幕。 建议优先使用 |
GitHub项目地址:https://github.com/WEIFENG2333/VideoCaptioner

此处内容已经被作者无情的隐藏,请输入验证码查看内容
请关注微信公众号“瓜皮猪”,回复关键字“497”,获取验证码。