不用安装软件,只需使用Word将字幕srt文件转换成文本

2023年02月3日17:25:57 发表评论 热度2,908 ℃

自己在使用字幕srt文件时,想要提取其中的完整内容做研究标记和笔记,发现干净的提取出内容并轻松,遂整理一下用word处理内容的方式。

不用安装软件,只需使用Word将字幕srt文件转换成文本

字幕内容(记事本打开复制到word)转换为文档提取其中正常文字内容面临两个问题:

大量的时间轴和序列字段

利用 Word的替换功能,使用高级功能中的特殊标记(^#代表任意数字)进行替换

时间轴字段的查找格式为 ^#^#:^#^#:^#^#,^#^#^# --> ^#^#:^#^#:^#^#,^#^#^#,替换为空即可

序列字段按顺序查找格式^#^#^#^p,^#^#^p,^#^p 替换为空(代表任意3、2、1位数字后面接回车,避免将正文中的数字也替换了,我这里序列字段最大为500多,三位就够了,注意一定从多位数向小位数顺序进行替换)

大量的不符合正常语言的换行

稍微麻烦一点,思路是将英文中常见的正常句子结束标点,如". ! ?" 等符号替换为 不同的自定义字符串,再将需要去除的换行符统一替换掉(替换时记得增加一个空格,避免单词衔接了),最后再将自定义的字符串替换成对应形式的换行。

第一步:查找.^p替换为.mystr,!^p替换为!mystr(此处仅举例2个符号,更多符号请自行替换)。

第二步:查找^p替换为 (空格,避免单词替换后衔接无法阅读)。

第三步:查找.mystr替换为.^p,!mystr替换为!^p。

基本解决大面积的字幕转文本中的异常格式问题,据说有的视频编辑器也能够直接导出字幕纯文本,熟悉的也可以自己试试。

字符含义:

^# 任意数字

^p 换行符

瓜皮猪

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: