自己在使用字幕srt文件时,想要提取其中的完整内容做研究标记和笔记,发现干净的提取出内容并轻松,遂整理一下用word处理内容的方式。
字幕内容(记事本打开复制到word)转换为文档提取其中正常文字内容面临两个问题:
大量的时间轴和序列字段
利用 Word的替换功能,使用高级功能中的特殊标记(^#代表任意数字)进行替换
时间轴字段的查找格式为 ^#^#:^#^#:^#^#,^#^#^# --> ^#^#:^#^#:^#^#,^#^#^#,替换为空即可
序列字段按顺序查找格式^#^#^#^p,^#^#^p,^#^p 替换为空(代表任意3、2、1位数字后面接回车,避免将正文中的数字也替换了,我这里序列字段最大为500多,三位就够了,注意一定从多位数向小位数顺序进行替换)
大量的不符合正常语言的换行
稍微麻烦一点,思路是将英文中常见的正常句子结束标点,如". ! ?" 等符号替换为 不同的自定义字符串,再将需要去除的换行符统一替换掉(替换时记得增加一个空格,避免单词衔接了),最后再将自定义的字符串替换成对应形式的换行。
第一步:查找.^p替换为.mystr,!^p替换为!mystr(此处仅举例2个符号,更多符号请自行替换)。
第二步:查找^p替换为 (空格,避免单词替换后衔接无法阅读)。
第三步:查找.mystr替换为.^p,!mystr替换为!^p。
基本解决大面积的字幕转文本中的异常格式问题,据说有的视频编辑器也能够直接导出字幕纯文本,熟悉的也可以自己试试。
字符含义:
^# 任意数字
^p 换行符