IdxSubOcr:基于MODI的图形字幕OCR软件
Last updated
Last updated
首先简单说一下几个名词,也就根据自己的理解简单提一下,不必较真。
如果已经了解可以直接跳过。
以图片格式存储的字幕(非文本),常见于idx/sub和SUP(PGS)等格式。idx/sub多见于DVD字幕,PGS字幕多见于BD和HDTV录制源字幕。由于其不易修改性,需要调整的话多会用OCR的方式转换成文本。
这两种字幕如何提取,请参考:
MODI全称Microsoft Office Document Imaging,是微软Office 2003/2007所带的光学字符识别(OCR)组件,其OCR引擎采用清华文通和ScanSoft的技术,支持21种语言,是一个方便的OCR工具。
基于MODI开发出来的图形字幕OCR软件,能将图形字幕转换成文本形式的srt字幕。
对于纯简体/繁体中文推荐使用此软件,纯日文也可以试试此软件,我认为效果不是很理想。纯英文、德文等推荐使用Subtitle Edit。
接下来是正文
“万事开头难”
没错,安装MODI是最重要的,也是最麻烦的。以下会给出3种方法来帮你安装MODI的,但是并不能保证你真的可以安装上。可能是Win10的锅也可能是MODI的锅,反正这锅微软背。
1.Office 2007下安装MODI
首先推荐此方法是因为稳定,只要你不作死,一般不会遇到掉MODI的情况。
由于MODI并不集成在office 2007以及之后的office版本中,而是以补丁的形式发布(对应office 2007)。所以我们其实并不需要安装Office 2007本体,而是直接安装SharePoint Designer 2007就可以获取到MODI功能了。
但。。。。但是。。。
微软并不想背锅,在去年删除了SharePoint Designer 2007。没想到巨硬会这么虎的,UP也就只存了繁体和简体的版本。可以在文本末尾获取下载链接,请删除.pdf后缀后再进行解压。
下载完后打开SharePointDesigner_TC.exe这个安装包。
为了避免不必要的麻烦请务必解压并用管理员权限打开。先安装繁体是为了繁体识别会在默认的位置。
按如图所示的方式安装MODI
继续直至安装完成。
然后安装SharePointDesigner_SC.exe,注意勾选语言,其余同上。
但。。。。但是。。。问题又来了。。。
如果你使用的是Win10有一定概率是安装不上的(可能是报错,或者安装完IdxSubOcr还是提示没MODI),Win7就没这种问题,所以这锅微软背。有很多人向我说过这个问题了,并且我有台电脑也实际遇到了。这个你可以多尝试安装几次(大概率是没用的,小概率是硬盘没空间了(¬‿¬)),或者在安装新系统后首先安装MODI,大概率可以安装上,就算安装不上重装系统也方便(不是)。嘛,重装系统对大部分人是不可能了,既然给了三种方法当然是先试完再看了。
另外用此方法安装MODI后,系统更新中会检查出有关Office 2007相关的补丁,有洁癖的请注意(¬‿¬)。还有就是SharePoint Designer 2007与Office 2016似乎有兼容性问题,可能只是我这个个例,前几年遇到了就深受困扰,但也没见其他人提过这个问题。后面换365倒也没问题了。如果你在使用2016版本,请谨慎安装。
2.Office 2003下安装MODI
Office 2003版是内置有MODI的,你需要安装完整版的Office 2003(不提供下载),选择自定义安装,然后将Office 工具"项下的“Microsoft Office Document Imaging”选项卡设置为“从本机运行全部程序”。
请务必安装完整版Office2003,精简版的基本是不包含MODI的。
安装 Office 2003的弊端也是显而易见的。毕竟都2020年了,office365不香么,装一个几乎用不到的03版,外带一堆补丁,实在是。。。膈应。
3.使用老马提供的MODI组件
可以通过老马的博客下载IdxSubOcr软件和精简过的MODI组件。
网址https://www.cnblogs.com/stronghorse/
相关软件的下载请看博客置顶的文章。
以MODI_From_Office2007SP3这个为例,大概谈一下如何安装。此处并没有图示,主要是自己是用的第一种方法安装上了,再折腾怕翻车ヾ(•ω•`)o
解压MODI_From_Office2007SP3目录到磁盘,我这里以D盘根目录为例;
以管理员身份运行CMD或PowerShell
CMD(管理员)
D:
cd D:\MODI_From_Office2007SP3
install.bat
PowerShell(管理员)
D:
cd D:\MODI_From_Office2007SP3
.\install.bat
或D:\MODI_From_Office2007SP3\install.bat
之前有遇到使用前两种方法失败后,使用PS安装上了MODI。但在使用IdxSubOcr识别文字时出现软件闪屏的问题,可能只是个例。而且识别时间很短,后续校对阶段就不影响了,问题不大。毕竟能安装上就不容易了( ´・・)ノ(._.`)
如果还装不上,只能使用虚拟机大法了,Win7/XP走起。
推荐使用IdxSubOcr的最新版本,目前版本2.04。
打开IdxSubOcr.exe
点击“打开字幕文件”按钮,选择加载.idx或.sup文件。或者直接拖拽文件至“打开字幕文件”按钮右侧的框中。
在弹出的界面中进行相关设置
1.00代表轨道,识别为英语是本身轨道命名的原因,如有多条轨道请注意切换。
例:台版DVD网球王子的字幕存在对应国语和对应日语两个版本,其时间轴和翻译内容都有差别。如果你两种字幕提取成一个idx/sub字幕文件了,请注意切换。
2.是否从头OCR,取决于你的进度。一开始选择从头开始,OCR一部分后保存srt,关闭软件后可以选择校对字幕模式继续校对。对于新版本中可以使用“保存工程”和“调入工程”的方式继续你的校对。
3.选择你字幕的语言。请务必匹配字幕语言,否则识别准确率会差很多。
4.字幕颜色以白底黑字准确率最高,如果手工选择可以统一就建议手工选择,否则则推荐自动选择。但对于某些字幕无法调成白底黑字的,可以尝试Subtitle Edit。底色调成透明,字体颜色与边框颜色对比度差越高越好。
5.确定设置,进入自动OCR阶段。
Tips:
OCR完成后可能在图形字幕预览区的图片不是白底黑字的,可以勾选“黑白图形”进行变换。
对于一些图片中字体线条较细的,可能OCR效果并不理想,可以勾选“OCR前先加粗图像”,勾选后请重新加载文件OCR下。
辅助功能中有“繁体转简体”功能,是否需要转换取决于你的习惯,你也可以后续用繁化姬转换。
辅助功能中有“查找/替换”功能,用于替换OCR中日常OCR错的字,比如:“口”、“喝”、中英文标点等。批量替换可以节约很多时间。
使用多按键鼠标的用户,请善用你的鼠标快捷键。对于我一个G502用户,你可以省掉很多把右手移到键盘上去按键的时间。
已知问题:
1.对于中英文混杂的一行字幕,英文部分通常识别的都很烂,这个无解,请善用复制粘贴及批量替换功能。
2.对于单行中文字数少于等于2个的,识别精度可能会比较差,尽管作者优化过了,但大概率还是有问题。
3.MODI对斜体字的识别真的很烂。如果一个字幕文件中大多是斜体字,那真没办法,这种字幕请放弃这种方法识别。
4.新版本IdxSubOcr在识别极个别图形字幕时会有问题。表现为字幕全为空白,或者识别一部分后,后面全是空白,但没报错且其它字幕可以正常OCR。遇到这个问题推荐使用1.14版本的IdxSubOcr。由于旧版不支持高分屏,你可以使用旧版本OCR后保存srt,再用新版的校对模式进行校对。旧版本也不支持SUP字幕,想转成idx/sub的,请使用Subtitle Edit。如果你找不到旧版本,也可以先转换成另一种格式再进行OCR试试。
请务必及时保存文件,保存文件,保存文件。
相关下载:
老马的博客:
https://www.cnblogs.com/stronghorse/
SharePointDesigner_TC:
https://hungryxhz.lanzous.com/b00t61cdc
SharePointDesigner_SC:
https://hungryxhz.lanzous.com/b00t61ced