耗子的屯粮仓
  • 听我韶韶
  • 软件使用
    • 提取SWF文件中的图片
  • 动画相关
    • 资源搜索
      • 如何下载想要的动画?(上)
      • 如何下载想要的动画?(中)
      • 如何下载想要的动画?(下):字幕下载篇
    • 片源
      • 抓碟
        • UHD BD蓝光碟提取
        • BD蓝光碟的提取及SUP字幕提取
        • DVD的提取与DVD字幕的提取
      • 压制
        • 使用VidCoder进行一般项压制
    • 字幕
      • IdxSubOcr:基于MODI的图形字幕OCR软件
      • 字幕软件Subtitle Edit的易用之处
    • 字体
      • 使用ListAssFonts快速匹配ASS所需字体
      • 自动化字体加载工具SubtitleFontHelper
  • WEB相关
    • 某波兰文艺片平台视频获取思路
    • sbeam入库视频下载思路
    • Abema下载教程
  • 杂谈
    • 谜之BUG系列
      • 谜之BUG系列4:BE6500 Pro 存在MLO与IPv6冲突问题
      • 谜之BUG系列3:网速变慢居然是火绒的锅
Powered by GitBook
On this page
  • 1.图形字幕
  • 2.MODI
  • 3.IdxSubOcr
  • 一、安装MODI
  • 二、IdxSubOcr使用
  1. 动画相关
  2. 字幕

IdxSubOcr:基于MODI的图形字幕OCR软件

Previous字幕Next字幕软件Subtitle Edit的易用之处

Last updated 1 month ago

首先简单说一下几个名词,也就根据自己的理解简单提一下,不必较真。

如果已经了解可以直接跳过。

1.图形字幕

以图片格式存储的字幕(非文本),常见于idx/sub和SUP(PGS)等格式。idx/sub多见于DVD字幕,PGS字幕多见于BD和HDTV录制源字幕。由于其不易修改性,需要调整的话多会用OCR的方式转换成文本。

这两种字幕如何提取,请参考:

2.MODI

MODI全称Microsoft Office Document Imaging,是微软Office 2003/2007所带的光学字符识别(OCR)组件,其OCR引擎采用清华文通和ScanSoft的技术,支持21种语言,是一个方便的OCR工具。

3.IdxSubOcr

基于MODI开发出来的图形字幕OCR软件,能将图形字幕转换成文本形式的srt字幕。

对于纯简体/繁体中文推荐使用此软件,纯日文也可以试试此软件,我认为效果不是很理想。纯英文、德文等推荐使用Subtitle Edit。

接下来是正文

一、安装MODI

“万事开头难”

没错,安装MODI是最重要的,也是最麻烦的。以下会给出3种方法来帮你安装MODI的,但是并不能保证你真的可以安装上。可能是Win10的锅也可能是MODI的锅,反正这锅微软背。

1.Office 2007下安装MODI

首先推荐此方法是因为稳定,只要你不作死,一般不会遇到掉MODI的情况。

由于MODI并不集成在office 2007以及之后的office版本中,而是以补丁的形式发布(对应office 2007)。所以我们其实并不需要安装Office 2007本体,而是直接安装SharePoint Designer 2007就可以获取到MODI功能了。

但。。。。但是。。。

微软并不想背锅,在去年删除了SharePoint Designer 2007。没想到巨硬会这么虎的,UP也就只存了繁体和简体的版本。可以在文本末尾获取下载链接,请删除.pdf后缀后再进行解压。

下载完后打开SharePointDesigner_TC.exe这个安装包。

为了避免不必要的麻烦请务必解压并用管理员权限打开。先安装繁体是为了繁体识别会在默认的位置。

按如图所示的方式安装MODI

继续直至安装完成。

然后安装SharePointDesigner_SC.exe,注意勾选语言,其余同上。

但。。。。但是。。。问题又来了。。。

如果你使用的是Win10有一定概率是安装不上的(可能是报错,或者安装完IdxSubOcr还是提示没MODI),Win7就没这种问题,所以这锅微软背。有很多人向我说过这个问题了,并且我有台电脑也实际遇到了。这个你可以多尝试安装几次(大概率是没用的,小概率是硬盘没空间了(¬‿¬)),或者在安装新系统后首先安装MODI,大概率可以安装上,就算安装不上重装系统也方便(不是)。嘛,重装系统对大部分人是不可能了,既然给了三种方法当然是先试完再看了。

另外用此方法安装MODI后,系统更新中会检查出有关Office 2007相关的补丁,有洁癖的请注意(¬‿¬)。还有就是SharePoint Designer 2007与Office 2016似乎有兼容性问题,可能只是我这个个例,前几年遇到了就深受困扰,但也没见其他人提过这个问题。后面换365倒也没问题了。如果你在使用2016版本,请谨慎安装。

2.Office 2003下安装MODI

Office 2003版是内置有MODI的,你需要安装完整版的Office 2003(不提供下载),选择自定义安装,然后将Office 工具"项下的“Microsoft Office Document Imaging”选项卡设置为“从本机运行全部程序”。

请务必安装完整版Office2003,精简版的基本是不包含MODI的。

安装 Office 2003的弊端也是显而易见的。毕竟都2020年了,office365不香么,装一个几乎用不到的03版,外带一堆补丁,实在是。。。膈应。

3.使用老马提供的MODI组件

可以通过老马的博客下载IdxSubOcr软件和精简过的MODI组件。

网址https://www.cnblogs.com/stronghorse/

相关软件的下载请看博客置顶的文章。

以MODI_From_Office2007SP3这个为例,大概谈一下如何安装。此处并没有图示,主要是自己是用的第一种方法安装上了,再折腾怕翻车ヾ(•ω•`)o

解压MODI_From_Office2007SP3目录到磁盘,我这里以D盘根目录为例;

以管理员身份运行CMD或PowerShell

CMD(管理员)

D:

cd D:\MODI_From_Office2007SP3

install.bat

PowerShell(管理员)

D:

cd D:\MODI_From_Office2007SP3

.\install.bat

或D:\MODI_From_Office2007SP3\install.bat

之前有遇到使用前两种方法失败后,使用PS安装上了MODI。但在使用IdxSubOcr识别文字时出现软件闪屏的问题,可能只是个例。而且识别时间很短,后续校对阶段就不影响了,问题不大。毕竟能安装上就不容易了( ´・・)ノ(._.`)

如果还装不上,只能使用虚拟机大法了,Win7/XP走起。

二、IdxSubOcr使用

推荐使用IdxSubOcr的最新版本,目前版本2.04。

打开IdxSubOcr.exe

点击“打开字幕文件”按钮,选择加载.idx或.sup文件。或者直接拖拽文件至“打开字幕文件”按钮右侧的框中。

在弹出的界面中进行相关设置

1.00代表轨道,识别为英语是本身轨道命名的原因,如有多条轨道请注意切换。

例:台版DVD网球王子的字幕存在对应国语和对应日语两个版本,其时间轴和翻译内容都有差别。如果你两种字幕提取成一个idx/sub字幕文件了,请注意切换。

2.是否从头OCR,取决于你的进度。一开始选择从头开始,OCR一部分后保存srt,关闭软件后可以选择校对字幕模式继续校对。对于新版本中可以使用“保存工程”和“调入工程”的方式继续你的校对。

3.选择你字幕的语言。请务必匹配字幕语言,否则识别准确率会差很多。

4.字幕颜色以白底黑字准确率最高,如果手工选择可以统一就建议手工选择,否则则推荐自动选择。但对于某些字幕无法调成白底黑字的,可以尝试Subtitle Edit。底色调成透明,字体颜色与边框颜色对比度差越高越好。

5.确定设置,进入自动OCR阶段。

Tips:

OCR完成后可能在图形字幕预览区的图片不是白底黑字的,可以勾选“黑白图形”进行变换。

对于一些图片中字体线条较细的,可能OCR效果并不理想,可以勾选“OCR前先加粗图像”,勾选后请重新加载文件OCR下。

辅助功能中有“繁体转简体”功能,是否需要转换取决于你的习惯,你也可以后续用繁化姬转换。

辅助功能中有“查找/替换”功能,用于替换OCR中日常OCR错的字,比如:“口”、“喝”、中英文标点等。批量替换可以节约很多时间。

使用多按键鼠标的用户,请善用你的鼠标快捷键。对于我一个G502用户,你可以省掉很多把右手移到键盘上去按键的时间。

已知问题:

1.对于中英文混杂的一行字幕,英文部分通常识别的都很烂,这个无解,请善用复制粘贴及批量替换功能。

2.对于单行中文字数少于等于2个的,识别精度可能会比较差,尽管作者优化过了,但大概率还是有问题。

3.MODI对斜体字的识别真的很烂。如果一个字幕文件中大多是斜体字,那真没办法,这种字幕请放弃这种方法识别。

4.新版本IdxSubOcr在识别极个别图形字幕时会有问题。表现为字幕全为空白,或者识别一部分后,后面全是空白,但没报错且其它字幕可以正常OCR。遇到这个问题推荐使用1.14版本的IdxSubOcr。由于旧版不支持高分屏,你可以使用旧版本OCR后保存srt,再用新版的校对模式进行校对。旧版本也不支持SUP字幕,想转成idx/sub的,请使用Subtitle Edit。如果你找不到旧版本,也可以先转换成另一种格式再进行OCR试试。

请务必及时保存文件,保存文件,保存文件。

相关下载:

老马的博客:

https://www.cnblogs.com/stronghorse/

SharePointDesigner_TC:

https://hungryxhz.lanzous.com/b00t61cdc

SharePointDesigner_SC:

https://hungryxhz.lanzous.com/b00t61ced

MODI安装位置
MODI位置
MODI组件位置
IdxSubOcr位置
IdxSubOcr界面
IdxSubOcr设置
LogoDVD的提取与DVD字幕的提取 | 耗子的屯粮仓
LogoBD蓝光碟的提取及SUP字幕提取 | 耗子的屯粮仓
Logo字幕软件Subtitle Edit的易用之处 | 耗子的屯粮仓