切换到宽版
  • 12085阅读
  • 85回复

【图片文字提取】可以把图片中的文字提取出来,识别率相当高 [复制链接]

上一主题 下一主题
离线gl2345
 

只看楼主 倒序阅读 0 发表于: 2012-04-18
— 本帖被 owen 执行锁定操作(2014-02-20) —

软件大小:40.3 MB
软件语言:简体中文
运行环境:WinXp/Win7
软件版本:破解版
[attachment=44482]
本软件系统是应用OCR(Optical Character Recognition)技术,为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。 目前,许多信息资料需要转化成电子文档以便于各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
识别字符 简体字符集:国标GB2312-80的全部一、二级汉字6800多个。纯英文字符集。 简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。
识别字体种类 能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
识别字号 初号 小六号字体。
表格识别 可以自动判断、拆分、识别和还原各种通用型印刷体表格。
可支持繁体WINDOWS系统
用扫描仪扫描的文字图像,不能对个别文字进行编辑修改,在教学中,需要利用文字识别软件,将文字图像进行识别,将图像格式转化成文本格式,常见的文字识别软件有很多,主要功能基本相同,尚书七号就是其中很优秀的一款。用尚书七号对文字图像识别转化的过程,利用其主菜单:“文件”、“编辑”、“识别”、“输出”可以很方便地完成。具体步骤为:

步骤1:获取文字图像文件。
选择“文件”菜单下的“扫描”或“打开图像”(将已经扫描好的图像文件打开)命令,打开图像文件。如果连接了多台扫描仪,可以选择“文件”菜单下的“选择扫描仪”命令,调用扫描仪。

步骤2:对扫描的图像页进行调整
选择“编辑”菜单下“图像页面的处理”子菜单下的“图像页的倾斜校正”(提供自动和手动实现方法)及“旋转”等命令,将扫描的图像页进行调整。

步骤3:版面分析与文字识别转化
面分析,选择识别范围,在进行文字识别前要选择识别范围,识别过程的核心是“版面分析”。尚书七号的自动版面分析功能很强,对报纸杂志等复杂的版面,也能保持很高的分析正确率。
设置好后,直接点击“开始识别”的按钮就可以进行文字识别了。

步骤4:校对修改
自动识别完毕,识别结果的“文本窗口”会弹出,这个窗口能够提供识别结果的校对,为了校对方便,尚书七号增加了光标跟随显示原图像行的校对方法(如图3出现的黄色提示行的出现)。
提供的校对方法,一眼就能够看到图像原文和识别出文本的差别,如果发现识别有误,可以进行修改。

步骤5:输出
如果检查修改后确认无误,选择识别结果的“输出”菜单,输出的文件格式有:RTF、HTML、XLS、2126,可以根据自己的需要选择对应的格式。如果用户想得到类似原文的识别结果,请选择RTF格式。把RTF格式输出的文件用WORD打开后,会发现几乎保留了原文的所有痕迹,包括原来页面中的彩色图像,都已经保留在WORD中了。
内附“尚书七号”使用教程

下载地址:
本部分内容设定了隐藏,需要回复后才能看到


评价一下你浏览此帖子的感受

精彩

感动

搞笑

开心

愤怒

无聊

灌水
关注新浪官方微博@经过起点 获取更多……
离线yf00791

只看该作者 1 发表于: 2012-04-18
用户被禁言,该主题自动屏蔽!
离线林兆濠

只看该作者 2 发表于: 2012-04-18
离线林兆濠

只看该作者 3 发表于: 2012-04-18
卡卡卡卡啊啊
离线恋上孤单

只看该作者 4 发表于: 2012-04-18
~~~~谢谢楼主分享
离线2001cnnet

只看该作者 5 发表于: 2012-04-18
下来备用
离线309178849

只看该作者 6 发表于: 2012-04-18
      
离线555dq607

只看该作者 7 发表于: 2012-04-19
下来看看
离线dqt888

只看该作者 8 发表于: 2012-04-19
谢谢楼主分享了
离线yeluli

只看该作者 9 发表于: 2012-04-19
用户被禁言,该主题自动屏蔽!