ocr技术是什么 ocr技术的ocr应用程序

ocr吧_百度贴吧
签到排名:今日本吧第个签到,
本吧因你更精彩,明天继续来努力!
本吧排名:
本吧签到人数:8
可签7级以上的吧50个
本月漏签0次!
成为超级会员,赠送8张补签卡
连续签到:天&&累计签到:天
超级会员单次开通12个月以上,赠送连续签到卡3张
闲来无事,找了些生僻字,让OCR软件大对决!!! 泰比虽大,字库大,表格,图片,下划线都搞定。缺点是速度比较慢。 尚书七号字库也不错,看不能识别
这个软件采用云计算技术,只有几百K大小,就能识别59种语言。很干净,无毒,无插件。目前识别西文(英法德意西葡俄等)、阿拉伯文、日文效果比较好。
易道博识提供ocr,公司掌握业界领先核心技术,专注于银行卡/身份证/人脸等识别,识别率..
说到OCR技术,建议大家下载名片全能王,扫描全能王,看看识别效果怎么样,合合信息移动端的OCR国内第
ocr免费版,要的留言
Rich Vision是一家专业的模式识别技术服务提供商,提供证件识别、车牌识别、银行卡识别、名片识别、人脸
Readiris Corporate 14中文破解版下载下载地址:/readiris-pro-14/4514.html
手机上有哪些ocr可以用
如何把一个500多页的PDF文件转成双层PDF文件QAQ不知道如何操作用什么软件QAQ求大神赐教QAQ
关于ocr和语言模型想来问问万能的吧友,现在有木有哪款软件是支持语言模型的训练?我最近看的都是在
就剩厦门两个公司在各种小号玩推销了 汉王,文通这些名流不讨论 国际领先的TYPEREADER之流不讨论 OCRopus等开源OCR不讨论 Google Glass OCR不讨论 非
一个德语一个希腊语,多谢
北京旷视科技有限公司(Megvii,Face++),一家专注ocr和人工智能公司,打造领..
一、名片识别应用背景 这些年,随着移动互联的发展,APP应用成爆发式的增长,在很多APP中都涉及到对名
ocv谁有解决方案?
试用了三款,还是觉得捷速ocr识别软件好点,操作不复杂,还可以识别英文
最快的无非就是借助捷速ocr,使用方法: 打开软件,添加文件 点击识别 点击word保存即可
我们通常知道的是PDF上的文字是不可以编辑,有的甚至把图片上的文字一一再打字的形式打出来,很是麻烦。
从人工抄写到键盘录入,再到如今的OCR采集,人类采集信息的历史可谓跨越了一个又一个里程碑。随着信
实际测试中手动输入16—19位银行卡号码,速度慢,易出错,用户体验非常差。为了提高在移动终端上输入
需求是可以离线识别名片图片中的日文。 有偿。可以实现的请站内联系
删除帖子没有原因。。。
怎么才能让ocr识别表格里的文字,每次错别字特别多
锐纵信息是一家专业的OCR识别核心技术服务提供商,以自主知识产权提供名片识别、证件识别、银行卡识
锐图信息技术是几位海归博士投资创办的高新技术企业,是一家专业从事移动互联网应用开发和市场推广
如题请问银行卡识别哪家做的好?方面发个测试用用吗?
哪位大神告诉我哪种OCR好?
求识别率高的身份证识别SDK!求识别率高的身份证识别SDK!求识别率高的身份证识别SDK!重要的事情说三
自己读源码感觉不大现实啊
我试用了几家ocr公司的服务,abbyy,文通,汉王,云脉等,但是发现一个问题。。。。 对于用户来讲,好像不需要知道我是识别证件呢还是文档吧?让用户
扫描的图片其实不便于观看,做笔记也不方便。这时候如果能够把这些扫描图片转换成我们可以使用的文字就好了,这样我们既可以随时做笔记,又可以对这些
移动互联的发展已经渗透到了人们工作生活的每个角落,改变了人们日常的行为习惯,就像查违章、补换
中华人民共和国自日起,将营业执照、组织机构代码证和税务登记证三证合一,即新版“营业执
文通TH-OCR SDK综合文字识别系统软件V11.0是一种光学字符识别(OCR)软件开发包(OCR SDK);TH-OCR SDK11.0为软
北京文通科技有限公司的银行卡和身份证识别技术牛叉,这家公司的技术源于清华、服务全球,且识别技
大家好,因开发需要,求OCR 软件的 SDK, 最好是汉王等大品牌的。愿意付酬。 请能够提供者联系:
非常感谢!
最近工作上有这么一个任务需要识别一本带有古汉语的字典,原来我用两种ocr工具,汉王和abbyy,都无法完
文通车牌识别系统 文通车牌识别技术系统采用清华OCR技术,融合了车牌定位、车牌字符切分、车牌字符识别等算法,使该系统具有识别效率高、速度快、适应
有需要文通车牌识别sdk的可以联系我 文通车牌识别技术 系统采用清华OCR技术,融合了车牌定位、车牌字符切分、车牌字符识别等算法,使该系统具有识别效
发贴红色标题
签到六倍经验
兑换本吧会员
赠送补签卡1张,获得
助攻总额: 43W
贴吧热议榜
使用签名档&中文OCR技术的研究与应用
中文OCR技术的研究与应用
一、OCR的历史
OCR(Optical Character Recognition)的概念诞生于1929年,由德国的科学家Tausheck首先提出,并且申请了专利。几年后,美国科学家Handel也提出了对文字进行识别的想法,但这种梦想直到计算机诞生后才变成为现实。现在这一技术已经由计算机来实现,OCR的意思也就演变成为利用光学技术对文字和字符进行扫描识别,并将其转化为计算机内码。
根据资料记载,第一个OCR软件是在1957年开发的ERA(Electric Reading Automation)。它是基于窥视孔方法实现的,识别的速度是每秒120个英文字母。在此以后,世界范围内广泛地进行着OCR技术的研究和开发工作。从OCR技术的发展历程来看,可分为三个阶段:
第一阶段:第一代OCR产品出现于60年代初期,NCR公司、Farrington公司、IBM公司分别研制出了自己的OCR软件。最早的OCR产品应该是IBM公司的IBM1418。它只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。60年代末,日立公司和富士通公司也分别研制出各自的OCR产品。
第二阶段:第二代OCR产品是基于手写体字符的识别,前期只限于手写体数字的识别,从时间上来看,是60年代中期到70年代初期。IBM公司于1965年便在“纽约世界博览会”上展出了其OCR产品-IBM1287。第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后NEC公司也推出了同样的系统。到1974年,信函的分拣率达到92%~93%,并且广泛地应用在现实生活中,发挥着较好的作用。
第三阶段:第三代OCR产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别,例如汉字的识别。最先投入汉字识别研究的日本东芝公司,于1983年发布了其识别印刷体日文汉字的OCR系统-OCR-V595,其识别速度为每秒70~100个汉字,最高识别率达到99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作,经过不断改进,针对手写印刷体日文汉字的识别现在已经达到实际应用水平。
我国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究;70年代末开始进行汉字识别的研究;到1986年汉字识别的研究进入一个实质性阶段,取得了较大的成果。
二、中文OCR
进入信息社会后,计算机已经渗透到人们生活的方方面面,如何将大量的纸制文字信息快速准确地输入到计算机是我国实现信息化的一个技术"瓶颈",中文OCR系统使中文输入工作高速化、自动化及高准确度,为建立各种信息库提供了基础条件。我国政府从七五科技攻关计划开始到现在的863计划一直长期支持中文OCR的研发,是中文OCR技术进步的最重要推动力。从80年代中期开始,国内开始了中文OCR的研究热潮,到90年代中期,国内外共有10多家单位(包括汉王公司、国外的IBM、HP公司)相继推出了各自的中文OCR系统,达到可初步实用化的水平。
从中文OCR技术的发展来看,其研发与应用经历了如下几个阶段:
⑴印刷体单字体识别,支持国标一级汉字3755字、繁体5401字,简繁体和字体由用户指明,识别率在95%左右;
⑵印刷体多字体识别,支持国标一级汉字3755字,繁体5401字,简繁体由用户指明,宋仿楷黑四体混合识别,识别率在95%左右,对质量较差的印刷文稿的识别率会明显下降,印刷体表格的识别系统开始出现;
⑶多字体大字符集简繁混排、中英文混排识别,支持国标二级汉字6763字、繁体5401字、香港常用字等1万多字,识别字体扩充到常见的十多种字体,识别率在99%左右,对质量较差的印刷文稿的识别率有较强的适应性,脱机手写数字识别和印刷体表格识别系统进入实用化阶段;
⑷各种应用系统开始推出,如名片识别系统、汉王文本王、银行票据识别系统、增值税发票识别认证系统等。
但由于新世纪初中文OCR的识别率偏低,用户满意度低,几乎没有OCR的行业应用项目,随着国内信息化建设的进展,市场迫切需要解决多字体大字符集、中英文混排、简繁混排、表格识别的识别率和识别速度问题,版面的理解与还原问题,识别系统对各种应用需求的适应性问题以及用户使用的方便性问题。
三、汉王中文OCR
1、技术研究的总体思路
汉王中文OCR技术研究的总体思路是先突破关键技术,并采用软硬结合的方式,推进光电设备向专业应用发展,然后在零售市场、行业应用、技术授权方面面向用户推出实用化的应用系统。
(1)聚焦核心,突破关键技术
–超大类字符集识别
从识别特征选择与变换、分类器设计及集成等方面解决汉字多字体、大字符集的识别问题;
基于SVM的语言分类器区分中英文;
高精度脱机手写体汉字、数字识别;
–表格识别与还原
采用模糊直线拟合技术解决虚线、断线等问题。
–复杂背景、复杂版面分析的理解与还原
报纸、杂志、票据、名片、证照、信封等;
视频图像中复杂背景下文字搜索与识别;
–嵌入式OCR
克服空间小、CPU速度慢等条件的限制,实现在手机等移动终端中的应用。
(2)软硬结合,推进光电设备向专业应用发展
–用于增值税发票识别、银行票据识别等的高速扫描仪
–用于证照识别、名片识别等的专用小型扫描仪
–用于车牌号码识别的嵌入式摄像设备
–用于智能手机名片识别的摄像头改进
(3)多方推进,零售市场、行业应用、技术授权并举
–零售市场
文本王、名片通、OCR录入工厂(海量文献自动录入系统)
–行业应用
增值税发票识别、证照识别、银行票据识别、邮政地址识别、车牌号码识别、工业系统中OCR如:硅晶片OCR
–技术授权
OCR SDK、扫描仪OCR捆绑版、智能手机嵌入式OCR识别
2、应用系统
在上述核心技术取得突破的基础上,汉王针对不同的用户需求在零售市场、行业应用、技术授权方面开发了实用化的应用系统。
"汉王OCR表格文字识别系统" :该系统是汉王OCR为扫描仪捆绑销售定制的普及版本,市面上70%以上的扫描仪都配有该版本,比较常见的子版本有“汉王OCR5.0”、“汉王OCR6.0”、“尚书五号”、“尚书六号”、“尚书七号”,能识别简体二级字、繁体5401字和英文,可以处理彩色、灰度、二值图像,对普通的文档有很高的识别率,还具有版面还原功能,能满足普通办公与家庭用户的非专业录入需求。
“汉王名片通5.0”:精选掌上名片扫描仪,应用汉王OCR先进的版面分析、中英文识别技术,并采用基于几何结构知识以及语义知识加权组合的综合决策机制来理解名片信息项。系统能够自动扫描、识别、理解出名片中各条信息项,并将之输入到相应数据库中,输入速度可达每分钟10-15张名片。“汉王名片通5.0”同时还可以将名片资料发送到Outlook、Outlook Express等现有的名片管理软件中,并可以将名片信息发送到商务通、名人、快译通、Palm、WinCE等掌上电脑中。专家鉴定委员会认为:“汉王名片通”识别率高、使用方便、功能丰富实用,整体技术水平为国际领先,同意通过鉴定。新推出的“汉王名片通6.0”增加了名片多级目录的管理功能,并提高了英文名片信息理解的准确率。
“汉王复杂表格理解软件系统”:包括表格模板定义模块和表格识别模块,表格模板定义模块提供了灵活方便的界面,方便用户自定义各种表格模板;表格识别模块通过识别找到图像中的模板区域,按照模板的设置识别表格的填充内容,并将最终识别结果按照模板的设置有机地组织起来,便于进一步使用。表格模板定义模块和表格识别模块相互独立,通过模板文件互相关联。系统可以处理黑白、灰度、彩色图像文件,可以识别印刷体数字、印刷体汉字、自由手写体数字、大写金融数字、条形码等各种类型的内容。系统采用了模糊直线拟合技术,可以有效解决虚线、断线等问题;在表格识别算法中,利用表格线段的拓扑关系处理不同印刷批次之间的表格差异;在色彩提取时,采用色彩聚类法处理印刷或扫描造成的色彩偏差;在识别内容的预处理时,采用底纹分析法去除各种噪音的干扰;在手写金融数字的切分识别中,引入语义信息来指导切分,并针对手写体和印刷体分别采用不同的特征组合方法,集成多个核心来提高字符识别率和识别的可信度。此系统衍生出面向银行的“汉王银行票据识别系统”、面向金税工程的“汉王增值税发票识别认证系统”和面向金盾工程的“汉王OCR证照识别系统”,得到了很好的应用。
“汉王增值税发票识别认证系统”:<span lang="EN-US" style="FONT-SIZE: 15 LINE-HEIGHT: 150%; FONT-FAMILY: 仿宋_GB年项目组了解到国家金税工程中防伪税控认证工作费时费力后,经过多方面的考证与分析,率先提出了通过高速扫描仪扫描并识别税票的各项要素的识别方案,从而能自动完成税票的解密(通过金税卡)和比对工作,大幅度提高认证的速度和效率。经过采集大量的现场税票票据进行分析后,项目组克服了实际票据倾斜、噪声污染、位置偏差较大及部分发票发淡等困难,设计实现了增值税票内文字的提取算法和强噪声条件下小字符集高识别率识别核心,并在此技术上开发出“汉王增值税发票识别认证系统”。该系统能够适应市面上的几乎所有高速扫描仪和平板扫描仪扫描的税票图像,经实际测试对票面良好的增值税发票整张识别率在90%以上(每张发票上均有160个字符需要识别,整张识别率是指发票上160个字符全部识别正确的比率),识别速度2秒/张,能够满足大量票据的自动准确录入需求;2001年“汉王增值税发票识别认证系统”和汉王高速扫描仪中标国税总局24省市金税招标项目,到目前为止项目实施情况良好,每年录入发票超过亿张,目前面向企业应用的版本的销量也已超过1万套。
“汉王文本王”:2002年开发成功“汉王文本王2.0”,利用汉王OCR先进的版面分析、版面还原技术和中英文识别技术,率先实现了“一键OK识别输出到WORD”的全自动识别模式,2004开发成功“多字体大字符集汉字、表格识别方法与系统(汉王文本王4.5版)”,系统在解决中英文混排、简繁混排、表格分析等问题上的创新主要反映在:⑴采用多特征组合优化和多识别内核集成方法,在多字体大字符集汉字识别的识别率和速度方面取得了突破性进展;⑵实现了一种基于SVM的语言分类器,有效地支持了中英文混排识别;⑶提出了一种实用的表格分析方案,有效地解决了表格线粘连及断线等问题。经鉴定委员会专家测试组测试得出:系统对多字体、多字号、大字符集、简繁混排、中英文混排的识别率为99.57%。鉴定委员会一致认为,该系统在识别方法和技术上有创新和突破,识别率高,识别速度快,实用性强,有效解决了中英文混排、多字体混排识别问题,在中文印刷体的识别率和识别速度等主要性能指标上达到国际领先水平,并一致同意通过成果鉴定。
“汉王OCR录入工厂系统软件”:是结合强大的网络功能实现流水线方式的数据加工系统,由客户端程序和服务器端管理程序两部分组成,客户端程序按照扫描、图像预处理、版面分析、识别、纵校、横校和版面还原保存七道工序进行操作;服务器端管理程序自动给各岗位分配任务、进行任务协调,并加入了科学的质量控制、岗位管理功能,使各客户端的任务既相互独立又形成完整、高效的生产流程。实际应用表明,流水线平均每人每班次生产10万字以上,整体差错量控制在万分之一以内,比手工录入的速度提高了5-8倍,录入质量和效率同步大幅度增长,为信息化建设提供了强大的数据加工方案。专家鉴定委员会一致认为:“汉王OCR录入工厂系统软件”是比较完善的信息资源加工工具,对图书、文献等信息资料的数字化建设,具有十分重要的意义,“汉王OCR录入工厂系统软件”生产效率高,实用性好,整体技术水平达到国际领先,同意通过鉴定。
"汉王邮政地址识别系统":由于国内邮政编码使用不规范,基于邮政编码的信函分拣技术在国内遇到了很大的困难,该系统实现了结合邮政编码识别和地址识别的信函分拣解决方案,包括按照预处理,手写信函与印刷体信函分类,版面分析,邮政编码识别,地址行分割与单字切分,单字识别,地址与邮编校对几个步骤。采用基于概率子空间的两类分类器区分手写信函与印刷体信函,采用聚类法进行行分割,采用动态规划方法进行单字分割,采用多分类器集成的单字识别方法,采用统计语言模型提高地址识别正确率。
“汉王嵌入式OCR系统”:该系统采用曲线拟合的非线性归一化方法,然后融合梯度方向特征和外轮廓差分特征,在此基础上采用两层分类结构。第一层分类采用部分特征分类方法,第二层分类采用LVQ4方法来做识别模板类中心的微调。识别字符集为国标GB2312-1980的二级6763汉字、繁体5401汉字、香港常用汉字,数字和英文字符,识别字体包括宋体、仿宋体、楷体、黑体、圆体、隶书、隶变、魏碑、行楷、综艺等常见字体。识别核心占用空间1兆字节,识别率在98%以上,在100兆主频的CPU上,每秒钟能识别40-50个字符,基本解决了嵌入式系统中识别字典和识别速度所受到的限制问题。在此基础上,成功的开发了利用手机、数码相机等信息终端系统实现对文本的识别输入和名片的识别管理等功能。
3、实施效果
汉王经过多年艰苦的自主创新,在光学文字识别多项关键技术取得突破的同时,成功开发出多个面向行业及通用市场的产品,这些产品都成为名牌产品,市场份额均居领先地位,在办公自动化、银行、税务、数字图书馆、邮政分拣等行业得到了广泛应用,同时带动了扫描仪、智能手机等相关行业的发展。
汉王OCR的项目成果使我国的OCR技术及应用走到了世界的前列,尽管IBM、HP、日立、东芝、夏普、NEC、理光等国外公司曾经巨额投入该领域,但是汉王的技术领先性迫使他们退出了竞争。
汉王OCR的技术路线是先突破关键技术,同时重视软硬件的有机结合,然后面向用户推出实用化的应用系统。从实施效果来看,这种思路非常适合现阶段我国软件产业的现状,并为推动我国自主知识产权软件的发展壮大做了有益的探索。
四、汉王OCR与当前国内外同类技术的比较
目前从事汉字识别技术研究的单位主要在中国大陆和台湾、新加坡、美国等地,公司主要有汉王科技、北京文通、台湾蒙恬、台湾力新和新加坡热卡公司。汉王公司率先推出多字体大字符集简繁混识的识别核心,能够识别常见的十几种字体及其变体,识别字符集包括简体中文6763字、繁体中文5401字、香港常用字等1万多字,各种字体的识别率都在99%以上。
在2000年CHIP新电脑杂志组织的6款中文OCR的横向测试评比中“汉王OCR新世纪版”获得14个单项中的11项第一名、3项第二名和总分第一名的优异成绩,同时参加评测的还有市场上所有中文OCR。
2001年开发成功的“汉王名片通5.0”支持简繁混排的中文名片识别,同期其它中文名片识别系统(如蒙恬名片王、维优名片管家)不支持简繁混排识别。
汉王OCR的行业应用系统"汉王银行票据识别系统"、"汉王增值税发票识别认证系统"、"汉王OCR录入工厂软件系统"、“汉王OCR证照识别系统”,都在应用部门的技术评测中得到认可。
在嵌入式OCR研究中,简繁混识的多字体大字符集汉字识别核心的识别字典已能压缩至2M字节,2004年经过Nokia公司组织的竞争测试后赢得技术合作合同,参加测试的还有国内另一家公司和新加坡热卡公司。汉王嵌入式OCR技术在2005年又取得了新的突破,多字体大字符集汉字识别字典已能压缩至1M字节,并与Nokia签定了长达7年的合作合同,同时,采用汉王嵌入式OCR技术的LG手机也已开始上市销售。
& 汉王OCR技术的项目成果已累计实现销售收入近3亿元,汉王公司已成为国内外文字识别系统零售产品、行业应用和技术授权的主要提供商。
发表评论:
TA的最新馆藏[转]&[转]&[转]&[转]&[转]&涂书笔记用OCR技术来代替手写,在个人应用方面,笔记App引入OCR技术的前景在哪里?
目前OCR技术开始被用到笔记类App当中,我也在《最美应用》的推介当中看到过涂书笔记的介绍,但是对OCR技术来说,笔记App的应用并不普遍。所以我的疑问在于,在个人应用方面,还有其他的OCR技术应用吗?笔记类App引入OCR是必然的趋势吗?前景在哪里?如果有前景,涂书笔记这样的应用能促进OCR技术在个人应用领域的普及吗?
涂书笔记这个APP并不是最近推出的,我记得几个月之前在翻AppStore新品推荐时(作为互联网从业人品,这是必须)看到,当时APP介绍里面说到的,先拍照并手指涂抹,再行识别,让我脑补想到了刮刮乐,就下下来体验了。那就先说说体验,这是职业病。涂书笔记是百度出的手机APP,保持了百度APP一贯的简洁风格,产品的逻辑是先创建笔记本,再在笔记本里面通过拍照、涂抹、识别来快速创建笔记,并可手动编辑和分享。整个流程简单顺畅。有些做得不错的细节,也有做得不好的具体,举例子:拍照后涂抹真的会有把灰蒙蒙的照片部分擦白的感觉,真的像刮刮乐,很像小时候考试前拿着MARK笔画重点..很有趣,你知道,有趣是一个重要传播点。创建笔记本时会从预备好的书库中供选择,有网络小说也有实体书的数据,创建后自带封面。对于看实体书的我来讲,这个把实体书变为电子笔记收藏下来随身带着的体验真心不错。另外,储备了书籍数据库并天生记录了用户的读书信息这一点,让我猜测,未来如果基于这些做书籍推荐,是挺不错的。或许是把豆瓣读书,通过OCR识别技术来颠覆一把的另一种可能。也有非常大问题的细节:首页,新建入口居然在左上角而设置在右上角,这点违反所有APP的“新建实体”在右上角的规律,让我足足愣了5秒才反应过来。这个得改不过这些体验点其实都是细节,涂书笔记真正的价值在于,把用户从前需要辛苦手写或者手打的实体书中的笔记和书摘,拍照快速识别后收藏到手机和个人帐号里随身携带、随时同步。那么要做成就靠两个东西,一个是帐号体系,一个是识别效果。帐号体系上面,涂书笔记有一个竞争对手的优势很大,就是QQ阅读。QQ阅读是我一直使用的手机阅读产品,比涂书笔记多得多(当然主要是因为我看电子书比较多..)。它使用QQ帐号直接登录,很方便,为了方便同步书籍和进度,所以在众多阅读产品中留下它。这方面,涂书笔记的解决办法有点豁出去了的感觉,谁了解这个产品是百度哪个团队做的?居然在首页直接给出了微博/QQ的帐号直接登录入口,甚至排在百度帐号前面。看来该团队也是非常清楚弱势所在,很有魄力。反正我是直接用QQ帐号登录了。(PS:有当事人产品经理看到的话,麻烦快点接入微信登录啊,微信登录是我做的,有疑问可以私信我)又由于QQ阅读和涂书笔记一个定位电子书阅读和笔记(实际上笔记还不是核心功能),一个定位实体书笔记,所以涂书笔记还是有机会。然后是识别效果。用的是OCR识别(Optical
Character Recognition,光学字符识别),具体的技术细节我不太懂,但是涂书笔记的识别效果的确超出了我的预期,可以看看效果(本来想找一个我看《枪炮、病菌与钢铁》时候的笔记截图来看看,发现上面已经有很多截图了,就懒得找了)。这方面,脑补一下,涂抹这个动作,会不会即产生了产品上的有趣感,又在一定程度上提高了识别效果,如果的确如此,且产品经理是故意如此,就必须得说厉害了。涂书笔记我个人用了一段时间,虽然的确体验不错,但看实体书的时候,有的时候还是不习惯,或者会忘记可以拿起手机来记笔记,而是直接用笔划上了事。这方面的习惯扭转,还需多想想。说到最后,涂书笔记最让我惊讶的还是帐号体系上的取舍魄力,第一次见到一个产品把自己公司的帐号登录入口放在较弱优先级,看来百度的确是已经越来越深刻了解到痛楚。百度在移动互联网方面的各种尝试和布局,偶有值得注意的产品和亮点,但目前仍旧不太成功,已在BAT中相对落后,这个时候,百度在技术领域上深研后获得的优势,才能真正让自己获得关注和可能成功的机会。这一方面,之前有专门写过BAT三家公司在产品、技术、运营优先级和模式上的区别,有兴趣的同学可以看看,。OCR识别(和大数据),是目前可以看到的,百度花费巨额成本研究后,能够实例化为产品的不多案例了。大数据是容易理解的未来刚需,而OCR技术做的是把图片内字符识别出来,基本就是在移动互联网世界中的随拍随识别,是类似二维码一样,连通线下和线上的一种媒介(但比二维码的技术难度要高得太多)。如果百度在这方面有技术上的突破,从实体教科书领域涉足在线教育,从线下杂志领域涉足线下广告市场,从商超货架和商品包装盒涉足电商导流,都未尝没有可能。从这个角度来看,涂书笔记的意图,或许是百度OCR技术的锻炼场也说不定。
蟹妖。由于最美应用(再次感谢
老师的这款优秀的app)的推荐,我也用过一段时间涂书笔记。当然,我也用过很多其他的百度app。挂名百度云计算技术(北京)有限公司的产品,现在的app store上线的共有12个(截止时间:日),其中与市场上一线产品能够有典型性区别的,只有作业帮、涂书笔记、百度轻拍、百度移动统计和站长平台。正经谈得上具有实用性的,只有作业帮。其中涂书笔记和百度轻拍,都限于技术、应用环境和思路,有些流于话题性,渐渐淡出人们视线。百度轻拍和百度旗下的另一款页端识图产品,我印象中在4月份一度成为微博上的热门话题,但是并非是对技术的赞叹,而是对各种奇葩识别的会心一笑。有些类似于大家之前调戏siri和微软小冰。而涂书笔记,则没有自己兄弟产品的这样幸运,在小一些的范围内流传了一段时间,便有点略淡出大家的视野。之后的几次升级也变化不大。大型商业化的OCR工具,已经发展到了比较成熟的阶段,主要原因是人家器大活儿好,或者叫库大算法好。然而对OCR工具的需求,并没有达到人们的日常需求范围,还有大量的用户甚至连office的OCR部件都从未用过。轻量化和便捷性的OCR产品,与手机结合是比较好的产品思路。历史上最成功的OCR产品,叫做条码识别器。之后的微信扫一扫则正式把二维码推广到了中国大街小巷,但是在字符识别的OCR产品上,没有一个足够成熟的轻量化产品。不客气的说,百度的这个产品的设计考虑范围还是一个实验室产品,并不足够让他商业化。究其原因,是因为OCR的字符识别环境更复杂,需求更苛刻,远没有一维码和二维码那么简单。毕竟在移动端,不可能将过于庞大的库放在手机上,这会第一时间干掉你的绝大多数用户(想想iOS8开放升级后的欢闹),所以百度的解决办法是:联网OCR。这样做的好处是我们不必在手机上装一个过于庞大的客户端app,也便于推广。缺点是:费流量。通常我们对于OCR功能的考察,集中在几个方面:1、中英符号混排辨识能力;2、横排和竖排的自动辨识与切换能力;3、排版保留程度。1、对于中英混排识别的解决方法,百度的解决方案是:不解决。在拍照涂区时就让选择是中文还是英文。按照当初的一个笑话:siri实际是苹果雇佣了一群印度人在电话那头回应你的咨询。百度涂书笔记大概可以说是找了两群人帮你识别这图里的问题:小学毕业的过气职业打字员,和印度人——嗯,百度果然磅礴大气有深度,为这么一个不重要的app都能这样大投资呢。苹果分分钟跪碎膝盖。这样做的好处,是节省了在线的流量和服务器处理的线程数。坏处是:不好用。还有对符号的识别,涂书笔记并没有提供更精确的识别,在市面上的OCR类app中,这一项可以说基本排在中下游。(当然,这也一定程度上增强了容错——很多OCR类的app在辨认三个句号的时候,直接视同OOO)2、横排和竖排的自动辨识与切换百度的解决方案是:不解决。场景甚至在面对竖排的解析时,出过丢字的现象。所以,在涂书笔记新添书名的时候,我们并不能依靠OCR拍照解决,而是必须手输。3、对于新建一本涂书笔记,百度并没有良好的运用自己的本行——搜索。上图为涂书笔记新建笔记本时输入书名核心词汇时的搜索结果,和在京东输入的搜索结果(超过80本)。所以,涂书笔记添加新书的时候,我们被迫更多的使用二维码的找寻而不是用快速输入的方式。4、(这条有些吹毛求疵)对于非常见印刷体的辨认,OCR类软件通常会陷入“过复杂”的怪圈。涂书笔记同样有这样的问题。当然,这不重要——因为涂书笔记很少会遇到这样的使用情境。应用场景上,涂书笔记强调和主打的是便携,那么我们通常不会用在在家读书的情境,而是在外读书(图书馆借阅、书店蹭书、机场的士会所理发店阅读……),对于一个看书时会有想法的人来说,这款app算是一个精准的定位。学生和文字工作者是这款产品的主要受众。市面上的同类产品,在OCR应用的“虚实”转换上,还没有比这款产品做得更好更成熟——毕竟OCR产品轻量化是一个并不简单的技术。但还是要说:百度的涂书笔记现在只能说是一个好胚子,他们在OCR技术的轻量化和便携化上面迈出了自己的第一步。但是并不是所有的用户都是光源氏和孙文,我们对一个成熟的产品需求更多。包括对已有产品的连调使用,都还有些不够完善。 词典(非翻译)、繁简转换两个较为轻量化的功能添加,给涂书笔记增添了一点活力。但是面对最迫切的需求(高度辨识、符号辨识、内容格式辨识……),涂书笔记还有很长的路要走。
很巧,因为工作关系,此前去看了一下这款名为“涂书笔记”的App产品。这款App,从我的角度上来看,是一款游走在OCR识别工具与阅读、笔记工具之间的有想法的产品。想法是什么?想法是,既不把自己丢到OCR识别工具的竞争中,也不把自己丢到阅读、笔记类工具的竞争中。百度的“涂书笔记”其实我揣测是更倾向于去以教育市场为战场,去占领学生的笔记使用习惯,进而有可能尝试去串联文库、阅读,培养一个有想象空间的新市场。其实只要搜索一下(包括今年的百度大会,如果大家关注了的话),就会发现,百度对深度学习与机器学习、机器人、人机交互、3D视觉、异构计算、图像识别的领域是投入了研究力量的,甚至有专门的IDL团队()而在图像识别领域,百度自己提出的是:自然场景OCR。所谓自然场景OCR,我们可以举几例看一下百度是如何做的:1、
百度翻译拍摄即可标识出词汇:2、
涂书笔记3、
百度识图他们采用的方式都是:拍摄——涂抹(圈定)——识别——结果展示/存储如果单独看涂书笔记这款应用,其改进点还很多,比如:中英文混排的情况下识别结果非常糟糕、在线OCR不能离线所以会耗费流量,等等。我在这里不打算讨论目前涂书笔记的OCR引擎究竟做的如何,我只是打算讨论一下百度做这个应用或者这类应用的想法以及做这件事情本身的思路。百度的自然场景OCR的提法,其实是强化、细化了OCR的未来市场,并提示了未来百度在OCR领域的期许——在自然场景中普及OCR技术。粗看下来,百度目前至少有数个App是可以对应并解决自然场景的OCR需求的:百度翻译:拍摄图像后圈定识别,给出词汇,可以作为插件。百度识图:拍摄图像后圈定识别,给出相似图片搜索结果,可以作为插件。百度购物:可以使用百度识图插件,累积更多图片数据,增加比价的场景。百度商务助手:可以使用OCR插件,识别名片,管理商务人脉,类似应用有CamCard、经纬名片通、脉可寻。涂书笔记:拍摄文本后圈定识别后记录并归档,可以作为插件,提供给如百度阅读、91阅读助手等,整合笔记、文摘资源。百度传课:可以打通涂书笔记、作业帮,通用用户奖励积分,增加用户分享课件,整合教育资源。我们可以想象一下这样的场景:上课时,老师用PPT进行教学,打开涂书笔记,拍一下,记录下来。午饭,去了一家很牛逼用某种外语(自行脑补,比如德语,你可以认为是店主在德国待了几年,纯装逼)写菜单的饭店,拿出百度翻译,拍一下,知道菜名,点菜吃饭。下午和同学去逛街,看到几件衣服很漂亮,打开百度购物,咔嚓一下,应用百度识图的插件图像识别完直接给了个卖同款的店或者给了个线上比价结果。好了晚饭吃完,看场电影,打开百度爱电影(我乱说的,但很难说会不会有这玩意儿),拍海报,应用百度识图的插件识别出来是《后会无期么么哒》,直接看到了简介、影评、打分,顺便提示百度糯米上有这电影票的团购,下单买买买!回到寝室,打开涂书笔记,开始整理上课的PPT,顺手分享到了学霸群,累积积分去作为作业帮的习题帮助的悬赏或者百度传课上的某套习题集的答案(假设作业帮和传课有这个功能的话)。做完这一切,打开百度阅读看本小说,矮油,这个情节好羞羞,我调出涂书笔记插件,涂一下,存下来,下次慢慢看,回头再标注一下心得体会读后感(请忽略这段吧同学们,儿童不宜)。你觉得,怎么样?所谓自然场景OCR识别技术的想象空间,可以说非常巨大。从教育到商务,从生活到工作,可以使用的场景很多,可以满足的需求也很多,以搜索起家的百度,其实拥有最广泛的线上内容资源的入口,在移动端蓬勃发展的今天,单一的资源拿出来或许并没有什么太大的价值和壁垒,但是我一直认为,百度最有潜力的地方是在于它如何去整合这些分散的资源。自然场景OCR或许是一个方向,谁知道呢?在我看来,OCR只是术,如何整合出一个新市场才是道。
谢邀首先,我并未看过题主提到的《最美应用》,也并未使用过“涂书笔记”这款软件。所以难以对此进行有针对性的发言,在此表示歉意。OCR是一种“信息化”技术,其目的是将已存在的文本转化为计算机容易处理二进制字符,进而实现更好的检索、可视化以及语义理解。学界上个世纪五十年代开始针对可控环境下扫描文档的文字识别,现在已经取得了丰硕的研究成果。也将OCR技术成功地应用于很多领域。随着技术的成熟,科研人员的注意力转移到难度更大的场景文本识别(STR)。目前STR技术的研究还刚刚起步,很多关键问题没有解决。虽然已经有了一些应用,但并不完善。从应用前景上来看,STR(OCR)技术的应用前景是相当广阔的。准确地识别场景中的文字将给人们的生活带来很多便利。一个广泛采用的例子是将STR与机器翻译相结合,如境外旅游时,使用手机识别外文路标、导游图等。此外在图像检索中,基于场景文本内容的图像检索技术也是目前的研究热点之一,计算机视觉领域的重要会议如ICCV、CVPR等近几年都有文章发表。这些应用的前提都是有效地识别图像中包含的文字。具体到笔记类应用来说,其输入手段一般包括语音,图像,键盘三种。其中手写输入有着比较明确的优势:自由度高,适用范围广。缺点也很明确——由于图像是二维信息,难以进行检索和进一步处理。如果能够采用OCR技术(包括版面处理和文本分割)将其转换成二进制形式,将极大提高笔记类软件的方便程度,提高软件的可用性。因此很多笔记软件(我不知道是否可以使用大多数这个词)都尝试引入OCR技术来提高竞争力。总地来说,OCR技术获得更广泛的应用是个大趋势,但眼下还有很长的路要走
如果说单纯的OCR识别文字,无论是英文还是中文,现在效果都挺好的了。目前瓶颈在于符号的识别。还有如果符号不识别,如何将识别的文字和不识别的符号进行美观的排版。
我不知道ocr的应用前景如何。我只知道ocr到现在都没有应用!涂书笔记我用过,ocr效果下等,我不在乎这是个pc软件还是apk,只论效果而言,比office的差,比国产汉王,紫光差很多,比我本人常用的abbyy差出几条街。目前市面上所有的ocr产品我基本都用过,只能说是勉强够用(本回答所有ocr对象为纸质印刷品横排中文版),还需要进行大量的人工校对,也就比打字的效率高一点,远远没有达到二维码扫描的准确度,差个几十年的感觉。所以我认为ocr产品目前只是朝阳产业,处于做大蛋糕的阶段,还谈不上分蛋糕。另外,最后说下涂书笔记,ocr效果差,不值得用它做笔记,简单的还不如手打或者语音,而且涂的体验并不好,另外软件本身功能不全,在app中不如扫描全能王。
某原来搞过验证码识别,现在在单枪匹马制作一款ocr应用
目前的效果是双核core i5 cpu,
30*30分辨率 1500样本 100个纯汉字的识别率初步稳定在90%左右。耗时1000多秒 (说多都是泪) 100样本,100纯汉字识别率稳定在95-98%,耗时60秒左右。
目前正在解决识别标点和中英混排的功能1 中英混排是有办法的 ,可以使用动态切割,不断地调整切割方式,获取平均识别率最高的一种2 字库庞大也是有办法的,可以使用二级算法,粗匹配做减法,细匹配做精确识别3 剩下的5%也是有办法的,隐马型在手,天下我有
说出来也不怕。常用算法懂的人一大多,真正实现起来效果好的有几枚。
中文ocr主要问题还是字库太大,常用汉字就几千个字符,速度是问题
再来就是版面分析的问题;其实可以按照粗细,距离等特征对字符区域进行聚类。先分类,再识别。这个的难度其实更高,只是因为应用场景暂时局限在横排普通文本,所以暂时不突出。
现在市面上ocr产品物品做过一些测评。基本上是忽略了版面分析。旋转不变性也比较弱。再有就是不能多格式导出。图书笔记,扫描全能王基本都如此。abbyy测评过桌面版的,识别中文效果不错。不过中英混排也还是不行。
图书笔记ocr技术上是一个硬伤,市场定位也是一个硬伤。可能百度也就是一个试水性质的项目罢了。
从昨天开始,涂书笔记的OCR功能已经不能使用了。本人使用的是安卓版涂书笔记,是这款软件的深度依赖者,使用了整整两年,有将近五百条笔记……唉,有没有别的同类软件推荐啊?
说句题外话。不能批量导出笔记,根本不敢用啊。为什么不能以用户为中心开发app呢?
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 ocr的应用 的文章

 

随机推荐