OCR算法技术侵权么?
OCR即(Optical Character Recognition,光学字符识别)是指电子设备检查纸上打印或环境内浮现的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。这项技术可应用场景极多,如拍照翻译、拍照取字词句、印刷品内文字提取编辑、点读、指读、自动朗读等。我们可以看到如百度、夸克、金山、网易等众多互联网公司都在自己的产品内应用了这项技术。通过技术,为广大用户提供了良好的体验价值。
经过多年的广泛实践,而今追求更高精准度的标准OCR技术开展已愈发离不开算法能力的提升和应用。算法尤其是经过模型化训练的算法对于复杂环境、场景中准确识别文字、准确呈现文字已具有不可替代的作用。OCR技术的行业门槛本身已相对较高,而在较高的门槛之上,体现不同服务者技术能力、体验优异差别的关键就在于各方算法模型的差异。
从行业目前的通行做法看,体验优异的算法模型离不开大量的文字标注及基于文字标注的算法训练,此为必需亦为惯例。标注、训练则依赖大量的文字载体作为训练素材。这里的文字载体可能包括出版物、可能包含印刷品、可能包含多种复杂文字呈现场景如照片、证件照、快递条形码、美术作品、横幅、手写文字等。在对上述内容、文字进行标注后,才可以进行算法训练,提取出相应载体的算法特征值数据。特征值可能包含文本特征及图像特征。基于已提取的特征值才可以形成完备的算法模型。
由此引出一个问题:如果用来做文字标注及算法训练的内容为著作权作品的载体,那在OCR技术的准备(文字标注、算法训练)及整个技术实现过程中,是否会侵犯作品的著作权?
这类问题可能出现在一些比较典型的场景下,如:针对视力障碍人士提供的、具有辅助朗读功能的OCR技术产品场景。
笔者认为:在此类场景下,虽然在OCR技术的准备及应用过程中存在对作品载体进行标注、提取特征值“存储”的行为,形式上似符合侵犯作品复制权和信息网络传播权的一般构成,但使用作品载体进行标注、算法训练具有目的正当性及实施必要性,且其实施手段在实质上并不符合著作权侵权的构成要件,其仅为中立的技术能力,因而并不具有侵权性。以下分析详述之:
1、OCR技术的实现过程:在技术实现过程中,使用者(用户)通过搭载了算法模型的OCR技术产品对需要即时OCR识别的载体场景进行识别检测(或扫描、拍摄后识别检测),算法模型将当前场景中的含文字图象与算法模型中的特征值进行实时比对,基于比对结果提取并反馈对应的文字、内容,将符合特征的文字进行圈选、框定及准确识别呈现。
2、技术准备(训练、标注)、实施过程疑似侵权点:准备过程中,作品的部分文本特征(含字、词、句、段特征)可能被作为特征值提取,在概念上似符合复制权的一般侵权特点。即将作品内容(特征值)以数据形式记录并存储于服务器中形成复制品。在实施过程中因检测到相似乃至相同特征时进行了内容反馈、呈现。从外观上似符合信息网络传播权的一般侵权特点。即允许公众可以在其个人选定的时间和地点获得作品。
3、不侵权性分析:从上述笔者的描述可看出,整个OCR的应用过程中技术实施是相对中立的,是为了将一切可识别的文字通过算法模型进行识别,而并非是为了提供作品本身,具有目的正当性。如果缺乏前述大量的文字标注和算法训练,则服务实际难以提供,或者服务出现大量错、漏及不稳定现象。从文字场景的丰富度看,作品类尤其是文学作品类载体(如小说、散文、诗歌等出版物)为文字场景最为丰富的素材,如不使用作品载体进行标注、训练则素材获取成本将极大提升。而在技术实际使用场景中,作品类载体(尤其是出版物)也通常是最高频的使用场景,如儿童读物、出版物中生僻字识别等。因此,使用作品载体进行标注、算法训练具有较高实施必要性。
同时,基于上述描述可知,虽然技术提供方在服务器中存储了“作品内容”,但并非以作品原本形式存储,而是以提取出的素材特征值(图像特征、文本特征)及基于特征值形成的算法模型形式存储,客观上并未形成观念意义上的作品复制件。且在实施过程中,服务产品所呈现出的文字内容是基于特征值的映照关系所产生,文字排列组合具有极大的不确定性,虽然对照原作品可以有一定概率完整还原、呈现原作品的全部内容,但呈现前提必须是使用者正在识别检测原作品的载体。即即使不依赖技术服务该使用者也已经获取了内容,同时文字呈现过程并不是对原作品作品内容的呈现,而是对原作品中每一个可拆分文字、语句、固定表达等的呈现,呈现何种内容仅依赖于被识别素材为何,实质上并不属于提供作品。
综上,针对于标准的OCR技术而言,使用作品载体进行标注、算法训练具有目的正当性及实施必要性,其实施手段在实质上不具有侵权性。
文章摘自网络,若有侵权,请联系删除