知识产权情报 ---知识产权研究

基于多个检索词的专利在先技术检索结果的排序方法

供稿人:陆斌  供稿时间:2015-12-17   关键字:排序  专利  检索词  WPI  全文检索  摘要检索    
编者按:专利审查员和专利代理人在专利申请过程中,一般都要执行专利在先技术检索。如果专利在先技术检索产生几百个结果,且不能按照相关性排序,检索员的阅读工作量就非常大。针对这一问题,Alain Materne等人总结了一种由欧洲专利局(EPO)审查员使用的专利检索结果排序方法——Horváthe Materne排序方法,即枢轴排序pivot ranking,刊登于《World Patent Information》(2014.3)。该方法利用WPI摘要数据库对全文检索结果进行排序,以便让最相关文献出现在结果列表的前列,从而节约检索员的时间。本文简要介绍以上方法,以期供专利审查员、专利代理人、专利检索人员等参考。
1.概述

过去专利数据库在先技术检索通常只涉及某一CPC分类和单个检索词。例如,要检索在汽车意外落水时能自动解开的汽车安全带,涉及CPC分类B60R22/322(紧急情况下安全带的自动释放)与单个检索词“水”及其同义词。这个分类非常精确,检索员或专利审查员可以很容易地确定同义词(如:water, damp????, humidþ, moist????, river?, canal?,sea, lake?, harbo?r?, submerþ, immers???),并将获得一个不会产生太多噪音的完全搜索。检索词可以被CPC分类B60R2021/0016 (事故类型:落水)替代或额外添加。在这两种情况下,检索都很明确。

现在的在先技术检索往往比较复杂的。考虑图1中所示的例子(专利FR 2954611A1,Faurecia Intérieur Industrie),这是一种车内移动电话支架。当移动电话2放置于支架表面8,真空泵25抽出容器17 内的空气,以使容器17内的球20相互接触和形成固态硬块并夹住移动电话。在这个例子中可提取出四个检索词:支架holder,真空vacuum,移动电话mobile telephone和车辆vehicle。每个检索词的一些英文同义词如表1所示。

                 图1多检索词(车载移动电话的真空支架)

 

 

 

 

 

 

 


 

 

                     表1四个检索词的英文同义词 

同时检索法文和德文的同义词。理论上应当包括所有同义词,以免遗漏相关的文献,但显而易见,它们不可能非常精确的,会产生相当大的噪音。同时在这种情况下,检索员不能确定已经囊括所有同义词。多检索词检索的另一个难题是经常存在多个相关CPC分类,如表2所示。日本,中国和韩国的专利文献可能没有标注CPC分类,因此需要进行单独检索,例如使用相应的IPC或FI分类。鉴于这些问题,在检索最相关在先技术文献时,必须牢记:  

- 可能没有提到所有的检索词(例如,车内使用),或未采用所有同义词;

- 可能没选择最适用的CPC分类;

- 可能根本没有CPC分类(JP,CN,KR )。

 

                         表2可能的相关CPC分类

通常一个彻底的检索能产生多达1000份文献,几乎所有的文献是不相关的。在全部检索结果中筛选需要花费大量时间并且很乏味。而为了首先看到最优文献,这1000份文献需要排序。

2.什么是排序?

排序是对检索结果进行重组使得最相关信息能在列表中排在前列。基于不同的方法和标准,排序可以采取多种方式执行。简单地说,排序也可以这样定义:根据某一标准重新排列检索结果。事实证明,用于排序的标准是关键:如何排序对于最相关文献能否名列前茅会有很大的区别。以下是一些现有的排序标准。

2.1频率排序(出现率排序)

一种最简单的排序标准是检索词出现的次数(频率)。例如,在可释放安全带例子,检索到的文档可根据水或者水的同义词出现的频率排序。这种排序在欧专局内利用命令“..rank”就可执行,即统计高亮的检索词次数。对于单个检索词,这种排序可以获得可接受的结果。而应用于多个检索词时,将获得不可预知的后果,如下面的一个例子。

               表3多检索词的频率排序(虚构的例子)

 

参照表3中所示的模拟结果,即文件D2具有最高分(第1位),但只提到检索词3和检索词4各一次,有可能是在现有技术中进行了讨论。根据频率排序标准,D2将排在首位,虽然它是不相关的。可以根据文献篇幅补偿或者对特定检索词增加权重,但排序后的结果通常还不够理想。而且计算机处理的时间会很长。

2.2 Horváth排序(刻面排序facet ranking)

已在EPO成功应用十年之久的多检索词排序技术,是基于这样的假设:文献出现的检索词(由S. Ranganathan定义为“刻面”)越多,该文献相关的可能性更高。该排序技术在EPO审查员开发后也被命名为Horváth排序。检索结果通过检索词 “or”逻辑组合检索获得,然后将这些文献分配到不同的子集进行排序,第一位子集包含出现所有检索词的文献,下一位子集包含出现比前者少一个检索词的文献,依此类推,如图2中所示。欧专局有一脚本可用它生成布尔组合的集合。

 

                                  图2 Horváth排序(刻面排序)

  


因为这一排序不区别数据类型,这些检索词可以在全文、摘要或标题词、分类,或者组合中检索。Horváth认为刻面排序对文献容错性较高。即使某个检索词已经用其它方式表达,但适用文献仍可能出现某个较低级别的子集中,因此这种排序精度较高。在刻面排序中的不同子集也在某种程度上可用于新颖性和创造性的否定:缺失的检索词可能是显而易见的。

当某些特定的检索词需要在排序结果中强调,可以通过设置为“必要”输出在结果中。“必要”的检索词已不再定义为一个刻面,而被转换成“必要”的状态。

只要在刻面检索词的上方提供一个附加功能,“必要”的检索词的数量可以进行选择。它们的最大数量设置为可用刻面的数量。

2.2.1四个检索词的刻面排序:以真空支架为例

四个检索词首先分别应用搜索引擎,并根据语法和频率进行检查,防止在它们组合之前限定过死:

or holder, attachment, bracket

or vacuum, suction, (low w pressure)

or mobile, portable, phone, smart_phone, PDA, telephone

or vehicle, car, automobile, transport

随后刻面排序技术根据上升的精确性展开,从最少选择性到最多选择性检索:

or 1,2,3,4

or (and 1,2), (and 1,3), (and 1,4), (and 2,3), (and 2,4), (and 3,4)

or (and 1,2,3), (and 1,2,4), (and 1,3,4), (and 2,3,4)

and 1,2,3,4

这种相关度上升的排序方式在最后检索清单尾部获得的文献可迅速用于进一步组合和评论。也可以选择精确度和相关度下降的相反方向排序策略,从最多选择性到最少选择性检索:

and 1, 2, 3, 4

or (and 1,2,3), (and 1,2,4), (and 1,3,4), (and 2,3,4)

or (and 1,2), (and 1,3), (and 1,4), (and 2,3), (and 2,4), (and 3,4)

or 1,2,3,4

当第一个密切相关文献获得后,这次策略可用于加速整个检索过程,提前缩短组合过程。

除了“and”运算符外,可以使用位置运算符,如同一段落“p”和同一句子“s”,从而获得更多选择性组合。对刻面排序进一步修改可采用对检索词添加权重。例如将4设定为权重最高,检索词1-4权重从低到高排列,即1<2<3<4,也可以推导出子集检索也能根据权重排列:

and 1, 2 < .. < and 1, 4 < .. < and 3, 4

and 1, 2, 3 < .. < and 1, 3, 4 < .. < and 2, 3, 4

and 1, 2, 3, 4

理论上,几个运算符和权重可用于改善组合过程。

但在一些例子中,如表4展示的假设案例,刻面排序可能产生太少的结果(子集1),或者太多的结果(子集2-4)。

 

 表4 刻面排序记录

2.3刻面排序和频率排序组合

也可采用刻面和频率的组合排序:首先利用刻面排序产生各个子集,然后在各子集中执行频率排序。这些检索可以在标题、摘要或全文中执行。

2.4 EPO全文检索中的排序

EPO全文检索包括了排序的选项。它采用三种语言形式,全文文献根据限定位置检索词出现的次数来进行排序,之后执行一种位置刻面排序,在这里“and”运算符被2.2.1节所述的位置运算符替代。

3.Horváthe Materne排序,即枢轴排序pivot ranking

之前所述的排序方法在某些实例中被证明有用处,但还是在一些案例,特别是多检索词情况下存在问题。枢轴排序运行方式容易理解,避免复杂的数学加工。审查员不愿意依赖他们不能准确理解的检索方法。更重要的是,枢轴排序在工作中被证明是非常有效的。

枢轴排序在EPO作为申请过程的一部分XFR(表示跨文档排序Cross File Ranking)执行。它利用摘要数据库WPI作为杠杆对全文文献进行枢轴排序。它和其它排序方法最根本的不同:它假设发明构思的相关技术特征也会在摘要中出现,从而借用WPI摘要作为排序手段,达到一种杠杆效应。全文检索执行后,在摘要中存在目标关键词的文献,如果出现高频率的所有检索词,排名将更高。枢轴排序结合了全文检索高查全率和WPI摘要数据库受控词表高查准率双重优势。

3.1 L曲线

枢轴排序过程分为三个步骤:

1)在全文数据库中检索出包含所有检索词的文献。

2)对WPI摘要数据库中的这些文献执行刻面排序。

3)一旦目标检索词出现,对每个刻面子集实施频率排序。

整个排序过程可以用图3的L曲线图表示。

                          

                              图3 L曲线

将全文文献转移至WPI可以使用各种已知手段增加WPI排序各文献集的相关文献,特别是利用审查员引文和申请人参考文献来扩大起始文献集,或者利用采用类似专利权人和发明人等元数据获得的相关专利。一个小型起始文献集甚至可以在排序之前进行几次这样的迭代。通过在词库中匹配检索词也可以提供另外一种词汇拓展手段来发现包含不同同义词的相关文献。这些技巧可用于克服基于有限出发点获得文献的局限性,如特定词汇或分类。

3.2使用WPI的优势

比较其他摘要数据库,WPI摘要数据库存在以下优势:

1)包括所有技术领域的单个数据库;

2)英文作为单独语言;

3)单个公司(Thomson/Derwent)负责客观地撰写摘要;

4)词汇(受控词表)的一致性使得更容易比较文献,因为其避免了宽泛或冗长的表达;

5)WPI摘要侧重于同在先技术区别的构思;

6)数据全球覆盖(包括亚洲和新兴市场)且质量稳定;

7)比全文数据库更广的范围,包括更兼容的同族专利、二次出版物和译文。

3.3采用WPI进行枢轴排序的其它优势

枢轴排序简单但有效,它包括以下额外的优势:

1)基于WPI摘要数据库进行排序就无需对全文数据的规模提供任何补偿;

2)由于WPI摘要数据库中词汇通常代表相同意思或相同图形,基于WPI摘要数据库的枢轴排序暗含着位置算法,可以避免选中那些出现所有检索词但互相无关联的文献;

3)可以避免那些在全文中出现一个或多个不相关检索词的文献,比如出现在在先技术描述或检索词有其它意思(视频设备中的background和发明中的background),这是由于这些检索词不会出现在相应的摘要里。对应着章节标题的一些检索词是用于标示专利的内容。

这些特点能帮助解决全文数据库潜在的结构问题,比如没有设计附图索引和实施例索引,使得缺少区域分割。

3.4如何应用枢轴排序:以猫颈圈为例

EPO对于枢轴排序实施过程的描述是基于PCT专利WO00/00019展开的。选择这个例子的原因是易于理解,因为它是个相当简单的例子,其它检索策略也能快速获得不错的结果,但在普通技术领域里就不会这样。这个案例也说明即使采用次优检索策略也能在不大幅增加检索时间的情况下首先命中最相关文献。专利权利要求1为“一种适于食肉动物佩戴的声波装置,包括用于警报猎物动物存在发射声波信号的装置”。

以下检索策略(*指之前的检索状态)输入EPO主界面进行全文数据库检索:

英文全文检索策略:

or collar?, neckband?, neck_lace?;

* and (or attack+, bird+, hunt+, mice, mouse, pest+, predation+,

prey?, vermin+);

* and (or alarm+, alert+, scar+, signal+, warn+);

* and (or acousti+, audio, nois+, sonic+, sound);

* and (or cat?, dog?, pet?, (w domestic, animal?));

德文全文检索策略:

or halsband+, +krause+, +kragen+, manschette;

* and (or v?gel?, taube?, beute+, erbeute?, wellensit+);

* and (or alarm+, warn+, verscheuch+);

* and (or horbar??, audio+, gerausch+, akustisch+, schall+,

Ton+);

* and (or hund?, katze?, haustier??);

法文全文检索策略:

collier?;

* and (or oiseau?, souris);

* and (or alarm+, alert+, chass+, prev?en+, signal+);

* and (or bruit?, acousti+, audibl+, audio, son+);

* and (or chien???, chat???, anima+);

在这个例子中,没有加入分类限制条件。这是为了说明枢轴排序仅使用关键词获取相关文献的能力,而通常情况下,仅使用关键词会产生大量的噪音。这次检索共命中包含所有五个检索词的4972篇文献(图4)。

                                       图4 XFULL检索界面

 

 

 

 

 

 

 

 


 

 

图5 XFR排序界面

 

全文检索最后获得用于WPI检索和排序的相关交叉文档。在排序开始时,显示五个检索词的窗口如图5所示。右侧栏目“WPI sort”显示每个检索词在WPI出现的次数。这是为了帮助审查员识别是否哪个检索词含义太广,以便在需要时对检索词进行修改。在这个案例中没有进行修改。待排序文献集可以通过公开日给于限制,利用刻面数量缩减,或将文献量缩减到固定值。为了相同对待各个检索词,这里没有采用“Must”加权。检索词编辑器可通过索引查询、直接查询入口,三语言字典、EPO同义词卡片和分类数据库工具等方式,对每个单独关键词进一步给于补充。对同义词进一步的强化还可借助查询文档。截取值设定为50篇文献。排序在20秒后完成,输出列表根据刻面组排列(图6)。输出列表允许EPODOC获得的CPC分类同WPI记录联合起来,这样可利用这两个互补摘要数据库带来的附加值。

图6 浏览器输出信息

一旦WPI内的排序工作完成,采用传输功能在查看器Viewer内打开多个文献,里面的检索词自动高亮。可以看到展示的第一篇文献包含所有五个检索词,或能用于新颖性判定(图7)。

                                    图7 最高得分检索结果在查看器内的输出信息


第二篇文献也包含五个检索词。第三和第四篇文献都包含四个检索词。审查员只要点击下鼠标就可以获得检索概况(图8)。

 

                       图8 查看器内排序文献的概况

 

 

 

 

 

 

 


 

对本案例来说,如同许多实例,没有发现其它排序方法能够更有效地将相关文献和非相关文献分类。表5比较了枢轴排序XFR同另一种排序方法在相同全文检索执行完后的表现。

                      表5 排序方法直接对比

 

  

当采用XFR枢轴排序时,最相关文献排在第1位,而用另一种排序方法排在第20位,不用排序方法则排在第3022位。可以想象,这代表了在检索过程中时间的巨大节约。

                表6 分类限定后排序方法对比

如果对猫项圈检索用分类限定(A01M29/IC or A01K27/IC or G08B23/00/IC),结果显示在表6。

5和表6的对比说明分类结合关键词检索非常有效。在这两个案例中都说明了使用枢轴排序可节约大量时间。

3.5加速优化功能

虽然枢轴排序至少比其它排序方法快,但还可以使用一些技巧进一步加快这一速度:

1)如果在检索时提前设定一个范围,带频率的分类查询(见前述的WPI sort)能帮助保留更确定的较低权重特征而舍去非常宽泛的查询。

2)6个检索词就足够在WPI摘要数据库里进行快速枢轴排序。

3)限制列出和查看的文献数量到某个限值。

4)限定最确定刻面子集,因为枢轴排序基于刻面检索。

5)限定最早优先权日或申请日。

枢轴排序的快速允许根据需要进行迭代,比如根据WPI受控词表添加同义词和修改检索策略。

3.6技巧拓展

前面展示了检索词利用被检索文献摘要和全文二元性的证据,我们可以重新思考和设计我们的检索方法。全文检索需要缩小查询,并修改检索策略来减少命中数量。检索员利用说明书添加额外检索词。结果在全文检索使用的额外检索词容易命中长篇幅文献,并可能会遗漏其它文献。相反采用枢轴排序不必损失检索精度,甚至允许扩大检索。直接在WPI数据库定义范围并用WPI摘要排序,默认相关摘要也会带来全文中的相关结果,因此逐渐从枢轴排序转为摘要排序,回到之前的方法。

1)枢轴排序从某个范围开始检索并用很少的检索词排序文献。当只有2个或3个检索词可用时,就不必增加其它的。

2)枢轴排序可以从宽泛的分类限定开始,因此也可包括相邻领域。这在宽广范围情况被证明是有效地,因为相关在先技术可能属于很多不同的分类或者根本没有被分类。

3)由于刻面排序运行速度较快,我们能将它应用到整个WPI数据库,特别上下文检索允许采用确定检索词。

4)也可以在全文检索中使用刻面排序,但通常会导致在刻面次级子集内全文命中的文献数量过多。可以对每个子集文献用枢轴排序,从而获得全文刻面子集的枢轴排序。

5)另一种技巧拓展可采用在英文文献执行某分类下的正常全文本检索,而利用假位功能词获得在这一分类下的所有德文和法文文献。再转到WPI数据库的命中文献仅用英文策略排序。枢轴排序对上述结果中的德文和法文文献执行地非常好。

6)还有一种方法是在全文检索前先在WPI数据库中执行枢轴排序,将特征查询同范围查询区别开,并优先处理特征查询,从而在随后的全文检索中节约时间。

3.7非专利文献检索

最近摘要排序已能在BIOSIS、COMPENDEX、EMBASE、FSTA、INSPEC、MEDLINE等摘要数据库对非专利文献排序。首先需要通过在待检索技术领域内配有检索报告引文的包含所有摘要数据库的集合里查询来确定适合的数据库。随后在所确定数据库内执行检索前找出在所属领域中最经常使用的数据库。

更精确地,引文来源于收集着不同技术领域所有非专利文献引文的管理性数据库。非专利文献配置非专利文献参考号码。这些参考号码的格式类似于专利公开号,但不采用国家代码,而使用字母XP。目录数据库帮助在XP号码和每个非专利文献摘要数据库特定收录号之间建立对应关系。将所有XP号码和收录号发送到上述集合,使得所确定的数据库能更好地适应在给定技术领域中检索。集合经扩展也可包括其它非专利文献全文数据库。

4.结论

审查员负责获取最相关的在先技术,同时努力使用高效方法来达到这一目的。

枢轴排序方法充分利用EPO查看器内专利摘要和全文的双重数据结构。因此运用杠杆效应提供了一种简单的排序方法,增加了发现相关文献的几率,特别是在非确定分类内检索或者必须处理过多文献的时候。其它二元性组合也可以考虑用于专利排序,比如权利要求和全文组合。利用摘要和全文组合处理非专利文献预计也很有效。

在查看WPI摘要和全文文献之前利用WPI数据库进行排序的一个重要的优点是:结果列表首先显示包含检索词的摘要,随后的是检索词未出现在摘要但出现在全文的记录。不舍去任何一个检索结果,文献仅仅进行重新排列。这种展示综合了两种工作方法,一种是老审查员的摘要检索方法,另一种是新审查员的全文检索方法。

节约的时间被证明是非常显著的。枢轴排序对于技术领域选择或检索词选择中的不足比较宽容。必要时进行的检索迭代执行得更方便快速。

参考文献:

Methods of ranking search results for searches based on multiple search concepts carried out in multiple databases

Alain Materne, Gershom Sleightholme World Patent Information Volume 36, Issue1, March 2014, Pages 4–15


万方数字化期刊中相关文章
空间二叉树排序查找算法及其在网络游戏中的应用
作者:张渊|余小清|万旺根|
刊名:计算机应用
年:2007
卷:27
期:z1
摘要:在网络游戏服务器中,查找效率是影响服务器工作性能的一个关键性因素.首先分析了几个目前比较常用的查找方法,并在此基础上,结合网络游戏的特点,提出了一种以空间二叉树为索引表构成的索引表排序查找算法.它具有排序工作量低,查找速度快等特点,特别适合于网络游戏中的事件查找.实验结果表明,它比其他的一些传统查找方法在速度上有了近百倍的提高.

注册成为正式用户,登陆后,获得更多阅读功能与服务!
转载本文需经本平台书面授权,并注明出处:上海情报服务平台www.istis.sh.cn
了解更多信息,请联系我们

§ 请为这篇文章打分(5分为最好)