知识产权情报 ---知识产权研究

英语对专利检索人员的挑战

供稿人:陆斌  供稿时间:2015-12-17   关键字:专利检索  英语  语言  

英语是多国专利数据库中的通用语言。由于英语部分来源于日耳曼语,部分来源于拉丁文,是一种复杂和非逻辑性的语言,包含大量的词汇和无数的同义词,给专利检索人员在检索现有技术时带来许多问题。针对这一问题,《World Patent Information》2014年12月份期刊刊登了Stephen van Dulken撰写的一篇关于英语对于专利检索人员挑战的文章。该文列举了专利检索人员面对的英语语言问题:翻译的混乱;专利术语Patentese,专利代理人使用的行话;伪同源词faux amis,认为自己认识的外文词汇,但实际上含义不同;英文拼写问题;同一单词的多种含义;含有相反含义的单词;同义词;不同拼写和不同单词的美式英语;既是名词又是动词的单词;复合名词,经常写成两个单词;拼写错误;和语序。针对上述问题,作者建议在检索在先技术时,采用以下方式:使用宽泛的分类结合关键词;寻找同义词;考虑到复合名词的两个单词形式;使用位置算符;合并多个检索结果;使用引证检索作为额外的检索,特别是在命中记录少或发明难以描述的情况下。

以下是对该文的编译,内容包括英语语言问题及例子,以及如何处理这些问题。

一、英语语言问题及例子

1. 伪同源词faux amis

伪同源词是指认为自己认识的外文词汇,但实际上含义不同。在用外文检索和分析检索结果时会出现问题。

例如,法语中demander不是指强烈要求demand,而是指请求request;crayon是一种铅笔而不是一种蜡笔;raisin是葡萄grape而不是葡萄干(但pain aux raisins葡萄面包里含有葡萄干,而不是葡萄)。动词commander在法语中不是指命令command,而是用于按顺序放置食物或饮料。类似细微的差别对于英语是第二语言的人来说非常令人困惑的。

我们常常可以依靠上下文分析,但有时上下文关系仅在检索结果中清楚,而不是在检索词中时,这就会导致误检。这时我们就需要使用额外的检索词或分类,来帮助降低误检率。

2.机器翻译

其它伪同源词的例子发生在翻译资料时。在怀疑结果之前,错误已经发生而且不明显。下面是两个例子,一个是错误已经发生,另一个是错误被避免。

当意大利天文学家Schiaparelli在1877年一篇学术论文上说他观测到火星上有canali,几十年来说英语的人都认为他看到了运河canals,而不是意大利语canali的意思-真实的水渠。这个错误发生在意大利语到英语的翻译过程中。

当电影King Kong金刚(直译是一个名为刚的统治者)在丹麦上映时,翻成Kong King。这是对的,因为Kong在丹麦语中意味着统治者的意思。

在专利文献中,翻译更可能出现问题。在英俄机器翻译时,曾经发生过将hydraulic rams(液压油缸)翻译成water sheep(水羊)。

现在Espacenet的专利翻译比以前好的多。不过作者曾在一篇德文专利中发现两个关键词没有翻译,其它单词都翻译了。严格的说,一些词没有得到精确的翻译。例如常用词species在英语、法语和德语中的意思有细微的差别。

在检索时,作者更愿意利用付费数据库TotalPatent的翻译能力。该数据库会将检索词翻译成各种外语再进行全文检索,然后将相关检索结果翻译成英文展示。当然最好还是看最初用英语公开的文献。

3. 专利术语Patentese

学术作者希望他们的论文能被阅读和引用,而一些专利申请文件写的完全让人费解。它们的目的给出宽泛但又精确的权利要求,而标题、摘要和说明书采用相同的古怪行话来书写。这就是专利代理人使用的专利术语。

有个笑话是这样的:乐观主义者说杯子一半是满的,悲观主义者说杯子一半是空的,专利代理人则用另一种方式描述杯子。他们会说这是被液体水水平均分的开口圆柱体。

因此在建立检索策略时需要将专利术语考虑在内。杯子是一种饮用容器;多于一个可采用单词复数形式;回转件可用于描述球体;谷歌的无人驾驶汽车在专利文献中称为自动驾驶汽车autonomous car。事物可以不是互相紧挨着next to each other,而是邻近的adjacent(它包含在上或在下,以及在同一个平面上)。穿墙的洞hole是一个孔aperture(因为洞意味着墙壁上的凹陷depression)。

John Keogh的澳大利亚专利AU2001100012在2001年公开,摘要部分是这样写的:一种有利于运输货物和人的装置,特别地,该装置同圆形物体有关,使得这些货物和人能放置在一个平面上,可以在一个平行平面上同时移动。

Keogh是一个喜欢自己撰写申请文件的业余发明人,他认为对未审查专利申请文件的介绍是一个糟糕的主意,因此他采用这种方式保护他的发明-轮子。

WO2012/164139也是如此,它的英文标题(西班牙语标题词语类似)是这样写的:从腔中取出物品的装置,包括用于取出的袋子和涂药器。

Espacenet给出的主分类号是A61B17/446,其定义是助产钳子,不采用枢轴连接,例如采用真空手段。

该发明是关于从子宫中接生婴儿的。

4.专业术语

专业术语需要时间被社会认可,有时在早期比较流行但最终没被认可。新的概念要被认可会非常困难,因为一开始会有许多不同词汇在使用,直到一个或两个词汇被社会认可。

在1895年到1900年期间,美国和英国有80篇专利的标题包含汽车automobile(s),29篇包含不用马拉的马车horseless carriage(s)或horseless vehicle(s)。1901-1910年期间automobile(s)上升到1488篇,而含有单词horseless的只有11篇,最后一篇是在1904年申请。

专业术语变化更慢的发生在航空领域。1900-1909年期间,有175篇美国专利涉及各种各样的飞行器。标题中常用的词语包括: flying machine74次; aeroplane(s) 28次; air ship(s) 17次;和aerial vessel(s) 12次。其它还有三十个不同词汇,aerodrome (现在的意思是航空站airport的旧称), aerial wheel, aerial craft, wind motor, aeronautic apparatus, aerodart, aeromotor 和aerial top。aircraft在1914年才首次使用,airplane则要到1919年才出现(Glenn Curtiss的专利US1296770)。

英国专利中aircraft出现在标题是在1912年(德国人申请的专利GB1912/17249)。标题为飞机车库的改进。Airplane在1918年出现。

这两个单词为至高点斗争了很长时间。现在aircraft(还有航空器的意思)在专利中出现的更多,因为它的应用范围比airplane更广。

还有自行车bicycle的例子。1893-1900年期间美国和英国专利名称中出现了2239次,velocipede(s)也没落后多少,有1732次,占总数的43%。1901-1910年期间velocipede(s)减少到440,仅占26%。但这个古老的词汇(源于法语fast feet)仍然顽固地存在,在1990-2013年期间还在美国或英国的专利里出现了16次。Cycle有时也用于描绘自行车bicycle,比较隐蔽,而且容易与化工中的循环混淆。

5.相同的发音,不同的拼写

英文的发音通常与单词的拼写无关,经常一个或两个元音改变了,而发音没有改变。比如plain和plane,fair和fare,lead和led(这就非常容易拼写错误)。还有些首字母不同但英式发音相同的例子,如air和heir,cede和seed,rote和wrote,way、weigh和whey。

很多不同拼写的单词发音相似,很容易造成拼写错误。如果仅仅靠听单词,就可能拼写错误,哪怕知道这个单词易于拼写错误。

看看ough的发音,有人去学习如何说英语,会发现though发成“row”,而through为“rue”。当碰到rough,和前两者发音都不相同,发“uff”。Bough带有“ow”的发音,cough是“off”。还有dough,thorough,thought,lough(发“loch”音)……据说“ough”有十七种不同的发音。

其它奇特的地方还有结盟align不同于线line;避免avoid不同于空隙void;烧着的alight不同于灯light。突破breakthrough意味着你在你的研究领域中取得意义深远的发现,但你能冲破break through一堵墙。

更大的问题出现在inflammable和flammable。它们都有易燃的意思。但“in”前缀在英语中通常意味着“不”,如无效invalid和有效valid。2000版Collins Dictionary & Thesaurus中,有关flammable的用法写着“通常用于警告标志”避免可能的误解。该用法实际上比inflammable更有用,因为字典指示人们该这样使用。

6.相同的词汇,不同的含义

一些单词拼写相同,但有不同的意思。这些意思有时是相关的,但经常不相关。作者工作中碰到最麻烦的是单词light,有照明或重量小的意思。经常会被要求检索中带有易携带的意思,这意味着light应该包括在检索词。相似地,作者曾被要求检索非杯子的饮用容器,因此不能使用glass作为容器的同义词。

其它奇特的单词还有:oil可以是汽油,也可以浇在食物上;plane可以是飞机,也可以是水平面;cycle可以是自行车,也可以是循环。

幸运的是上下文可用于区别上述含义,因此采用分类和添加检索词会有帮助。当然有时还会出现问题,比如gas在美国可作为石油petroleum,气化燃料,或者各种蒸汽使用。Right意味着正确或者在右手方向。Next意味着下一个或者邻近的。Oil well明显存有石油,而well没有上下文的话,通常指水井。同样在石油领域,Christmas tree意味着泵油装置而不是12月25日的庆祝活动用品。

7.单词的相反意思

一些单词具有相反的两种含义。Dike表示壕沟或者堤坝。To cleave表示分开或者粘住。Let现在意味着允许,但几个世纪之前意味着阻止某些事情(英国护照仍然写着用户在没有阻止或障碍物的情况下“without let or hindrance”通过。)

8.同义词

英语来源于日耳曼语,但又吸收了很多诺曼法语的单词,此外美式英语也添加了很多单词。因此经常会有很多单词可以用来描述一个东西或者一种行为,如扣紧或发送信号。由亚洲的专利局提供的大量英文摘要也有相同效果,如果他们比较喜欢某种语法。象TotalPatent这样的数据库,在检索运行后会提示相关的同义词,这点很有用处。

这里有一个真实的案例,来自GB221883A的摘要部分,“圆珠笔的安全帽”,在1989年公开。它在帽子的末端有一个孔。具体为:圆珠笔的帽子包括切去顶端的truncated末端,用一个孔aperture穿透。该孔提供一个空气通道,在安全帽被吞咽后停留在喉咙时用于呼吸。

摘要描述的挺清楚,但没有提到可能会帮助理解的词-儿童。摘要也可以用其它词汇描述:一种书写工具,在其书写端处安装有一穿透的帽子,使得儿童呛住时仍能呼吸。

这也描述的很清楚,两段摘要唯一共享的重要词汇是cap,但和笔pen不是明显相关。只有结合pen的同义词或正确的分类,检索才更有效率。

对Espacenet 2000-2013年期间专利分类号为B43K7/00(圆珠笔ball point pens)的公开专利名称进行统计(考虑复数),其中 6个pen同义词的出现了2051次(见下表)。

表1 pen同义词出现次数的分布

 

 

 


 

作者在建议检索策略通常的做法是:首先在Roget's Thesaurus(可在网上免费查询)查找同义词,然后再在Espacenet利用严格定义的分类进行初步检索,来发现文献会使用哪些词汇。当然在继续检索时,需要调整策略。Wikipedia经常能利用相关技术主题的文章帮助脱离困境,因为它会给出行业中常用词汇,包括美式英语。

9.美式英语:不同的拼写

存在很多不同拼写的例子,经常只有相同行业的人员才会知道。出现频率最高的两个变体是tire和tyre,program和programme。后缀经常在-re和-er结尾之间变化,英国在单词中插入“u”很普遍,如vapour。Sulfur和sulphur的区别也古怪。在美国专利文献中,有时也会出现英国拼写,哪怕它来自美国申请人。假设一些审查员没有改变拼写,那是因为他们接受这种变体。

在Espacenet内1980-2013年期间的专利标题中检索color*/colour*或者flavor*/flavour*。美式变体占美国专利标题的96%;77%的PCT申请和67%的欧专局公开文献。

10.美式英语:不同的单词

当然这有很多的例子。比如(美式在前):帽hood和bonnet,汽车行李箱trunk和boot,停车场parking lot和car park,橡皮rubber和eraser,手机cell phone和mobile phone,汽油gasoline(或gas)和petrol,电梯elevator和lift,人行道sidewalk和pavement。

有时这些差别会在专利检索中带来特别的麻烦,因为无法理解不同的含义。这里有一些例子。

用于帮助司机观察其它车辆的车外镜子,在美国称为rear view,而在英国称为wing mirror。但wing mirror在美国意味着安装在车内的镜子。在英国handbag是指由妇女携带的大包,而purse是用来装硬币的小包。在美国purse是指大包,change purse则是小包。在英国Subway是指人行地道,而不是快速交通系统。

英式和美式英语中使用不同拼写和不同单词的方言会产生问题,因为有时检索人员不会意识到所用单词会截然不同。利用分类号经常能显示这些用语,从而可以将它们添加到检索策略中。

11.既是名词又是动词的单词

英语中有很多单词既是名词又是动词,其它的含义不一定很清楚,例如oil, driver, dye,ground, train, can, rifle, down, back, store, cook。不同的含义会影响检索结果。额外添加分类号或其它检索词,通常能解决这个问题,但也不总是这样。Take to ship或shipping都可意味着要么是与船有关,要么在同船无关的情况下,是指将行李搬上火车或货车。

12.复合名词:一个或两个单词?

判断复合名词拼写成一个或两个单词可能是一个大问题。2000-2013年期间Espacenet公开的专利标题中(考虑复数),wheelchair而不是wheel chair占两者出现次数总数的83%,timepiece而不是time piece占两者出现次数总数的95%,skylight而不是sky light占两者出现次数总数的97%。而从表1可以看出,ball point比ballpoint出现的次数多。连字符“-”没有作用,一般会被数据库认作是空格,而成为两个单独的单词。因此在两个单词看上去象复合名词时,应该要考虑两种形式检索词。

13.拼写错误

这种情况包括检索员自己键入错误会存在一定问题,但在公开文献中还是一个小问题。2000-2013年期间peice(s)在Espacenet标题中仅出现9次。Dairy produce出现5次,diary produce只在一篇俄国摘要中出现。这样的拼写错误也出现在英文专利文献中。1920-2013年期间美国专利名称中出现过26次gold club(s)(golf club出现次数为9094)。QWERTY键盘上d和f彼此相邻,所以它们很容易敲错。

当然有时拼写错误对一次检索来说很重要,stationery(文具)和stationary(固定的)经常混淆。

Espacenet的政策是在拼写错误出现在原始公开文献中,是不去纠正的。只有专利局才会要求作出更正。

15.语序

单词顺序很少成为问题,因为很少有检索特别运用长词组。通常检索两个单词组成的词组就够充分了。搜索3个单词之内单词的位置算符比较理想,可以覆盖“of the”等情况。

二、结论

英语是一种庞大又非逻辑的语言,因此不存在解决全部上述各种问题的答案。这些问题既影响将英语当做第二语言的人,也影响母语是英语的人。

以下是作者对改善文本检索准确性的建议:

1.执行初步检索来确定同义词或近义词、以及可能使用的专利术语,是很有必要的。除了专利文献,也可以使用Wikipedia和Roget's Thesaurus。贸易术语如Velcro®也可以添加(如果客户要求的话)。

2.TotalPatent能够在检索后自动提供相关同义词,这类数据库非常有用。

3.对于复合名词,应当同时考虑两个单词和一个单词两种形式。

4.对于动词变形和名词的复数形态要考虑使用截止符。

5.只有在多个单词相邻出现时,使用位置算符检索才有意义。

6.依赖词组或使用停用词“stop words”是危险的,使用时需更加谨慎。

7.使用分类也非常重要。最好是使用宽泛的词语结合确切的分类,以及限制性的词语结合宽泛的分类,然后将命中记录合并分析。

8.准备复核检索结果和检索策略,因为遗漏的记录会披露有用的词汇。

9.有时语言不是唯一的手段。当仅仅发现很少的相关文献,或者发明很难描述时,应该尝试在Espacenet上执行引用检索。通过前引和后引检索从高度相关文献内发现有哪些专利文献,特别是那些X类、Y类文献,以及诸如GB、EP和WO同族专利。

 

参考文献:

Do you know English? The challenge of the English language for patent searchers

World Patent Information Volume 39, December 2014, Pages 35–40


注册成为正式用户,登陆后,获得更多阅读功能与服务!
转载本文需经本平台书面授权,并注明出处:上海情报服务平台www.istis.sh.cn
了解更多信息,请联系我们

§ 请为这篇文章打分(5分为最好)