Thomson Data Analyzer专利分析软件简介
Thomson Data Analyzer(TDA)是美国Thomson公司开发的专利分析工具,是Derwent Analytics的第二代产品。通过该软件可以对专利数据进行深度挖掘并展开可视化分析。TDA具有自动化程度高、界面友好、直观的特点,提供一种轻松的方法从Derwent世界专利索引和专利引文数据库中的原始数据中挖掘出游有用信息,为洞察技术发展趋势、掌握竞争对手的专利发展情况、找出多产的专利发明人及其供职的公司、发现行业近年新出现的技术、确定研究战略和发展方向等方面提供有价值的依据。
主要特点包括:
1、数据整理:数据分析的结果首先取决于数据的准确性与完整性:例如将已经合并的两家专利申请企业的专利清理、组合成一家合并后企业的总专利清单;
2、比较矩阵:将两种不同类型的数据生成比较矩阵,借此发现两种不同类型数据间内在的相互关系。例如将专利权属人(一般是公司)与专利发明人之间生成关系矩阵,了解同一个专利发明人是否曾经为多家公司做过专利发明;
3、数据图谱:将大量的数据汇总进行各种分析(如聚类分析、趋势分析等)并以二维和三维的方式图示的形式表示出来;
4、自动汇总:会初步自动汇总、分析所输入的数据,按照不同的侧面分类快速显示所汇总的数据,初步给用户一个发展趋势的概况;
5、除了以上的一些简单的分析工具外,还具有更加复杂的分析功能,这些复杂的分析功能是通过预置在软件中的多个分析模块完成的。
TDA应用研究:数据整理过程中自动和手工的结合
数据整理(clean)是专利分析过程中最为重要的一个步骤。专利数据中,由于标引的不一致、输入的错误、发明人缩写的不同写法、申请人(主要为企业)的不同表达等因素,造成同样一个发明人、一个企业名称或同样一个分类号往往会有很多不同的表达方式。
例如:发明人KIM J S和KIM S J实际上是同一个人,而VANKSLYKE S A和SLYKE V S A也是同一个发明人;
申请人AU OPTRONICS CO LTD与AU OPTRONICS、AU OPTRONICS CORP是同一家公司的不同写法;
国际专利分类C01L-101/00和C01L-101:00显然也是同一个分类。
如果这些数据不加以整理、合并的话,统计时就会发生巨大的误差,进而会影响到整个专利分析结果的准确性。因此,在专利分析前,先对数据进行整理是十分必要的。
而单纯使用手工方式,很难找到和找全同一名称的不同写法。好在TDA软件提供了一种自动整理的功能即TDA提供的第一个宏。我们只需点击一个按钮,整理工作可以自动完成。整理的字段包括发明人、申请人(企业和个人)、国际专利分类号、Derwent分类等。
然而使用中,发现自动整理在进行申请人整理的过程中会出现差错,主要体现在:如果申请人为个人时,软件会将一些不同的人名进行归并。如图1中,TDA将LEE H、LEE H H、LEE H N、LEE K、LEE K H、LEE M、LEE M H、LEE S统统归入LEE S中,而实际上应该为8个不同的人名。究其原因,可能是因为在申请人字段的整理中,TDA用的是寻找相同企业的算法,而这种算法对人名会产生误判。

图1、发明人的手工数据整理 (TDA分析结果,上海情报服务平台所绘制)
找到了错误,接下去是如何纠正错误。这就需要结合手工的方式。在Patent Assignees字段中,执行list cleanup,出现图1中的画面,此时可以选中出现错误的地方,如LEE S,直接删除组即可。在使用中,还发现TDA会把个别不相关的公司归入某个公司的组中,同样的方法,可以手工删除。这里的删除只是取消组合,不会破坏原始的数据,同时TDA会将合并的结果以另外一个字段名来表达。这样,我们通过自动整理和手工整理方式相结合,修正了一个对分析结果会发生重大影响的错误。
技术领域分析
TDA应用研究:IPC小组不适用于技术领域的分析,使用大组较为理想
在使用TDA进行IPC分析中发现,虽然TDA的技术领域分析(宏7)中使用的是IPC小组(完整的IPC分类号)进行分析,同时TDA并不提供大组字段。但笔者认为小组不适用于技术领域的分析,一方面小组代表某项技术或技术细节,无法体现技术领域;另一方面,使用小组分析,其分析结果往往会无法解释。以图1为例,我们可以比较清楚地发现其中的原因。

图1、OLED 领域IPC排序(TDA分析结果,上海情报服务平台所绘制)
图1为对OLED产业IPC分类号的排序,目的是寻找OLED行业中热门的技术领域。图中列出了OLED产业排名前20位的IPC分类号。从标黑的部分中,我们可以看到有8个IPC分类号,这些分类均属于同一个大组—H05B-033/00。
|
分类号
|
注释
|
|
H05B
|
电热;其它类目不包括的电照明
|
|
...
|
|
33/00
|
场致发光光源(放电灯入H01J61/00至65/00;适用于光发射的至少有一个特定跃变势垒或表面势垒的半导体器件入H01L33/00;组成成分本身见有关小类)〔7〕
|
|
33/02
|
·零部件
|
|
33/04
|
··密封装置
|
|
33/06
|
··电极端接头
|
|
33/08
|
··并非适用于一种特殊应用的电路装置
|
|
33/10
|
·专门适用于制造场致发光光源的设备或方法
|
|
33/12
|
·实质上有两维辐射表面的光源
|
|
33/14
|
··以场致发光材料的化学成分或物理组成或其配置为特征的
|
|
33/18
|
··以其激活剂的性质或浓度为特征的
|
|
33/20
|
··以嵌入场致发光材料的原料的化学成分或物理组成或其配置为特征的
|
|
33/22
|
··以辅助介电层或反射层的化学成份或物理组成或其配置为特征的
|
|
33/24
|
···金属反射层的(33/26优先)
|
|
33/26
|
··以用作电极的导电材料的成份或配置为特征的
|
|
...
|
表1、IPC分类表(部分)(TDA分析结果,上海情报服务平台所绘制)
这时问题出现了:这8个IPC分类中,存在着从属关系,对照IPC分类表(表1),我们还可以发现,H05B-033/02小组为H05B-033/04小组上位类;H05B-033/12小组为H05B-033/14、H05B-033/22、H05B-033/26小组的上位类。这种大组小组混排,而且小组中还存在从属关系的情况,不利于专利分析,分析的结果也是没有意义的。如果将IPC分析的对象更换为大组,问题就迎刃而解了。
使用大组进行分析有两个优点:1、大组既不像小类这么宽泛,也不像小组这么细微,大组代表了一组技术,与技术领域分析相呼应;2、大组间并不存在从属关系。一个问题解决了,但又出现了新的问题。TDA并没有提供大组这个字段。那么能不能将小组命中的专利数简单相加呢?答案是否定的,因为每件专利中的IPC字段可能包含多个IPC分类号,因此几个IPC分类数目相加的结果通常小于各自相加之和。那么如何去创建一个大组字段呢?
创建大组字段,我们仍是使用TDA的整理功能(clean)。
步骤一,在International Classifications(main)字段中, 选择list cleanup,并选general.fuz为数据整理算法,然后按accept确认。此步骤目的是合并IPC分类的不同标引方式,如图2中将C08L-101/00和C08L-101:00合并成C08L-101/00。按accept按钮确认合并。

图2、合并IPC分类的不同标引(TDA分析结果,上海情报服务平台所绘制)
步骤二,步骤一产生的结果为International Classifications(main)(cleaned)字段,步骤二在这个字段基础上进行,首先,还是执行list cleanup,仍选择general.fuz为数据整理算法。在左上角Display选项中, 选择all items列出所有IPC分类号。然后点击Item Name将IPC分类号排序为升序如图3所示。最后,将选择好的同一个小组合并入大组中,如图3中的A47G-001/00、02两个分类合并到A47G-001/00大组中。同样道理,将表中的所有小组进行合并,然后按accept按钮确认合并。这样,大组的字段创建成功。

图3、合并IPC小组到大组(TDA分析结果,上海情报服务平台所绘制)
相关链接:
汤姆森公司简介:
汤姆森公司(http://www.thomson.com)为商务和专业客户提供综合信息解决方案,2004年全年营业收入81亿美元,居全球领先地位。汤姆森为全球法律、税务、财会、金融、高等教育、参考资料、企业数码学习和评估、科学研究和医疗卫生等领域的二千多万用户提供高增值信息、软件工具和应用程序。汤姆森总部位于美国康涅狄格州的史丹福市,在全球拥有约38,000名员工,为约130个国家的用户提供服务。公司在纽约股票交易所和多伦多股票交易所上市(NYSE:TOC;TSX: TOC)。
参考文献:
1、Thomson Data Analyzer
|
|
|
|