检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业竞争情报竞争情报

基于LDA-Louvain的期刊分类方法研究——以智慧农业领域为例(分析部分)

供稿人:苏惠京供稿时间:2024-07-18 10:20:04关键词:智慧农业,LDA,期刊分析

1、分析思路

本文提供一种期刊分类的方法:基于期刊的摘要数据,经过数据预处理后,利用LDA主题分析模型进行分析,得出初步的主题分类。然后基于期刊的关键词数据,经过数据预处理后,构建期刊间的节点与边的关系,利用LDA的分析结果来修正边的权重数值,最后利用Louvain方法进行分类分析。不同方法的分类结果与专家人工打标后的数据进行匹配,进行最终的效果评估。具体的研究框架如下图所示。主要包括:数据集建立及预处理、LDA主题分析、Louvain社区分类分析、效果评估。


本文以“智慧农业”为主题进行期刊分析,在CNKI的期刊库中以关键词字段限定为“智慧农业”检索所有期刊,截至2023713日共检索出2427篇相关期刊。包含标题、关键词、摘要、作者、机构、发表时间等字段。剔除了部分与主题不相关的期刊,最终进入分析的期刊总数为2421篇。

对期刊摘要的数据处理包括建立用户自定义字典、分词、去除停用词。用户自定义字典主要是来自于搜狗农业词库加上常用农业词汇,分词使用的是Pythonjieba分词,停用词使用的是自定义停用词库。

对期刊关键词的数据处理包括去除停用词、同义词合并。关键词字段的停用词与摘要部分的不同,指的是意义不明晰、不利于关联关系的生成的关键词。例如由于我们筛选的限定,期刊的关键词均含有“智慧农业”。因此“智慧农业”被视为停用词需要排除,否则每篇文章都有关联关系。另外也需要剔除意义不大的一些词汇。同义词合并的目的是让主题接近的文章能够识别出关联关系,例如“农业物联网技术和“农业物联网”可以合并为同一个词汇来生成关联关系。

由于期刊的摘要逻辑较为清晰、且一般使用较长文本描述文章的主题。因此,本文首先使用LDA主题分析对摘要部分进行主题分类,使用Topic numbers-LogLikelihood曲线确定主题数量。最后进行主题分类及每个主题高频词展现。

传统通过社区网络发现进行文献分类的方法大部分是基于引文与被引的关系,然而不同文献之间具有相同引用文献或者被引的概率相对较低,导致网络的边比较稀疏。本文主要是针对智慧农业领域的期刊进行分类。同一领域内,如果期刊关键词(非常规关键词)有重复,那么期刊的研究内容有很大的概率是相似的,并且重复的关键词越多,两篇文章的关联性越大。考虑到可能有些文章的关键词描述并不精准,LDA的主题分类结果对网络边的权重有调整优化的作用。最后,根据调整好的网络边权重使用Louvain算法进行最终的期刊分类。

Michael Röder2015年提出主题连贯度(Topic Coherence)指标,主要用来评估主题分类的质量。主题连贯度的取值区间为[0,1],值越大说明主题分类的效果越好。

此外,本文对随机抽样的300条期刊记录进行人工打标,用来评估主题分类的效果。最终对LDA主题分析的分类结果、Louvain网络发现的分类结果与LDA-Louvain结合的分类结果进行对比分析。

2、 实证研究

2.1 LDA主题分析

基于期刊摘要的内容,使用Python3jieba进行分词,并去除部分意义不大的停用词,最终获得每篇文档对应不同词向量的词袋模型。下图是主题数量与对数似然值(Topic Numbers Vs. Log Likelihood)的关系图,根据Parisa Moslehi等人的理论最优主题数量是由对数似然值对应的“拐点”决定的,下图在主题数量为10左右出现了拐点,因此LDA的主题数量选择为10

通过下表可以看出LDA可以分为6个大类主题:宏观战略+对策(包含Topic0Topic2Topic4Topic9)、智慧农场+智慧信息平台(Topic8)、智能农机公司+企业(包含Topic1Topic5)、物联网+传感器(Topic6)、农业大数据+算法识别(Topic3)、人才培养+教育(Topic7)。

大类

小类

TOP12关键词

宏观战略 对策

概述、应用研究

Topic 0: 智慧农业 技术 物联网 农业生产 数据 智能化 互联网 生产 农业发展 智慧 提供 信息技术

智慧农业方案

Topic 2: 数据 平台 服务 信息 技术 管理 物联网 智慧农业 智慧 系统 农产品 提供

案例与建议

Topic 4: 农村 数字 乡村振兴 战略 互联网 推进 乡村 信息化 数字化 经济 加快 创新

现状与建议

Topic 9: 智慧农业 建议 技术 现状 体系 水平 人才 创新 推进 完善 农业发展 经营

智慧农场 智慧信息平台

智慧农场、园区

Topic 8: 农场 智慧农业 种植 现代农业 蔬菜 全国 园区 智慧 生产 水稻 打造 示范

智能农机公司 企业

智能农机装备

Topic 1: 农机 智能 作业 无人机 装备 农业机械 植保 智能化 雷沃 农业机械化 产品 果园

高科技企业

Topic 5: 智慧农业 科技 企业 公司 有限公司 国际 合作 创新 人工智能 主题 行业 国内

物联网 传感器

物联网、传感器、采集

Topic 6: 系统 传感器 数据 设计 物联网 采集 环境 技术 监测 控制 大棚 智慧农业

农业大数据 算法识别

算法、大数据、模型

Topic 3: 模型 作物 识别 算法 学习 农作物 图像 病虫害 监测 遥感 传统 预测

人才培养 教育

人才培养

Topic 7: 智慧农业 专业 养殖 教学 培养 创新 学生 人才培养 能力 教育 人才 课程

LDA分类已经具有初步的分类结果,接下来利用期刊关键词的关联关系进行进一步的分类。

2.2 Louvain分类分析

针对智慧农业领域的期刊,关键词的重合大概率表明文章的主题可能一致。例如同时出现关键词为“无人机”、“智能农机”的文章很可能都是与智能农机主题相关;同时出现关键词为“人才培养”、“职业教育”、“教育改革”的文章很可能都是与农业人才培养教育有关。由于期刊是以“智慧农业”关键词进行检索筛选的,所以每篇文章都存在“智慧农业”关键词,因此需要对该关键词进行过滤。另外,对于指向意味不明确的关键词,例如“问题”,“启示”,“思考”,“发展”,“现状”,“农业”,“研究”,“路径”,“作用”等词,也需要进行过滤。

由于不同文章的关键词存在表述不一致,实际上可能表达相同意思的情况。例如“农业物联网技术”、“农业物联网”、“物联网”其实表述的都是“物联网”;“北斗卫星”、“北斗定位”、“北斗系统”其实都是指我们的北斗导航系统。我们需要将这种相似的关键词合并为统一的表示,以便后续的文章关联操作更加精确和全面。

去除无意义关键词、同义词合并后开始构建网络关系,网络中的每个节点代表一篇文章,存在相同关键词的文章间生成一条边。其中关键词重复个数越多,边的权重就越高。下图左边是完全根据Louvain算法进行社区分类的结果,总共生成262个社区,由于部分文章关键词生成关联关系不足的原因,其中有256个社区中的节点数量都小于5个。数量占比前6个社区的总量占比为88.1%。右图是利用LDA分类结果进行边加权后再使用Louvain进行社区分类的结果,可以看到总共生成了8个社区,覆盖100%的文章。


LDA-Louvain8个分类中,Topic0Topic2主题涉及物联网+传感器,Topic1涉及农业大数据+算法识别,Topic3涉及宏观战略+对策,Topic4Topic6涉及智慧农场+智慧信息平台、Topic5涉及智能农机公司与企业、Topic7涉及人才培养+教育。

以节点数量最少的LDA-Louvain分类7(人才培养+教育)为例,下图展示了分类7中使用原始关键词进行边关联的结果:该网络图总共包含37个节点,91条边。

  

下图是使用LDA-Louvain分类方法行边关联的结果,LDA分类结果中同一类别的文章节点中会生成权重增加0.5的一条边。该网络图总共包含70个节点,2415条边。