模板文件不存在: ./template/pc/header.htm

新闻资讯

2026-07-02 17:10:28

文本数据的标注方法、装置和电子设备与流程

分享到:

  

文本数据的标注方法、装置和电子设备与流程(图1)

  导航:X技术最新专利计算;推算;计数设备的制造及其应用技术文本数据的标注方法、装置和电子设备与流程

  1.一种文本数据的标注方法,其特征在于,所述方法包括:获取多个待标注文本;对所述多个待标注文本进行文本聚类,得到多个聚类簇;采用语义文本相似度算法,计算所述多个聚类簇中每两个所述聚类簇的相似度;基于相似度计算结果,确定所述多个待标注文本的分类标签。2.根据权利要求1所述的方法,其特征在于,每个所述聚类簇中至少包含有一个所述待标注文本;所述采用语义文本相似度算法,计算所述多个聚类簇中每两个所述聚类簇的相似度的步骤,包括:针对所述多个聚类簇中的每两个所述聚类簇,执行下述操作:从第一聚类簇所包含的待标注文本中,选取第一目标文本;从第二聚类簇所包含的待标注文本中,选取第二目标文本;采用所述语义文本相似度算法,计算所述第一目标文本和所述第二目标文本的文本相似度,将所述文本相似度确定为所述第一聚类簇和所述第二聚类簇的相似度。3.根据权利要求1或2所述的方法,其特征在于,所述相似度计算结果包括:每两个所述聚类簇的相似度;所述基于相似度计算结果,确定所述多个待标注文本的分类标签的步骤,包括:将所述相似度计算结果中,相似度大于预设阈值的所述聚类簇合并为一个分类集合,得到至少一个分类集合;确定每个所述分类集合对应的分类标签;针对每个所述分类集合,将当前分类集合对应的分类标签,确定为所述当前分类集合所包含的所述待标注文本的分类标签。4.根据权利要求3所述的方法,其特征在于,所述确定每个所述分类集合对应的分类标签的步骤,包括:针对每个所述分类集合,对所述分类集合所包含的待标注文本进行特征提取;基于特征提取结果,确定所述分类集合的分类标签。5.根据权利要求3所述的方法,其特征在于,所述确定每个所述分类集合对应的分类标签的步骤,包括:响应针对于所述分类集合的标签设置指令,将所述标签设置指令指示的分类标签,设置为所述分类集合的分类标签。6.根据权利要求1所述的方法,其特征在于,所述对所述多个待标注文本进行文本聚类,得到多个聚类簇的步骤之前,所述方法还包括:对每个所述待标注文本进行文本向量化处理,得到每个所述待标注文本对应的文本向量,以对所述多个待标注文本对应的文本向量进行文本聚类,得到多个聚类簇。7.根据权利要求6所述的方法,其特征在于,所述对每个所述待标注文本进行文本向量化处理,得到每个所述待标注文本对应的文本向量的步骤,包括:采用bert模型对每个所述待标注文本进行文本向量化操作,得到每个所述待标注文本对应的文本向量。8.根据权利要求1所述的方法,其特征在于,所述获取多个待标注文本的步骤之后,所

  述方法还包括:对每个所述待标注文本进行预处理;其中,所述预处理包括数据清洗、数据去重、去停用词和缺失值补充中的至少一种。9.一种文本数据的标注装置,其特征在于,所述装置包括:文本获取模块,用于获取多个待标注文本;文本聚类模块,用于对所述多个待标注文本进行文本聚类,得到多个聚类簇;相似度计算模块,用于采用语义文本相似度算法,计算所述多个聚类簇中每两个所述聚类簇的相似度;标签确定模块,用于基于相似度计算结果,确定所述多个待标注文本的分类标签。10.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至8任一项所述的文本数据的标注方法。

  本发明提供了一种文本数据的标注方法、装置和电子设备,该方法包括:获取多个待标注文本;对多个待标注文本进行文本聚类,得到多个聚类簇;采用语义文本相似度算法,计算多个聚类簇中每两个聚类簇的相似度;基于相似度计算结果,确定多个待标注文本的分类标签。该方式中,首先采用文本聚类得出初步的标注结果,然后采用语义文本相似度算法进行聚类文本间的相似度计算,该方式可保证文本数据标注的精度,也无需大量的人工标注,降低了数据标注的时间和人力成本,进而为提升AI模型的性能提供优质的标注数据。优质的标注数据。优质的标注数据。

上一篇:百度AI数据采集服务
下一篇:普京出席俄前国防部长伊万诺夫遗体告别仪式献上鲜花后手扶灵柩站立许久