模板文件不存在: ./template/pc/header.htm

新闻资讯

2026-06-14 05:34:39

国家数据局新政落地!专利高质量数据集是AIforScience核心燃料

分享到:

  

国家数据局新政落地!专利高质量数据集是AIforScience核心燃料(图1)

  6月8日,国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》(下称《实施方案》),这是国家层面首次针对数据赋能人工智能发展作出系统性、全链条部署,也标志着我国人工智能产业发展正式告别单纯比拼算力、模型的阶段,全面迈入以高质量数据为核心竞争力的全新发展周期。

  作为支撑“人工智能+”落地生根的核心基石,行业高质量数据集的规范化、规模化发展,将为千行百业数智化转型注入源源不断的底层动能。

  《关于推进行业高质量数据集建设行动的实施方案》明确,行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。为落实国民经济和社会发展“十五五”规划《纲要》,深入实施“人工智能+”行动,推动行业高质量数据集建设推广与“人工智能+”同频共振、互促共进,强化数据赋能人工智能创新发展,特制定本方案。

  方案设定清晰发展目标,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。数据从供给到价值释放的良性循环基本形成,数据赋能人工智能创新发展的作用更加凸显,数据产业与人工智能深度融合,持续催生智能经济新增长点。

  在六大专项行动中,强基扩容行动作为首要任务,从四大维度铺开建设工作。一是聚焦行业领域推进高质量数据集建设,覆盖科学研究、工业制造、医疗卫生、金融服务、城市治理等诸多重点领域,同时面向低空经济、具身智能、智能驾驶、生物制造等前沿创新领域布局数据集建设。二是夯实行业高质量数据集建设基础路径,梳理行业数据资源与需求清单,依托链主单位、高校、科研院所等多方主体协同共建,推动公共数据与行业数据融合利用。三是面向人工智能应用需求丰富行业高质量数据集建设形态,发力文本、图像、点云、时序数据等多模态数据集,同步搭建知识图谱、真机交互等适配新型智能应用的数据集,紧跟世界模型等前沿方向开展布局。四是强化与数据基础设施建设有机联动,依托国家数据基础设施,运用隐私保护计算、可信数据空间等技术,实现数据集安全存储、可信流通与集约化供给。

  除此之外,方案还配套部署多项专项行动,覆盖数据标注升级、数据集质量提升、场景应用赋能、全流程规范管理、数据价值释放等关键环节,从产业提质、生态搭建、制度完善、商业落地等多维度形成完整工作体系,全方位指导行业高质量数据集规范化、规模化发展。

  值得注意的是,《实施方案》明确提出要兼顾产权保护与创新发展需求,完善人工智能训练阶段数据使用规则,推动版权作品数据有序用于模型训练,同时鼓励各细分行业深耕专属高质量数据集建设。在众多垂直领域数据中,专利数据天然具备成为AI顶级训练语料的四大独特属性:

  1.来源权威合规,全链路可追溯。数据源自各国专利局、官方知识产权机构等权威渠道,授权清晰、确权完整,符合数据分类分级与安全管理要求,从采集到应用全流程合规可控,规避版权与法律风险。

  2.知识密度高,加工标准化。经过专业清洗、去重、标引、结构化处理,剔除冗余信息,保留技术方案、权利要求、法律状态等核心知识;建立统一数据标准与专业词典,保障数据一致性与规范性。

  3.多语种全覆盖,跨域可对齐。覆盖中、英、日、韩、法、德、俄等主流语种,具备跨语言平行对齐能力,支持单语种检索全球知识产权信息,适配全球化研发与创新场景。

  4.专家级标注,场景适配性强。由知识产权与技术专家参与标注,覆盖技术领域划分、法律条款关联、创新价值判定等维度,数据可直接用于模型微调与任务推理,大幅降低训练成本。

  用专利等知识产权数据构建的高质量数据集,能为垂直大模型技术创新带来三大核心价值:

  1.专业能力的跃升。模型可以准确理解技术方案、判断新颖性与创造性、识别侵权风险、辅助专利撰写与审查。这些能力是通用模型无法具备的。

  2.安全与合规的保障。由于数据来源明确、授权清晰,企业可以放心地将模型部署在高合规要求的业务中,如专利审查、技术转化、出口管制合规等。

  3.研发与创新效率的提升。专利高质量数据集支撑的AI模型,能帮助科研人员、企业IP部门、技术转移机构快速检索全球技术信息、分析技术趋势、识别空白领域,缩短研发周期,加速创新成果转化。

  专利高质量数据集的打造,是覆盖采集、清洗、标注、确权、应用的全链条系统工程,也是行业落地的关键。

  全域采集:搭建全球专利数据采集网络,同步多国专利数据和信息,保障数据广度与实时性,形成规模化基础资源池。

  专业加工:建立多语种平行语料库,通过同族专利处理、跨语言对齐等技术,实现数据标准化与互通性;依托专家标注体系,形成适配不同场景的细分数据集。

  合规确权:与国家级平台协同,明确数据来源与使用权限,建立严格安全管控机制,保障数据应用安全可控。

  场景赋能:数据集可直接支撑研发创新、专利审查、技术转化、侵权分析等场景,帮助创新主体提升效率、规避风险、加速成果转化。

  作为深耕知识产权数据领域的科技企业,八月瓜科技依托国家知识产权局全量专利数据库及覆盖全球178个国家和地区的2亿+专利数据,打造“擎策”系列产品,汇集专利、商标、文献、工商等26亿+数据。目前,八月瓜科技已搭建起数百个高质量数据集,全面覆盖新材料、生物医药、化学化工等多个重点产业领域,针对不同细分赛道配置专属专业团队,完成数据清洗、结构化标引、专业内容标注等全流程深度加工,保障每一个数据集的专业性与实用性。

  在实际应用中,依托八月瓜科技擎策平台训练的AI模型,不仅能够精准完成专利审查、技术趋势分析、创新空白挖掘等工作,还能有效缩短企业研发周期、降低知识产权运营风险。公司将以专利高质量数据集助力科研创新,全面赋能AI for Science实践落地。返回搜狐,查看更多

上一篇:必收藏!7款超实用的AI数据分析工具助你轻松驾驭Excel
下一篇:2026美加墨世界杯:千问足球预测AI助手正式上线大数据助力精准竞猜