国家数据局新政落地！专利高质量数据集是AIforScience核心燃料-开云集团管理有限公司

2026-06-14 05:34:39

国家数据局新政落地！专利高质量数据集是AIforScience核心燃料

分享到：

国家数据局新政落地！专利高质量数据集是AIforScience核心燃料(图1)

　　6月8日，国家数据局正式印发《关于推进行业高质量数据集建设行动的实施方案》（下称《实施方案》），这是国家层面首次针对数据赋能人工智能发展作出系统性、全链条部署，也标志着我国人工智能产业发展正式告别单纯比拼算力、模型的阶段，全面迈入以高质量数据为核心竞争力的全新发展周期。

　　作为支撑“人工智能+”落地生根的核心基石，行业高质量数据集的规范化、规模化发展，将为千行百业数智化转型注入源源不断的底层动能。

　　《关于推进行业高质量数据集建设行动的实施方案》明确，行业高质量数据集是经过采集、加工等数据处理，可直接用于开发和训练人工智能模型，能有效提升模型性能的行业数据的集合，包含行业通识和行业专识数据集。行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。为落实国民经济和社会发展“十五五”规划《纲要》，深入实施“人工智能+”行动，推动行业高质量数据集建设推广与“人工智能+”同频共振、互促共进，强化数据赋能人工智能创新发展，特制定本方案。

　　方案设定清晰发展目标，到2028年底，建成一批覆盖重点领域、经过应用验证的行业高质量数据集，打造一批数据驱动人工智能创新发展的典型应用场景，培育一批具备领先优势的创新型数据企业和专业人才，形成一批行业高质量数据集建设工具和标准。数据从供给到价值释放的良性循环基本形成，数据赋能人工智能创新发展的作用更加凸显，数据产业与人工智能深度融合，持续催生智能经济新增长点。

　　在六大专项行动中，强基扩容行动作为首要任务，从四大维度铺开建设工作。一是聚焦行业领域推进高质量数据集建设，覆盖科学研究、工业制造、医疗卫生、金融服务、城市治理等诸多重点领域，同时面向低空经济、具身智能、智能驾驶、生物制造等前沿创新领域布局数据集建设。二是夯实行业高质量数据集建设基础路径，梳理行业数据资源与需求清单，依托链主单位、高校、科研院所等多方主体协同共建，推动公共数据与行业数据融合利用。三是面向人工智能应用需求丰富行业高质量数据集建设形态，发力文本、图像、点云、时序数据等多模态数据集，同步搭建知识图谱、真机交互等适配新型智能应用的数据集，紧跟世界模型等前沿方向开展布局。四是强化与数据基础设施建设有机联动，依托国家数据基础设施，运用隐私保护计算、可信数据空间等技术，实现数据集安全存储、可信流通与集约化供给。

　　除此之外，方案还配套部署多项专项行动，覆盖数据标注升级、数据集质量提升、场景应用赋能、全流程规范管理、数据价值释放等关键环节，从产业提质、生态搭建、制度完善、商业落地等多维度形成完整工作体系，全方位指导行业高质量数据集规范化、规模化发展。

　　值得注意的是，《实施方案》明确提出要兼顾产权保护与创新发展需求，完善人工智能训练阶段数据使用规则，推动版权作品数据有序用于模型训练，同时鼓励各细分行业深耕专属高质量数据集建设。在众多垂直领域数据中，专利数据天然具备成为AI顶级训练语料的四大独特属性：

　　1.来源权威合规，全链路可追溯。数据源自各国专利局、官方知识产权机构等权威渠道，授权清晰、确权完整，符合数据分类分级与安全管理要求，从采集到应用全流程合规可控，规避版权与法律风险。

　　2.知识密度高，加工标准化。经过专业清洗、去重、标引、结构化处理，剔除冗余信息，保留技术方案、权利要求、法律状态等核心知识；建立统一数据标准与专业词典，保障数据一致性与规范性。

　　3.多语种全覆盖，跨域可对齐。覆盖中、英、日、韩、法、德、俄等主流语种，具备跨语言平行对齐能力，支持单语种检索全球知识产权信息，适配全球化研发与创新场景。

　　4.专家级标注，场景适配性强。由知识产权与技术专家参与标注，覆盖技术领域划分、法律条款关联、创新价值判定等维度，数据可直接用于模型微调与任务推理，大幅降低训练成本。

　　用专利等知识产权数据构建的高质量数据集，能为垂直大模型技术创新带来三大核心价值：

　　1.专业能力的跃升。模型可以准确理解技术方案、判断新颖性与创造性、识别侵权风险、辅助专利撰写与审查。这些能力是通用模型无法具备的。

　　2.安全与合规的保障。由于数据来源明确、授权清晰，企业可以放心地将模型部署在高合规要求的业务中，如专利审查、技术转化、出口管制合规等。

　　3.研发与创新效率的提升。专利高质量数据集支撑的AI模型，能帮助科研人员、企业IP部门、技术转移机构快速检索全球技术信息、分析技术趋势、识别空白领域，缩短研发周期，加速创新成果转化。

　　专利高质量数据集的打造，是覆盖采集、清洗、标注、确权、应用的全链条系统工程，也是行业落地的关键。

　　全域采集：搭建全球专利数据采集网络，同步多国专利数据和信息，保障数据广度与实时性，形成规模化基础资源池。

　　专业加工：建立多语种平行语料库，通过同族专利处理、跨语言对齐等技术，实现数据标准化与互通性；依托专家标注体系，形成适配不同场景的细分数据集。

　　合规确权：与国家级平台协同，明确数据来源与使用权限，建立严格安全管控机制，保障数据应用安全可控。

　　场景赋能：数据集可直接支撑研发创新、专利审查、技术转化、侵权分析等场景，帮助创新主体提升效率、规避风险、加速成果转化。

　　作为深耕知识产权数据领域的科技企业，八月瓜科技依托国家知识产权局全量专利数据库及覆盖全球178个国家和地区的2亿+专利数据，打造“擎策”系列产品，汇集专利、商标、文献、工商等26亿+数据。目前，八月瓜科技已搭建起数百个高质量数据集，全面覆盖新材料、生物医药、化学化工等多个重点产业领域，针对不同细分赛道配置专属专业团队，完成数据清洗、结构化标引、专业内容标注等全流程深度加工，保障每一个数据集的专业性与实用性。

　　在实际应用中，依托八月瓜科技擎策平台训练的AI模型，不仅能够精准完成专利审查、技术趋势分析、创新空白挖掘等工作，还能有效缩短企业研发周期、降低知识产权运营风险。公司将以专利高质量数据集助力科研创新，全面赋能AI for Science实践落地。返回搜狐，查看更多

上一篇：必收藏！7款超实用的AI数据分析工具助你轻松驾驭Excel
下一篇：2026美加墨世界杯：千问足球预测AI助手正式上线大数据助力精准竞猜

新闻资讯

国家数据局新政落地！专利高质量数据集是AIforScience核心燃料