XX省统计局统计大脑项目采购需求.docx

上传人:李司机 文档编号:6678553 上传时间:2023-12-24 格式:DOCX 页数:94 大小:180.98KB
返回 下载 相关 举报
XX省统计局统计大脑项目采购需求.docx_第1页
第1页 / 共94页
XX省统计局统计大脑项目采购需求.docx_第2页
第2页 / 共94页
XX省统计局统计大脑项目采购需求.docx_第3页
第3页 / 共94页
XX省统计局统计大脑项目采购需求.docx_第4页
第4页 / 共94页
XX省统计局统计大脑项目采购需求.docx_第5页
第5页 / 共94页
点击查看更多>>
资源描述

《XX省统计局统计大脑项目采购需求.docx》由会员分享,可在线阅读,更多相关《XX省统计局统计大脑项目采购需求.docx(94页珍藏版)》请在三一办公上搜索。

1、XX省统计局统计大脑项目采购需求一、项目背景略。二、建设目标1 .统计大脑依托XX省一体化智能化公共数据平台,构建一池一库一箱一舱一中心”的“统计大脑”体系架构,聚焦统计生产、统计服务、统计监督三大核心业务,建设全量归集多方数据的统计数库,构建以数据计算分析、知识集成应用、逻辑推理研判为核心的智能化能力中心,提升数据汇聚共享度、业务协同融合度、应用集成智能度,支撑统计数字化改革,提升全省统计业务的学习力、全面感知力、预测预警力、战略目标管理力和改革力。2 .共同富裕统计监测(二期)依托一体化智能化公共数据平台,建立以“人和“企业”为基本单元,构建基本信息明确、工作信息清晰、收支信息客观的全面覆

2、盖+精准画像”主题分析库,基于主题分析模型,为特定的应用场景支撑提供基础,迭代完善综合评估、1+3重点群体、N个重点专题监测的应用现有场景,完成6类“扩中”“提低”重点群体的精准画像。3 .一体化统计监督(二期)在一期功能基础上,对数据质量码、网上预警、智慧执法、掌上核查、量化督察、驾驶舱等模块进一步提升建设,强化掌上核查场景应用,实现对党委政府、职能部门、统计机构、调查对象、经济社会重大决策部署全面系统、精准量化、智能高效的统计监督,更加有效发挥统计监督职能的作用,推动防范和惩治统计造假弄虚作假向纵深发展。14 .投资领域全流程管理基于统计领域统计管理与监测系统,迭代升级重大项目推进、项目统

3、计入库在线审核、项目精准画像、统计智能分析等功能,定制开发驾驶舱,数据共享服务和无感统计等功能。5 .数据XX(二期)实现数据XX系统包括对数据XX发布库PC端门户以及数据XX工作库数据发布等内容的升级改造工作,按IRS规范要求对数据XX系统的相关模块升级和重构、实现数据XX系统与IRSXX省一体化数字资源系统的对接和部署。6 .综合数据库建设建设统计综合数据库,建立个人工作台,开发综合数据上报催报功能,优化统计年鉴、数据要情、月报、26县等资料本排版制作,开发统计资料文献库,完善分专业、跨部门数据共享。7 .数据质量管控系统(二期)强化季度GDP核算相关指标评估和管控,聚焦统计生产过程中数据

4、质量审核,与一套表系统对接实现企业预警结果一键推送,减轻基层负担,提高工作效率和数据质量;迭代升级驾驶舱,优化界面设计,突出重点关注指标;进一步完善农业专业数据审核,夯实农业统计数据质量基础。8 .碳排放智能统计核算以数字化手段推进碳排放统计核算工作,通过系统取数、自动核算、及时共享,统一规范开展全省分领域、分行业、分地区的碳排放统计核算工作并持续监测,为下一步碳排放考核和碳达峰进程提供及时准确数据支撑,撬动促进社会高效能治理。9 .统计单位全生命周期管理全面及时掌握统计单位(包括企业、事业、机关、社会团体、民办非企业等)出生、成长和消亡,为各专业的抽样调查提供更为准确的字典库。10 .高能级

5、战略平台2对全省新区和高能级战略平台综合发展状况、各新区和高能级战略平台的基本情况以及行业企业发展状况等方面的进行全方位展示,提高日常反馈数据的速度,也为各级政府对新区和高能级战略平台精准施策提供有力支撑。11 服务业数字化展示一是根据业务发展需要,集成服务业精准画像和关键指标于服务业首屏。二是实现服务业主要指标预测功能。通过统计建模对规模以上服务业营业收入等指标未来一年各月的增长情况进行预测分析,实现县级预测和分行业门类预测。三、业务需求1 .统计大脑1.1 统计算力池(一池)通过对大脑各应用、各服务、各组件的可访问状态定时监控,并将监控的结果数据进行归集整理,然后汇总分类,满足对资源使用的

6、监督监测,为调整资源分配达到最优化配置提供有力依据。1.1.1硬件资源监控获取政务云基础硬件的使用数据后,进行汇总分析并以可视化方式展示,以实现基础硬件在使用过程中的瞬时可见,并设定预警规则,针对资源不足和使用率不达标的情况及时告警。1.1.2安全监控统计统计算力池统一对系统漏洞数、系统攻击数、攻击拦截数进行汇总展示,实现系统运行过程中危险的可视化展示,为调整安全策略提供基础数据支撑。1.1. 3应用使用情况收集各重要业务应用系统访问量情况,提供信息系统故障台账管理功能,依据台账记录计算各应用系统平均可用时间,以可视化方式展示相关指标。1.2. 计数库(一库)推进全量归集,构建多维型“统计大脑

7、数据底座,建设统计数库(一库)。按照数据归集、数据清洗、融合加工到数据服务和分析应用数据全生命周期管理流程,盘点整合统计业务数据资源,形成各类主题数据库,建设统计数据仓库,形成统计系统标准规范化数据资源体系,在此基础上,利用大脑工具箱的Bl报表工具、一键报表组件能力以及Al机器学习平台能力进行数据分析与挖掘,支撑统计领域深化数据应用。同时为满足各部门单位和各级统计局对跨部门、跨场景的数据共享和服务需求,通过加强数据资产管理和数据共享开放建设,推动数据资源在局内外的融合深度应用,实现数据安全流通、标准化管理运营。1.3. 1数据架构1. 2.1.1数仓建设规划-总体架构设计总体架构设计是解决统计

8、大脑数据仓定位问题、划分边界,根据最新要求,把各个分离的组件有机的整合在一起,能够做到业务聚焦、技术聚焦、实现开发敏捷,使系统变得柔软,可以因需而变,实现统计业务敏捷。统计数库是在数据架构设计和标准建设的基础上,通过对统计局内部数据、统计重大应用数据等多种数据源数据进行采集,经过数据汇聚、存储、清洗、标准化处理形成分层分域的数据仓库,通过接口开发、FTP文件传输等方式支撑上层应用。2. 2.1.2数仓建设规划-业务流程设计数仓建设的业务流程设计是根据数据治理理论方法,结合统计大脑实际数据现状和资源部署现状,而设计的数仓开发工作业务流程,主要对数据源到数据应用过程各个环节进行梳理,保障数仓建设工

9、作能顺利开展。数据源经数据采集汇聚、数据存储、数据清洗标准化、数据融合分析、数据开放共享给到数据应用进行使用,部门业务系统使用的数据最终会有部分数据作为数据源进行数据治理流程,形成一个数据治理良性循环。3. 2.1.3数仓建设规划-功能架构设计功能架构设计是对统计数据仓架构按功能进行分层、分组件,并描述这些层及组件之间的关系。4. 2.1.4数仓建设规划-数据架构设计数据架构设计是针对统计大脑所有业务数据,基于业务数据的分类和数据业务领域,能够规划设计数据模型的分层及数据的流转,实现数据的高价值沉淀。为实现统计数仓的建模目标,满足统计大脑的业务需求和支撑能力,需要按照数据建模的原则和规范,对模

10、型进行分层设计,结合XX省统计局数据资源现4状,统计数仓模型架构分为贴源层(ODS)、基础模型层(DWD)、融合模型层(DW)、集市层(DM)。针对外围系统提供的接口数据,通过统一采集至贴源层,必须在基础层做存储,再按建模规范逐层处理。贴源数据层(ODS):存储统计数据、部门数据、社会大数据和行为数据等原始数据,遵照数据模型命实体命名规范,字段按照原始字段。基础模型层(DWD):结合数据仓库数据处理方法论,在数据语义层面及部分业务语义层面进行粗加工产生的模型。融合模型层(DW):整合子层以范式模型设计理论为基础。为了提升模型的简单、易用性,汇聚子层以维度模型设计理论为基础。设计过程中遵循本规范

11、的主题域和主题子域划分标准,遵照数据模型命实体命名规范,参考字段命名规范。业务应用层(DM):以满足业务应用的需要为主,其数据主要由融合层数据生成,部分数据可直接由基础层数据直生成,只针对应用设计,提供数据支撑使用。5. 2.1.5数仓建设规划-技术架构设计技术架构设计是针对统计数仓数据处理原则,能够运用大数据技术,进行技术架构顶层设计,实现结构化数据的处理分析、各类主题库开发以及统计业务数据安全管理等能力,通过先进的技术手段实现全面业务数据化。1.2. 1.6数据规范-命名标准需要对统计数据仓的命名进行标准制定,包括数据表的命名定义以及数据字段的定义。对数据表的标准命名,可展示出数据表属于哪

12、个主题领域以及归属的主题域,如综合统计、工业统计、能源环境、人口就业等;对数据字段的标准命名,更好展示数据的业务属性。通过标准化的数据命名后,让系统数据仓更加清晰、利于操作和便于维护,助力统计大脑后续数据的使用。1. 2.1.7数据规范-采集标准对接业务数据源端系统,需要制定数据的采集标准,包括数据接口的适配、采集的监测及处理等标准化能力。采集接口适配:针对一套表系统、共同富裕应用等局内部业务系统以及各地市统计局特色数据库,能够支持数据库、文件、消息等接口方式的适配管理;采集监测及处理:能够对采集任务在执行过程中的健康检查,异常处理;确5保整个数据交换过程的稳定可靠;主要功能包括单元生成、单元

13、编译、交换执行、健康监测、异常处理等。1.2. 1.7.1数据规范-清洗标准统计数据业务领域多、内容复杂,针对数据的清洗需要制定标准化的规则,能够实现支持数据的缺失值、异常值、重复值和无用值等的清洗,针对不同清洗内容,采取对应的技术方式进行处理,提高数据质量。方法一致性:数据清洗工作应统一决策,同一数据库范围内工作方法、技术指标均当统一,从而达成数据产品的一致性。数据可信性:从数据的精确性、完整性、一致性、有效性、唯一性五个方面提高数据可信性。精确性是描述数据是否与其对应的客观实体的特征相一致;完整性是描述数据是否存在缺失记录或缺失字段;一致性是描述同一实体的同一属性的值在不同的系统是否一致:

14、有效性是描述数据是否满足用户定义的条件或在一定的域值范围内;唯一性是描述数据是否存在重复记录。1.3. 数据可用性:从数据的时效性、稳定性提升数据可用性。时效性是描述数据是当前数据还是历史数据;稳定性是描述数据是否稳定,是否在业务有效期内流转的数据。1.4. 1.7.2数据规范-汇聚标准以源系统为主要参照数据源,定义数据并建立数据关系,分主题域进行实体关系模型的设计,并制定主题宽表汇聚标准及汇聚内容,提升数据的完整性、一致性和模型的稳定性,实现大数据主题域数据的整合。主题域分为:统计设计管理、综合统计、国民经济、工业统计、能源环境、固定资产投资、贸易外经、人口就业、社会科技、农业农村等领域。同

15、时,在形成各类主题模型宽表的基础上,根据业务需要,加工业务相关性较强的指标形成固定格式的报表,主要包括高能级大屏、共同富裕、碳中和、知识图谱业务应用专题。1.2.1.7. 3数据规范-接口标准接口标准是指为满足各级政府统计业务需求,需对流通数据的共享开放方式和数据提供形式进行标准规范定义。接口提供的形式支持且不仅限于文件、数据库、消息等接口方式,能够全方位适配于对接业务系统。且接口应有明确的接口6描述、接口地址、支持格式、请求方式、请求参数、请求样例、返回参数、返回样例等说明。1. 2.2数据采集基于统计局现有数据库建设基础上,按照一数一源、一源一主、一数多用”的原则,进行数据归集工作。主要对

16、接统计局各部门业务系统,进行统计业务全量数据库表的归集。数据采集的主要方式有数据库采集、文件采集以及接口采集。通过对MySQL、Oracle、SQLSerVer、POStgreSQL、HDFS、Hive、HBaSe、MaxCompute、FTP、文件等数据源进行读取或写入数据,配置数据源的连接信息(例如填写OraCIe数据库的JDBCURL、用户名、密码等信息),再配置对应的任务,进行采集工作。1.1. 2.2.IXX统计联网直报平台数据采集对接XX统计数字化应用平台,通过库表同步的方式,采集各类制度(第四次全国经济普查方案、贸易调查制度、企业一套表统计调查制度、商品交易市场统计年报、限上产业

17、单位(个体户定报等制度)所包含的数据表,并存入统计数据仓库ODS层对应的存储介质(PG库)。根据对直报数据梳理调研,本项目需采集其约790张表6千万条数据,并进行周期性任务抽取。采集的数据表有:财务状况及附加表、工业企业生产经营及景气状况调查表、住宿和餐饮业产业活动情况调查表、调查单位基本情况表、主要工业产品生产能力表、服务业经营情况表、建筑业经营情况表、能源生产销售与库存表、信息化和电子商务应用情况表、生产经营景气状况表、电子商务交易平台情况表等。1.2. 2.2共同富裕应用数据采集对接省统计局共同富裕应用数据,采集企业、群体画像的相关数据信息,并存入统计数据仓库ODS层对应的存储介质(PG

18、库)。根据对共富应用的数据调研梳理,本项目需采集其约30张表5千万条数据,并进行周期性任务抽取。采集的数据信息有:例如低收入群体的低保类别、户口性质、致贫原因、救助标准、月人均收入、申请救助原因、残疾情况、人均收入情况等数据,1.3. 2.3碳中和应用数据采集7对接碳排放智能统计核算应用数据,采集碳中和能耗企业相关数据信息,并存入统计数据仓库ODS层对应的存储介质(PG库)。根据对碳中和应用的数据调研梳理,本项目需采集其约2张表2千万条数据,并进行周期性任务抽取。采集的数据信息有:行业强度、工业强度、等价能耗、能耗强度、用电量、碳强度行业排序、能耗行业排序、能耗强度排序、绿电发电量、碳排放增速

19、、工业总产值增速等数据。1. 2.3数据清洗数据清洗主要根据各类清洗规则对源数据层数据进行清洗、转化和载入等标准化加工处理,形成数据质量和一致性高的数据模型,根据统计业务数据表维度特征,主要对时间、地区、机构、编码、状态和行业等类别制定清洗规则。1.2. 3.1时间类别清洗规则统计业务报表涉及同一时间维度下指标数据来自不同数据源的情况较多,例如各业务领域年报数据、季度报表、月度报表数据,通过清洗规则,将多个数据源、多个不同维度数据的时间存入同一个库表中,选出最优值并换算成同一时间标准。例如:A报表的某一时间的营收数据与其他系统或报表中的数据不一致,即可将A报表的这一数据进行校验修正。1.3.

20、3.2地区类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,存在一个指标有多个地址、地区的情况,通过清洗规则,将多个数据源、多个不同维度数据的地区存入同一个库表中,选出最优值并换算成同一地区标准。例如:企业地址信息在不同来源系统中显示不一致,以更新时间最近的为准进行修正。1. 2.3.3机构类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,存在人员所属单位类型信息多样的情况(各类企事业单位等),通过清洗规则,将多个数据源、多个不同维度数据的所属机构信息存入同一个库表中,选出最优值并换算成同一机构标准。例如:低收入人员家庭成员中,存在失业、已就业单位等信息,以更新时间最近

21、的进行修正。2. 2.3.4编码类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,同样的维度信息在8不同表中的编码不一致,通过清洗规则,将多个数据源、多个不同维度数据按照统一编码标准进行归集,对于编码不一致的选取最优值进行换算。例如:编制编码体系、将编码从数字1开始进行赋值赋能,对所有对应的数据项进行编码赋值,对于编码不一致的以更新时间最近的进行修正。3. 2.3.5状态类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,存在同一数据的状态信息不一致,通过清洗规则,将多个数据源、多个不同维度数据的状态存入同一个库表中,选出最优值并换算成同一状态标准。例如:个人是否缴纳社保

22、存在未缴纳、已缴纳等不同状态数据,以更新时间最近的进行修正。4. 2.3.6行业类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,由于细分行业较多且在不断更新,通过清洗规则,将多个数据源、多个不同维度数据的时间存入同一个库表中,选出最优值并换算成同一行业标准。例如:A企业在多处显示的行业信息不一致,实际由于企业转型由制造业转变为信息科技类型的企业,因此以最新的行业信息为准进行修正。1. 2.4数据主题库按照特定标识汇聚数据资源池的全部数据,形成描绘目标对象最完整的数据集。主要包括高能级大屏、共同富裕、碳中和、知识图谱的基础数据,通过基础数据采集、数据清洗、数据建模,形成面向应用划分

23、的主题库,为统计领域上层应用提供基础数据资源信息清单。同时,以满足业务应用的需要为主,按照对业务的理解和对对象信息的抽象,从顶至下定义数据域,以全局抽象的视角对数据内容进行归类。数据主题库主要包括DWD/DW模型层以及面向应用的DM集市层的数据建设(详见架构图),为统计应用提供模型数据与指标数据支撑。DWD/DW模型层有高能级大屏主题库、共同富裕主题库、碳中和主题库、知识图谱主题库等主题库建设。1.2. 4.1高能级大屏主题库高能级大屏是将高能级平台的各平台行业企业发展情况、经营情况以及趋势等方面的信息集成,并根据规模实力、监测预警、主导产业分布进行汇聚归纳,9为高能级大屏应用及其他部门相关业

24、务场景的指标数据利用提供支撑。根据业务应用需求,本数据库建设需设计、开发和维护约20张数据表,开发80多个指标数据,按照数据规范的汇聚标准,对模型层相关数据进行整合开发、关联和计算.数据资源有:高能级平台经济收入总和、项目本年度完成额、去年同期完成额、高能级企业本季度营收、上年同期营业收入、规模实力类型、工业增加值、营业收入、社会消费品零售额、固定资产投资等数据。1.3. 4.2共同富裕主题库依托共同富裕统计监测应用,归集低收入人群、科研人员、大学生、个体工商户等群体和画像数据信息形成共同富裕主题库,为全省统计机构及其他部门相关业务场景的指标数据利用提供支撑。根据业务应用需求,本数据库建设需设

25、计、开发和维护约15张数据表,按照数据规范的汇聚标准,对模型层数据进行整合开发、关联和计算。1.4. 4.3碳中和主题库依托碳排放智能统计核算应用,归集将各地区各行业能源消耗企业的基本情况、能源消耗情况以及趋势形成碳中和主题库,为全省统计机构及其他部门相关业务场景的指标数据利用提供支撑。根据业务应用需求,本数据库建设需设计、开发和维护约2张数据表,按照数据规范的汇聚标准,对模型数据进行整合开发、关联和计算。1. 2.4.4知识图谱主题库知识图谱是按照法律法规、经济形势专题将相关模型表数据进行汇聚集成,为知识图谱分析所需要的相关数据利用提供支撑。根据业务应用需求,本数据库建设需设计、开发和维护约

26、20张数据表,开发30多个指标数据,按照数据规范的汇聚标准,对模型层数据进行整合开发、关联和计算.2. 2.5规则库数据质量规则是以统计业务系统为依托的数据监控标准、质量评价标准,将质量管理规范转换成监控规则、评价指标、评价标准,确保数据的完整性、及时性、有效性、关联性、规范性和一致性。目标解决数据在各环节实施应用中进度1。失控、质量参差不齐、数据不足与错乱等问题,强化数据质量事中控制、事后评价,降低因数据问题给服务带来的不便,提升决策分析依据的准确性和实用性。1. 2.5.1数据质量审核规则数据质量审核规则是针对重点统计数据表中核心指标的数据合理性、数据标准规范性、指标计算规则等构建审核校验

27、规则,用于稽核相关重点指标的数据质量,以提升数据可用性、有用性。2. 2.5.2企业数据质量码生成规则企业数据质量码是统计监督工作中针对企业管理的重要手段,因此,企业数据质量赋码规则关乎到业务正常使用。因此数据质量工作,需要对企业数据质量码的赋码生成规则进行校验稽核,以保证不同场景下分级别赋码的准确性。3. 2.5.3共富专题数据清洗规则共富专题数据清洗规则是面向全面覆盖+精准画像”基础数据库,开展数据质量稽核规则开发,是提升共同富裕专题监测的数据有用性、可用性的重要手段。重点包括字段标准、空置检验、映射关系、命名标准等一系列数据清洗要求。主键来源:id(主键)七人普个人短表统计局。有效标准:

28、非空,且数字。12位行政区划编码来源:ad/ode(12位行政区划编码)七人普个人短表统计局、qx(县(市、区)流动人口基本信息表公安。映射关系:来源顺序。有效标准:非空,旦数字,且不超过12位;qx(县(市、区):最新记录,以djrq(登记日期)流动人口基本信息表公安为判断新IFl依据。处理规则:qx(县(市、区)根据公安派出所代码表转换为国标行政区划代码,并将后缀补0到12位。普查小区代码来源:CenSUS-SUbdistrict-Code(普查小区代码)七人普个人短表统计11局L有效标准:非空,且数字。户编码来源:household/ode(户编码)七人普个人短表统计局。有效标准:非空,

29、且数字。户id来源:household_id(户id)七人普个人短表统计局。有效标准:非空,且_与数字组合。人编码来源:resident。(人编码)七人普个人短表统计局。有效标准:非空,且数字。城乡代码来源:CoUnty/ode(城乡代码)七人普个人短表统计局。有效标准:非空,且数字。1.2. 5.4通用规则针对归集内外部数据,根据数据标准、业务逻辑、数据特征等维度制定通用类清洗规则,包括数据的完整性、有效性、合理性、一致性等,用于衡量数据质量。具体工作涵盖规则开发、问题告警。在数据治理过程中设置告警阈值,制定告警规则,并提供标准传输协议,处理告警消息。能够根据告警消息发送频率和内容自定义告警

30、消息和发送周期。告警方式规则:主要包括告警规则名称、告警升级间隔时间、告警内容格式(内容生成模板)、最低告警等级和是否自动生成数据质量监控问题等。1. 2.6数据共享数据共享是为内外系统各级部门和各类应用场景提供数据共享开放服务,数据共享的主要过程为:根据数据需求的具体内容进行接口开发、共享数据集和数据文件准备等共享服务工作;对于外部单位数据需求,将APl接口或FTP文件同步至IRS平台,供各级政府部门进行申请回流。本项目主要涉及的数据共享内容有统计大脑数据支撑服务、对内数据支撑服务和对外数据支控服务。其中,统计大脑数据支撑服务包括统计大脑驾驶舱、高12能级大屏等统计大脑应用接口开发:对内数据

31、支撑服务的建设内容包括高能级大屏接口开发、数据XX开放数据接口开发以及统计系统内部(省级统计部门以及地市级统计局)的数据支撑服务;对外数据支撑服务的建设内容是IRS数据定期上架工作。1.2. 6.1统计大脑数据支撑服务1. 2.6.1.1统计大脑驾驶舱数据接口为保障驾驶舱可视化界面的数据准确及时,针对统计大脑驾驶舱的统计生产、统计服务、统计监督、统计数库等专题页面进行数据对接服务,通过开发对应的APl接口定义数据访问接口及相关参数、标准,用于各类对数据的调用,实现数据共享。数据共享资源举例:统计驾驶舱的内跑平台申请量、一体化平台共享量、数据融合共享量、模型访问情况、模型训练情况、算法总计、低代

32、码应用集成平台组件概况等指标数据。1.2. 6.1.2统计大脑智能中心数据接口根据统计大脑智能中心各业务模块数据共享需求,对智能中心主题库的数据表和指标清单进行梳理,通过文件同步的形式将共享数据表提供给应用,并根据共享需求的变化不断更新共享数据内容。数据共享资源举例:社会和科技统计处的报表制度、本期同期、去年同期、本期增长、累计增长等文件数据和指标数据。1. 2.6.1.3统计大脑知识图谱数据接口根据统计大脑知识图谱各节点数据展示、查询、分析数据,对知识图谱主题库的数据表和指标清单进行梳理,通过文件同步的形式将共享数据表提供给知识图谱应用,并根据共享需求的变化不断更新共享数据内容。数据共享资源

33、举例:节点行业企业名录的企业名称、地址、营业收入、收入增速、利润增速、利润总额数据,节点行业趋势的企业数据、营业收入、收入增速、利润增速、利润总额数据以及节点对应文章地址、名称数据等。2. 2.6.1.4统计大脑BI分析中心数据接口根据统计大脑BI分析中心各业务领域分析报表数据分析需求,对BI分析中心主题库的数据表和指标清单进行梳理,通过文件同步的形式将共享数据表提供13给Bl分析报表应用,并根据共享需求的变化不断更新共享数据内容。1.2. 6.2对内数据支撑服务1. 2.6.2.1高能级大屏数据接口根据高能级平台战略大屏分级分区数据展示、分析统计需求,对高能级大屏主题库的数据表和指标清单进行

34、梳理,通过文件同步的形式将共享数据表提供给高能级大屏应用,并根据共享需求的变化不断更新共享数据内容。数据共享资源举例:高能级平台大类分布、大类编码、大类名称、大类占比数据、各地区排行数据,高能级平台企业名录信息、项目完成情况、企业预警和排行数据等。2. 2.6.2.2数据XX开放数据接口根据数据XX目录中统计局需开放的数据内容和等级要求,对数仓资源体系数据进行共享数据表建设并完成分级分类管理,定期通过文件同步的形式将开放数据提供给数据XX应用,以便其他外部单位进行利用。3. 2.6.2.3统计业务部门数据共享针对省、市、县统计业务部门提出的统计内部数据共享需求,根据数据应用类别,一是进行数据授

35、权、数据集准备,二是进行APl接口开发供相关业务应用进行接口数据调用。4. 2.6.3对外数据支撑服务定期将统计数库的共享数据资源按照分级分类标准和数据上架规范要求上架至一体化智能化公共数据平台,为其他外部单位的数据需求提供服务,例如规上和限下企业每月清单信息、统计指标数据信息、统计领域网上预警企业评价信息等。5. 2.7数据一键搜索为了使各级部门更便利地找到目标报表和指标,在数据仓库建设和数据资产目录管理基础上,对报表和指标数据进行进一步处理和对接,通过建设一键搜索功能,帮助各用户直接在统计大脑应用中查找数据,能够更直接的对各主题库资源以及知识库资源各类指标进行分类检索,对于能直接利用的报表

36、进行下载。6. 2.7.1数据搜索查询检索:支持直接输入指标或报表名称进行搜索查询;支持根据数据类型、14数据属性、期别类型、归属专业和地区级别等条件选择进行搜索查询。数据详情:报表类数据以电子表格进行呈现,包括维度和指标数据的名称和数值,并支持报表下载;指标类数据呈现的是本指标的具体数值。7. 2.7.2知识搜索查询检索:支持直接输入知识名称进行搜索查询;支持根据数据类型、数据属性、期别类型、归属专业和地区级别等条件选择进行搜索查询。数据详情:知识类数据呈现的是具体资料信息,包括制度文件、政策咨询、研究报告、法律法规等各类知识库数据。1.3. 计工具箱(一箱)1.4. 1Al机器学习平台通过

37、Al机器学习平台的建设,基于“统计大脑”统计数库,聚焦统计核心业务,构建模型的算法底座并求解各类统计问题,为全省统计局系统核心业务和重大应用运行提供算法保障。AI机器学习平台主要由能力组件和算法模型库构成,其中算法库包括基础算法和业务(通用)算法,模型库基于SWOTA分析方法建设SW模型、0模型、T模型和A模型。依托能力组件模型训练管理等能力,聚焦领域应用、扩中提低改革、城乡共富、碳中和、企业风险监测等重点场景,对基础算法进行调用,根据各类场景完成模型的开发及训练,并通过能力组件的模型应用和模型发布实现算法和模型在各级部门的共享使用。1. 3.I.1能力组件能力组件是Al机器学习平台的算法支撑

38、底座,能够提供机器学习一站式建模能力,包括数据管理、模型管理、模型训练、模型应用和模型发布等能力。2. 3.1.1.1数据管理本组件为算法模型训练提供基础数据源接入和管理能力。支持的数据源来源有数据库类型、FTP文件类型、本地文件类型。其中数据库类型支持多类数据库,包括大数据平台hive、DB2、VertiCa、gbase、mysql、PoStgreSQL等。大数据平台hive支持开源hadoop等通用标准接口的大数据平台hive库。文件导入15支持对本地或者远程的文件数据导入。关系型数据库支持OraCle、DB2,MySql数据接入。MPP数据库支持HbaSe、Gbase、vertica,P

39、oStgreSql数据接入。图片数据支持对图片数据的接入以及查看功能。文本数据支持对文本数据的接入以及查看功能。数据描述管理管理数据描述模板,可上传、下载、更新数据描述信息。数据源审核审核数据源相关信息是否满足接入要求。数据源分类增加数据源分类标识,训练、推理或者校验数据,不同类型的数据对应不同的自动化流程。编写SQL提取数据支持自行编写SQL接入数据源,增加对周期函数的支持。数据预览针对接入的数据源,可在界面预览数据数据清除支持清除已接入数据源的数据,保留数据源配置,更新或从下一个周期继续抽取数据。数据抽取任务停止支持手工停止正在抽取的任务。支持周期性数据源支持周期性从数据源提取数据并且标识

40、不同周期的提取情况,支持分钟级调度.1.3.L1.2模型管理16本组件提供模型信息管理和模型版本管理等能力。统一管理多种方式创建的模型,包括模型文件以及相关的脚本程序,提供统一的部署、信息查看以及分享功能。查看模型信息对接入模型管理功能的模型,提供详细的模型信息,包括模型信息、版本信息、状态信息、来源等等。模型版本管理可管理已发布模型的版本生命周期以及详细信息,能够查看模型的历史版本、生命周期状态、支持在模型发布时自动增加新的历史版本。1.3. 1.1.3模型训练本组件是算法和模型训练的核心组件,通过各类建模工具和手段实现模型创建过程,包括向导式建模、编码式建模和训练任务管理能力。训练任务管理

41、本组件提供可视化的训练任务管理功能,包括任务的创建、编辑、取消训练(停止)、复制等功能。向导式建模通过向导式建模提供预置的向导式建模场景和自动建模能力,降低开发模型的门槛。预置的场景提供自动化特征工程、参数优化以及算法选择,建模过程中无需关注使用的算法以及参数,由机器根据自动完成算法和参数选择,提高建模效率降低门槛。智能处理数据:支持根据不同算法对数据的要求,自动转换数据模型。智能选择特征指标:筛选合适的特征指标用于建模。智能选择算法:支持根据训练数据的特征,使用最合适的算法。智能优化参数:支持根据设置的效果阀值,自动找到最合适的算法参数,使模型达到最优效果。编码式建模1.4. 支持在浏览器直

42、接编码的方式建模,预置Python、R开发语言,支持扩展算法库,可写完后直接执行代码查看执行结果,所见即所得。1.5. 1.1.4模型应用17模型完成训练后,基于微服务化的镜像构建、部署开放能力提供统一AI能力构建组件能力,提供在线/离线推理能力的构建,实现从构建镜像、启动镜像、注册服务全流程管理。本组件提供通过可视化配置的方式,实现推理服务应用部署,并支持通过在线、离线和流式构建推理服务。主要的功能有:应用状态管理:监控模型应用的运行状态。列表/卡片视图:支持列表/卡片视图展示所有已创建的模型应用信息。应用修改:支持修改模型应用任务配置。应用删除:支持删除模型应用任务。应用停止:支持停止正在

43、执行的模型应用任务。应用查询:根据应用的名称、状态、使用的接口等方式快速查询应用。1.6. 1.1.5模型发布算法和模型经开发训练、应用部署后,可通过对其进行上线、下线管理实现算法模型的共享应用。通过控制用户权限,可实现模型发布后的可见范围,权限范围内的其他用户可对模型进行调用应用。1. 3.1.2基础算法基础算法是支撑业务算法和业务模型的常用算法,包括逻辑回归、神经网络及决策树等共计65种算法,为业务模型创建提供基础支撑能力。1. 3.1.3SW模型SW模型是监测评价模型的集合,是以指标监测或维度评价描绘业务或行业对象的运行状态,S表示的是优势分析(指标监测值为正:例如收入增加等)、W表示的

44、是劣势分析(指标监测值为负:例如收入减少等)。依托Al平台的能力组件,利用基础算法和业务(通用)算法进行的模型研究,通过集成和统一管理,向其他单位和部门使用提供支撑。根据业务科室的调研结果梳理,需集成和建设的模型有三大产业监测模型、三大收入监测模型、工业处优劣势企业识别模型。2. 3.1.3.1三大产业监测集成三大产业监测模型,进行上线、发布、下线、版本更新等模型管理。本模型以XX省第一、第二、第三产业三大产业作为研究对象,以产业发展18质量、优势产业选择、产业竞争力、产业发展水平等作为产业监测指标对三大产业进行产业评估,在进行指标筛选的基础上,运用层次分析法等方法得到产业评估指标体系中各指标

45、的权重,构建产业监测模型,为政府部门产业政策研究提供参考。1.3.1.3.2三大收入监测集成三大收入监测模型,进行上线、发布、下线、版本更新等模型管理。本模型以XX省GDP的三大收入(第一产业、第二产业、第三产业)收入作为研究对象,对三大产业营业收入的绝对值、行业结构进行分析,监测各产业收入月度数据变动对。GDP贡献的影响程度。本模型研究一是需构建各产业的收入计算规则,形成产业收入指标体系,通过采集最近的收入指标数据,测算产业营业收入;二是需通过月度同比分析、产业增速分析、以及对GDP的贡献分析,及时获取产业收入增长或下滑的最新信息。1. 3.1.3.3工业优劣势企业识别模型建设工业优劣势企业

46、识别模型,主要内容有需求数据清洗与特征工程、建模开发、模型训练、结果校验、模型优化及维护等。本模型是利用联网直报系统中的工业企业数据实时监测单个企业月度数据变动对其所在行业营业收入影响程度。通过构建算法模型研究营业收入指标相邻两个报告期变动额最大的若干企业对其所属行业的影响程度,把研究结论中对该行业指标产生负向影响的企业界定为劣势企业。一是利用联网直报平台中查询菜单的列计算功能实时查询到本期和上期营业收入数据变动(包括正值和负值)最大的若干企业及其差值数据,利用平台间的数据接口将上述企业数据传送至模型构建平台。二是利用联网直报平台中的汇总模块实时得到企业各行业大类数据,利用平台间的数据接口将上

47、述各行业大类数据传送至模型构建平台。三是利用模型构建平台对单个企业与其所对应行业实现自动匹配,然后利用模型公式计算单个企业变动对其所处行业产生的影响,即单个企业拉动行业增长点数。1.3. 1.4O模型0模型是预测分析、发展趋势分析类模型的集合,根据某项维度指标历史数据统计特征对未来趋势等进行预测分析,依托Al平台的能力组件,利用基础算法和业务(通用)算法进行的模型研究,通过集成和统一管理,向其他单位和部19门使用提供支撑。1. 3.1.4.1GDP_生产函数模型预测模型建设GDP.生产函数模型预测模型,主要内容有需求数据清洗与特征工程、建模开发、模型训练、结果校验、模型优化及维护等。基于投入产出视角,采用C-D生产函数模型对XX省GDP总量进行建模,根据宏观经济投入产出理论,将国民经济生产活动产出要素的表现形式为GDP,而投入要素分为物资投入、资本投入、人力投入、技术投入,通过确定投入各要素的指标变量,依据C-D生产函数模型进行GDP预测。2. 3.1.4.2GDP_影响因素模型预测模型建设GDP_影响因素模型预测模型,主要内容有需求数据清洗与特征工程、建模开发、模型训练、结果校验、模型优化及维护等。基于影响因素视角,采用G

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号