长三角政府数据开,放一体化报告

 ■ 背景与目的

 ■ 长三角数据开放概貌

 ■ 长三角各地数据开放水平

 ■ 长三角数据开放一体化水平

 003

 006

  011

  018

  ■ 总结与建议

  附录:指标体系与研究方法

 029

  031

 背景与目的

  背景与目的

 长江三角洲(以下简称长三角)地区是我国经济发展最活跃、开放程度最高、创新能力最强的区域之一,在国家现代化建设大局和全方位开放格局中具有举足轻重的战略地位。推动长三角一体化发展,增强长三角地区创新能力和竞争能力,提高经济集聚度、区域连接性和政策协同效率,对引领全国高质量发展、建设现代化经济体系意义重大。

  2018

 年

 11

 月

 5

 日,在首届中国国际进口博览会开幕式上,国家主席习近平宣布将

 支持长江三角洲区域一体化发展并上升为国家战略。

 2019

 年

 12

 月

 1

 日,中共中央、国务院发布了《长江三角洲区域一体化发展规划纲要》,明确了长三角规划范围包括上海市、江苏省、浙江省、安徽省全域,并提出共同打造数字长三角,加快长三角政务数据资源共享共用。

 2020

 年

 8

 月

 18

 日至

 21

 日,习近平总书记在安徽合肥主持召开扎实推进长三角一体化发展座谈会并发表重要讲话,指出要 “紧扣一体化和高质量两个关键词,坚持目标导向、问题导向相统一,真抓实干、埋头苦干,推动长三角一体化发展不断取得成效”

 。

  政府数据开放是指公共管理和服务机构面向社会提供具备原始性、可机器读取、可供社会化利用的数据集的公共服务。近年来,国家对政府数据开放工作高度重视。

 2015年国务院印发的《促进大数据发展行动纲要》要求稳步推动公共数据资源开放。

 2017年

 2

 月,中央全面深化改革领导小组审议通过了《关于推进公共信息资源开放的若干意见》,要求着力推进重点领域公共信息资源开放,释放经济价值和社会效应。

 2017

 年 12

 月,习近平总书记在中共中央政治局第二次集体学习时强调,要推动实施国家大数据

 战略,加快完善数字基础设施,推进数据资源整合和开放共享。

 2018

 年

 1

 月,中央网信办、国家发改委、工信部联合印发《公共信息资源开放试点工作方案》,确定在北京、上海、浙江、福建、贵州五地开展公共信息资源开放试点。

 2020

 年

 4

 月

 9

 日,《中共中央

 国务院关于构建更加完善的要素市场化配置体制机制的意见》首次将 “数据”与土地、劳动力、资本、技术等传统要素并列,提出要推进政府数据开放共享,研究建立促进企业登记、交通运输、气象等公共数据开放和数据资源有效流动的制度规范。

 2018

 年

 6

 月,上海市委书记李强指出, “纵观全球 ,没有一个地方因为封闭而发展,都是因为开放而兴旺,长三角亦应是如此。以互联互通为前提,我们将打造陆、水、空、信息四张网,把区域内陆、水、空、信息的重要节点连起来,让区域联通更便捷 ” 。

 他还强调基础设施连通,还包括数据资源的开放共享。

 2018

 年

 7

 月,沪苏浙皖大数据联盟共同签署《沪苏浙皖三省一市大数据联盟合作备忘录》,加快数字资源开放共享,助推长三角更高质量一体化发展。

 在长三角地区深入推进政府数据开放一体化,有利于打造数字长三角,促进数据要素的跨域流动和融合利用,推动区域数字经济和数字社会的一体化高质量发展。在此背景下,本报告对长三角政府数据开放一体化的现状进行了研究和评价。

  《长三角政府数据开放一体化报告》是 “中国开 放数林指数 ”系列报告发布 的首个区域性报告。

 “中国开放数林指数 ”是我国首个专注于评估政府数据开放水平的专业指数,由复旦大学数字与移动治理实验室制作出品,复旦大学和国家信息中心数字中国研究院联合发布。

 “开放数林” 意喻我国政府数据开放利用的生态体系, “开放数林指数”自

 2017

 年

 5

 月首次发布以来,定期对我国地方政府数据开放水平进行综合评价,精心测量各地 “开放数木 ”的繁茂程度和果实价值 ,助推我国政府数据开放生态体系的培育与发展。

  2018

 年以来,中国开放数林指数为国家互联网信息办公室信息化发展局跟踪监测我国公共信息资源开放情况提供数据支撑。

 2019

 年以来,《报告》被收录进复旦智库报告系列,成为复旦大学每年重点推出的

 15-20

 份有社会影响力的报告之一。

  开放数据,蔚然成林,期待长三角地区的每一棵开放“数木”不仅枝繁叶密、花开结果,更能根系相通、枝叶相连,最终成长为一片茂盛多样、协同一体的长三角“开放数林”。

 长三角数据开放概貌

  一、长三角数据开放概貌

  长三角地区是我国地方政府数据开放实践的重要发源地。

 2012

 年上半年,上海市

 ■

 图

 1

 长三角各地政府数据开放平台上线时间

 推出了全国第一个地方政府数据开放平台; 2014

 年,无锡市上线了长三角第一个、全国第二个地级政府数据开放平台; 2015

 年

 10

 月,浙江省上线了全国第一个省域政府数据开放平台。

 2018

 年以来,长三角地区的政府数据开放平台数量出现快速增长,截至 2020

 年

 9

 月,区域内已上线了

 32

 个省级、副省级与地级政府数据开放平台(如图

 1

 和

 表

 1

 所示)。

 ■

 表

 1

 长三角各地平台上线时间一览表

  上线时间

 2020年 1-4 月 地级(含副省级)

 :

 杭州、金华、丽水、衢州、绍兴、台州、铜陵、温州、芜湖、舟山

  2019年 省级:江苏 地级(含副省级):蚌埠、常州、阜阳、湖州、淮安、黄山、连云港、南通、宿迁、泰州、徐州

 2018年 地级(含副省级):马鞍山、南京、宁波、六安、苏州、宣城

 2017年 /

 2016年 /

 2015年 省级:浙江; 地级(含副省级):扬州

 2014年 地级(含副省级):无锡

 2013年 /

 2012年 省级:上海

  从空间分布来看,目前长三角地区已有 3

 个省级政府数据开放平台上线,分别是上海、

 浙江和江苏,仅有安徽的省级平台尚未上线;共有

 29

 个地级平台上线,主要分布在浙江省除嘉兴以外的所有地区、江苏省的大部分地区和安徽省的东南部地区。各地平台的上线时间和空间分布如图

 2

 和图

 3

 所示,图中颜色越深的地方上线平台的时间越早。在长三角地区,“开放数据、蔚然成林”的愿景已基本实现。

 ■

 图

 2

 长三角各地平台的上线时间和空间分布(省级)

 ■

 图

 3

 长三角各地平台的上线时间和空间分布(直辖市、副省级与地级城市)

 长三角各地数据开放水平

  二、长三角各地数据开放水平

  区域内各个地方的政府数据开放水平能彼此相当、齐头并进是推动横向跨地区协同的基础和条件,因此报告首先对各个地方各自的数据开放水平进行了评估。截至

 2020

  年

 9

 月,在省级层面,上海在准备度与平台层上处于领先地位,浙江在数据层与利用层

 上表现最优(如表

 2

 所示)。

 ■

 表

 2

 长三角省级地方指数与排名

  在地级(含副省级)层面,宁波综合表现最优,其次是绍兴、温州、台州和衢州等地(如表

 3

 所示)。

  ■

 表

 3

 长三角地级(含副省级)地方指数与排名(前二十)

 在空间分布上,开放数据水平相对较高的副省级和地级城市主要集中于浙江省的东部和南部,如宁波、绍兴和温州;紧跟其后的是浙江省内的其它地方、江苏南部的无锡和北部的连云港,再之后是江苏南部的其他地方和安徽东南部的地市。整体上,长三角各地的政府数据开放水平仍差异明显,参差不齐,一方面,浙江、上海等地方已在全国处于引领位置,但另一方面,区域内仍有些地方尚未开展数据开放工作,在数据开放意识和水平上已落后于我国中西部的一些地方。

  ■

 图

 4

 长三角各地开放数林指数分值的空间分布(直辖市、副省级与地级城市)

  在开放数据的数量上,截至

 2020

 年

 4

 月,在长三角区域内,上海平台开放的有效数据集总数最高,已开放了超过三千个数据集,其次是泰州、无锡、杭州、浙江等地的平台(如图

 5 )。浙江、上海和宁波平台开放的有效数据集容量最高。数据容量是指将一个地方平台中可下载的、结构化的、各个时间批次发布的数据集的字段数(列数)乘以条数(行数)后得出的数据总量,更能真实反映一个地方的开放数据总量。

 3344

 2088

 1324

 918

 643

 564

 465

 460

 415

 347

 上海

 泰州

 无锡

 杭州

 浙江

 衢州

 宁波

 温州

 台州

 常州

 ■

 图

 5

 长三角各地平台有效数据集数量(前十名)

 据集。

 ■

 图

 6

 长三角各地平台优质数据集数量(前十名)

 报告还对长三角各地平台上开放的优质数据集的数量进行了比较(如图

 6

 所示),发现浙江和上海开放的优质数据集的数量最多。优质数据集是指数据容量高,社会需求大的数据集。报告首先对各地平台上所有可下载的数据集按照数据容量进行排序,在数据容量相同的情况下再按照下载量排序,最终选出排名居于前

 1 %

 的数据集作为优质数

 ■

 表

 4

 长三角各地平台优质数据集列表(前十位)

 表

 4

 是长三角地区开放的排在前十位的优质数据集,这些数据集普遍具有较高的条数和字段数量,内容主要涉及交通运输、司法、住房、城市管理等方面。

  长三角数据开放

  三、长三角数据开放一体化水平

 3.1 法规政策的协同度

  制定相关的法规政策是推进政府数据开放的法治基础和保障。截至

 2020

 年

 9

 月,上海、浙江和连云港已出台了专门针对数据开放的地方政府规章或规范性文件。其他地方出台的法规政策在专门性上主要有两种类型:一种是将数据开放与共享合并制定,一种是将数据开放作为公共数据资源管理的一个组成部分来制定。长三角各地已公布的与政府数据开放相关的法规政策列表如表

 5

 所示:

  ■

 表

 5

 长三角各地数据开放相关法规政策列表

 浙江省

 浙江省公共数据开放技术规范

  上海市公共数据开放分级分类指南(试行)

  上海市

 制定开放数据工作的标准规范和操作指南,有利于推进数据开放工作的标准化和规范化实施。目前上海和浙江均已制定了专门针对数据开放的地方标准或技术规范(如表 6

 所示)。

  ■

 表

 6

 长三角各地数据开放标准规范列表

  然而,在区域一体化协同方面,目前仅在上海和丽水制定的管理办法中有涉及到长三角公共数据管理和共享的内容。例如,《上海市公共数据和一网通办管理办法》的第七条(长三角一体化)要求 “本市立足长三角一体化战略目标 ,加强与长三角地区公共数据和 ‘一网通办’工作的合作交流 ,通过数据资源共享、平台融合贯通、业务协同办理等方式,推动区域协同发展 ” ;《丽水市公共数据资源管理办法》的第六条提出要 “通过数据资源共享、平台贯通融合、业务协同办理等方式,加强与长三角地区公共数据工作的合作交流 ” 。对于推进长三角各地在政府数据开放工作上的协同合作,目前还缺少相应的法规政策的支撑。

 3.2 开放平台的连接性

 报告发现,长三角区域内已上线的政府数据开放平台在功能设置上都达到了较高水平,相互之间差异较小,已具备了在平台间推进跨区域协同的基础和条件。但目前,平台之间的跨省互联和协同尚未实现,仅浙江省和江苏省平台提供了省内各地平台之间的链接。

  3.3 数据集主题的重合度

 在各地开放数据集覆盖主题的重合度上,浙江平台开放的数据集已覆盖了全部十四个基本主题,上海平台覆盖了除农业农村、社保就业、财税金融之外的基本主题,其他两省尚未开放基本主题下的数据集(如表

 7

 所示)。

  ■

 表

 7

 长三角省级平台开放数据集主题重合度

  3.4 数据集内容的匹配度

 各地开放名称和内容相近的数据集有助于数据利用者进行跨地区的数据融合利用,形成长三角区域数据协同。在各地平台开放的

 14

 类常见数据集中,目前在长三角地区,

 仅有上海平台开放了所有

 14

 类常见数据集,浙江平台开放了其中

 12

 类常见数据集,江

 苏和安徽尚未开放这些常见数据集。(如表

 8

 所示)。

  ■

 表

 8

 长三角省级平台常见数据集名称的匹配度

 ■

 表

 9

 行政许可类数据集字段的匹配度

  报告还比较了各地开放的名称相同或相似的常见数据集的字段内容。以 “行政许可类 ”数据为例 (如表

 9

 所示),上海与浙江两地平台开放的 “行政许可类”数据集中的大多数字段能够匹配,但个别字段没有同时出现在两地开放的数据集中。江苏和安徽则尚未开放同类数据集。

 ■

 表

 10

 食品生产经营抽检类数据集字段的匹配度

 再以 “食品生产经营抽检 ”数据集为例 (如表

 10

 所示),上海与浙江两地开放的食品抽检数据集中的多数字段能够匹配,但个别字段也没有同时出现在两地开放的数据集中。

  报告又进一步对各地平台上开放的关键数据集的匹配度进行了比较,同样发现各地之间差异较大,同一个关键数据集,在有的地方开放了,在有的地方没有开放。如表

 11所示,浙江平台开放了四项关键数据集,上海平台开放了两项关键数据集,而江苏和安徽尚未开放任何一项关键数据集。与全国其他地方相比,长三角地区都未开放疫情防控类数据集。

  ■

 表

 11

 长三角省级平台关键数据集名称的匹配度

 ■

 表

 12

 企业注册登记类数据集字段的匹配度

 即使在不同地区都已开放的关键数据集中,所开放的字段内容也各有不同。以 “企业注册登记类数据 ”为例 (如表

 12 ),上海与浙江平台上的该项数据集在多数字段上能够匹配,但在部分字段上,一个地方开放了,另一个地方却未开放。不同地区开放的数据集之间的匹配度高低,将直接影响数据利用者对数据进行跨域融合利用的程度。

 ■

 表

 13

 长三角省级平台元数据标准的一致性

  3.5 元数据标准的一致性

 在开放数据集的元数据标准上,浙江平台为数据集提供了所有的基本元数据信息,上海平台提供了除数据量以外的基本元数据信息,两地平台的元数据标准基本一致,但江苏和安徽未提供开放数据数据集的基本元数据信息(如表

 13)。

 上海市

 上海开放数据创新应用大赛(SODA)

 浙江数据开放创新应用大赛

 浙江省

 江苏省

 江苏大数据开发与应用大赛(华录杯)

  3.6 数据利用的跨域性

 为了促进开放数据的社会化利用,上海市于

 2015

 年在长三角地区率先举办了开放数

 据创新应用大赛( S O D A ),至今已连续举办

 6

 届,成为数据开放领域的品牌赛事,提升了开放数据的社会知晓度和利用水平,也带动了江苏和浙江举办同类比赛。长三角各地自

 2018

 年以来举办的部分开放数据创新利用比赛列表如表

 14

 所示。

 2020

 年浙江数据开放创新应用大赛还在各地市设置了分赛区,带动了全省的开放数据协同利用。然而,目前长三角地区还未举办过真正跨省际的开放数据创新利用活动,未能有效推动开放数据的跨区域融合利用。

  ■

 表

 14

 长三角省级开放数据创新利用比赛列表

  在社会利用开放数据产生的有效成果的数量和质量上,浙江表现相对领先。例如,高德地图(停车场板块)融合利用了杭州、宁波、台州三市的停车场数据,为市民提供停车指引。然而,目前在长三角地区还缺少跨省际的数据利用成果,对跨域开放数据进行深度融合利用。

  总结与建议

 029

  四、总结与建议

  长三角地区的公共数据资源基础较好,社会利用需求很高,但目前仍有一些地方尚未推出政府数据开放平台,已上线平台的地方在数据开放实际水平上也仍然参差不齐。因此,报告建议长三角已上线政府数据开放平台的地方继续探索前沿,突破难点,还未推出的政府数据开放平台尽早上线(如安徽省级平台、安徽省和江苏省内部分地方的平台),并充分学习区域内数据开放先进地区的经验和做法,以提升整个长三角地区的数据开放广度和深度。

  报告还发现,目前长三角区域的数据开放一体化程度仍偏低,未能充分满足社会对跨域数据进行融合利用的迫切需求。因此报告对提升长三角数据开放一体化水平提出以下建议:

  在 准备度 方面,建议长三角地区的各个地方联手推出有利于促进数据开放区域一体化的政策文件,在各地已制定或即将制定的法规政策中,增加有关推进长三角数据开放一体化的内容要求,并探索制定统一的长三角数据开放标准规范。建议地方党政领导加大对推进长三角数据开放一体化的重视和支持力度,建立跨地区的统筹协调沟通机制。

  在 平台层 方面,建议长三角地区的各个地方平台之间实现相互链接,并加强更深层次的互联互通。

  在 数据层 方面,建议长三角地区的各个平台在数据集主题覆盖、数据集名称和字段、元数据标准等方面提高匹配度和一致性。

  在 利用层 方面,建议在长三角地区举办跨省际的开放数据创新利用比赛,促进跨地区的数据融合利用,产生跨地区的数据利用成果,推进长三角数字经济与数字社会一体化发展。

  开放数据,蔚然成林,期待长三角各地方的政府数据开放工作能早日根系相通,枝叶相连,实现共开共用,共享共赢。

 附录:

  附录:指标体系与研究方法

  1.

 指标体系

  开放数林指数邀请国内外政界、学术界、产业界共七十余位专家共同参与,组成 “中国开放数林指数 ”评估专家委员会 ,体现了跨界、多学科、第三方的专业视角。专家委员会基于数据开放的基本理念和原则,借鉴国际数据开放评估指标体系的经验,立足我国政府数据开放的政策要求与地方实践,结合专家研讨与赋值,构建起一个系统、科学、可操作的地方政府数据开放评估指标体系,并为每项指标分配了权重(见图

 7)。

 ■

 图

 7

 开放数林指数评估指标体系的构建方法

  评估指标体系共包括准备度、平台层、数据层、利用层四个维度及下属多级指标(见图

 8):

  准备度 是 “数根” ,是数据开放的基础,包括法规政策效力与内容、组织与实施、标准规范制定等三个一级指标。

  平台层 是 “数干” ,是数据开放的枢纽,包括数据发现、数据获取、成果提交展示、互动反馈、用户体验等五个一级指标。

  数据层 是 “数叶” ,是数据开放的核心,包括数据数量、数据质量、数据规范、开放范围等四个一级指标。

  利用层 是 “数果” ,是数据开放的成效,包括利用促进、有效成果数量、成果质量、利用多样性等四个一级指标。

  ■

 图

 8

 2020

 中国开放数林指数评估指标体系

 ,

 20%

  ,

  40%

  ,

  20%

  20%

  2.

 评估范围

  报告根据公开报道,以及使用 “数据+开放 ” “数据+公开 ” “公共+数据 ” “政务+数据 ” “政府+数据 ” “地名+数据 ” “地名+政府数据 ” “地名+开放数据 ”等关键词进行搜索,发现了截至

 2020

 年

 9

 月我国长三角地区已上线的地方政府数据开放平台,并从中筛选出符合以下条件的平台:

  1 、原则上平台域名中需出现

 g o v . c n ,作为确定其为政府官方认可的数据开放平台的依据。

 2、平台所代表的地方政府的行政级别为地级及以上。

  3 、平台形式为 “集中专有式 ”或 “集中嵌入式 ” 。

 “集中专有式 ”是指开放数据集中汇聚在一个专门的平台上进行开放; “集中嵌入式 ”是指开放数据统一汇聚为一个栏目版块,嵌入在政府门户网站或政务服务网站上。各个条线部门建设的非集中式开放数据的平台不在指数的评估范围内。

  最后,报告共发现了符合以上条件的地方平台

 32

 个,其中省级平台

 3

 个,地级(含

 副省级)平台

 29

 个,并将上线了这些平台的地方作为报告的研究对象。各地方的平台

 名称和平台域名如表

 15

 所示。

  ■

 表

 15

 评估范围(按行政层级及拼音首字母排序)

 3.

 数据采集与分析方法

  准备度评估主要对长三角各地相关法律法规、政策、年度计划与工作方案、标准规范、新闻报道等资料进行了描述性统计分析和文本分析。搜索方法主要包括以下两种:一是在百度搜索引擎以关键词检索相关法规与政策文本、标准规范、年度工作计划、有关地方党政领导讲话支持的新闻报道以及数据开放主管部门的信息;二是在地方政府门户网站以及政府数据开放平台上通过人工观察和关键词检索采集数据。评估范围数据采集的截止时间为

 2020

 年

 9

 月。

  数据层评估主要通过机器自动抓取长三角各地公共数据开放平台上开放的数据,结合人工观察采集相关信息,然后对数据进行了描述性统计分析、交叉分析、文本分析和空间分析。数据采集截止时间为

 2020

 年

 4

 月,对 “动态更新 ”这一指标的评测时段为

 2020

 年

 1

 月

 1

 日至

 2020

 年

 3

 月

 31

 日一个季度。

  平台层评估主要采用人工观察法对长三角各地政府数据平台上的各项功能进行观测并做描述性统计分析,数据采集截止时间为

 2020

 年

 6

 月,指数出品方还对平台的回复情况

 (

 包括回复时间和回复质量

 )

 进行了评估,数据采集截止时间为

 2020

 年

 8

 月。对于

 6

 月之后进行过全面改版的平台,数据采集截止时间为

 2020

 年

 10

 月。

  利用层评估主要对长三角各地公共数据开放平台上展示的利用成果进行了人工观察和测试,对

 2018

 年以来各地开展的开放数据创新利用比赛信息进行了网络检索,并对

 采集到的数据进行了描述性统计分析。数据采集截止时间为

 2020

 年

 6

 月。

  此外,为确保数据采集准确全面,对部分指标采用报告出品方自主采集和向地方征集相结合的方式,从各地征集到的公开资料经验证后也纳入评估数据。

 各地开放数林指数

 = Σ(准备度指标分值

 *

 权重)

 * 20 % + Σ(平台层指标分值 *

 权重)

  *20%+ Σ(数据层指标分值

 *

 权重)

 *40%+ Σ(利用层指标分值

 *

 权重)*20%

  4.

 指标计算方法

  指数出品方基于长三角各地在各项评估指标上的实际表现从低到高按照

 0 - 5

 分共

 6档分值进行评分,其中

 5

 分为最高分,相应数据缺失或完全不符合标准则分值为

 0 。对于连续型统计数值类数据则使用极差归一法将各地统计数据结果换算为

 0 - 5

 分之间的数值作为该项得分。

 长三角各地平台在准备度、平台层、数据层、利用层四个维度上的指数总分等于每个单项指标的分值乘以相应权重所得到的加权总和。最终,各地开放数林指数等于准备度指数、平台层指数、数据层指数、利用层指数乘以相应权重的加权平均分。各地开放数林指数计算公式如下: