大数据的开发应用和保护

发布者：发布时间：2018-08-09

随着信息化建设和应用在过去几十年的快速发展，政府和其它很多行业都积累了海量的业务应用和服务数据，并且还在不断地快速增长，这些数据不仅仅是对业务应用和服务的记录，如果能加以有效的开发和利用，它们将在相关领域带来巨大的社会和经济效益。比如，对医疗健康大数据进行深度开发和利用已经成为全球范围内的热点研究内容和方向，各学术机构、研究单位、政府部门、企业都纷纷在这一领域投入大量人力、物力和财力。可以说，数据就是效率、数据就是效益，这些数据如果不加以合理开发和利用，那就是对社会财富的一种巨大浪费。

但是在大数据的开发和利用过程中，个人隐私信息的保护一直是一个伴生问题。比如，医疗健康大数据中包含大量的个人隐私信息，如姓名、电话、住址、病情、家庭情况等，这些信息对黑产经济有巨大的利用价值和强烈的吸引力，一旦泄露，可能会给患者及其家庭带来各种精神困扰和经济方面的损失。2017年六月开始实施的《网络安全法》[1]中也明确将个人信息保护作为网络安全的一个重要内容，国家相关部门也在组织起草和制定《信息安全技术个人信息安全规范》[2]，以“规范个人信息收集、存储、处理、使用和披露等各个环节中数据操作的相关行为”，以“遏制个人信息滥用乱象，最大程度地保障用户合法权益和社会公共利益”。个人隐私的保护在国外也是重要关注内容，并已经有相关标准[3]。

大数据的开发利用和个人信息保护本质上应该是一个相辅相成的过程，二者应该达到某种程度的平衡。如果对大数据过度保护，或者保护范围过大，那就可能会限制对这些数据的有效开发和利用，但是如果不加任何保护的开发，那就容易陷入个人信息被滥用的境地，反过来也会使数据的开发利用陷入窘境。

目前在大多数实践中，大数据管理者和开发方经常不是同一个实体，大数据开发方为了开发大数据，一般会要求大数据管理者提供所要求的数据，这一过程中，大数据管理者面临着以下困境：他们必须为每个开发方提供数据副本；他们必须根据每个开发方的需求，对要提供的数据进行脱敏；如果开发方有意或无意泄露这些数据，他们也可能承担相应的损失或责任。

为了克服大数据管理者面临的问题，本文提出一种基于数据扩散控制的大数据保护方法。该方法的主要思想是：大数据的管理者基于安全虚拟化技术，为数据开发方提供集中的数据处理平台，所有待处理的数据及其处理结果都被限制在指定的物理范围内，数据开发方不再拥有大数据副本，因此不必担心由于他们引发的数据泄露问题。这一基于数据扩散控制的大数据保护方法不影响数据开发方的数据处理流程和操作习惯，也不需要对相关应用进行修改。

1 大数据的安全保护现状

数据脱敏方法是目前大数据安全保护中较为常见的方法。所谓数据脱敏是指对大数据中的个人敏感信息进行技术处理，使得其中的个人信息主体在不借助额外信息的情况下，无法被识别。数据脱敏应当尽量保证数据原始特征不被破坏，使得共享的数据具有相同或者相当的可利用价值。

常用的数据脱敏方法包括采用加密、哈希或者删除相关个人敏感信息等，虽然这些脱敏方法还存在一些问题需要进一步解决，比如如何隐匿个人隐私标识数据并在其余数据公开的情况下，不能反向推定已隐匿的数据，相关算法也是研究热点，包括k-匿名、L多样性、差分隐私等[4]。

对大数据采取分级分类的保护也是大数据安全保护的一个重要内容。数据分级分类保护是指根据数据的重要性和敏感性等指标，对数据进行类别和安全等级划分，并按照数据分级分类结果，采取相应强度的数据安全保护措施，以实现在最大程度地开发和利用数据的同时，对数据进行充分和必要的安全保护。

数据的分级分类保护应该采用多维度指标体系，比如数据形态、数据内容、数据类型、数据完整性、数据准确性、数据新鲜度、数据加工层级、数据重要性、数据敏感度等，不同的保护需求和应用场景，其分级分类指标可能不尽相同。

美国国家标准和技术研究所（NIST）提出了数据分级分类的建议和方式[5][6]。NIST按照信息和信息系统保密性、完整性和可用性等三个方面定义了数据分级分类的维度，同时对每个维度定义了三个影响级：低、中、高。NIST还根据信息系统中处理、传输和存储的信息类型的重要性来确定该信息系统的安全类别，并配套制定了相关标准指南，以配合上述分级分类原则的实施和落地[7]。

尽管以上研究和安全措施有其重要意义和安全作用，但是在目前的实践中，还是面临很多安全局限性。

首先，它们对内部员工和第三方服务人员（如驻场开发、测试和维护人员）缺乏有效的安全管控手段。在利益的诱使驱动下，这部分人群可能会利用他们对内部网络安防机制的了解以及他们能够接触到数据的便利，绕开安全机制或利用安防漏洞，截留、获取敏感数据，并通过转让或出售等方式获得非法利益。近几年来，这类案件在银行、卫生医疗、物流、教育等行业领域频频发生，给社会带来极大的危害；

其次，由于各种原因，大部分用户的网络安全防护措施在设计和建设时都或多或少地存在疏漏环节，加之在日常管理运维中也存在经验不足或管理不到位情况，给数据的越权访问提供了机会，这些违规行为很难被发现和追踪；

再次，在大数据开发和应用环境中，数据的所有权和使用权在技术层面很难分割，如果允许相关人员或合作方对数据进行开发和应用，就意味着他们在技术层面拥有数据的所有权，他们可能会未经允许对数据进行复制转让，由此带来数据损失和安全责任问题；

最后，网络病毒和木马依然是严重的数据安全威胁，比如勒索软件利用病毒木马的原理机制，对用户数据进行加密，并通过金钱敲诈等方式获取非法利益，而传统的网络病毒检测和查杀机制还不能对勒索软件等进行有效防范。

大数据面临着这些安全风险，一个重要的根源在于数据扩散问题。如果大数据的管理者能够有效控制大数据副本的复制范围，将大数据限制在一个可控可信的物理环境中，那么上述风险就会得到极大地缓解。

2 基于数据扩散控制的数据安全保护方法

针对数据安全风险和传统网络安全机制的局限性，本文提出一种基于数据扩散控制的数据安全保护方法，即将数据副本的复制范围限制在一个可控可信的物理环境中。其主要思想包括：

（1）通过集中化的数据安全操作平台实现对数据的集中安全管控，对数据的复制范围进行安全控制，防止数据泄露；

（2）通过密码技术实现对集中数据安全操作平台的可信运行保证，有效阻止数据勒索威胁，同时对用户操作进行规范；

（3）通过细粒度的数据访问控制机制，防范数据的越权访问；

（4）通过可视化安全审计机制，对相关人员的违规操作和访问行为进行快速和直观的追溯。如图1所示。

图1 基于数据扩散控制的数据安全保护方案

图1中，“集中数据安全操作平台”基于虚拟桌面技术实现，操作人员通过“远程/本地访问终端”进入“集中数据安全操作平台”中的虚拟桌面，并基于虚拟桌面访问应用系统和相关数据库。“远程/本地访问终端”不实际处理和存储任何数据，它们只起到“集中数据安全操作平台”中虚拟桌面的显示器和输入设备作用。

在“集中数据安全操作平台”中，系统还通过基于密码技术的“可执行程序保护白名单”机制对系统运行进行保护，所有未经批准的程序都不能在平台中运行。“可执行程序保护白名单”机制是可信计算平台技术的核心内容[8]，它可以有效防范各种勒索软件和病毒木马，同时还可以规范操作人员的操作行为。

“数据安全网关”不仅对操作人员进行身份认证，对其所使用的“远程/本地访问终端”也进行设备认证，未经批准的终端设备不能远程访问“集中的数据安全操作平台”；认证通过后，“数据安全网关“的一个最主要功能是对数据进行保护，它可以基于操作人员的身份对数据进出进行控制，比如可以允许一般人员把数据从外部网络（如互联网）复制到平台内部，但是不能将安全平台内部的数据复制到外部，确保数据不会被窃取或泄露。

“安全访问控制模块”对数据采取进一步的安全保护，它可以制定安全规则，规定“哪些人可以用何种方式访问数据”，防止越权和非法访问。

“安全审计和可视化追踪”模块收集其它相关组件（模块）的审计日志记录，在发生安全事件后，基于保存的审计日志记录对安全事件进行回放、分析和追踪，帮助对安全事件进行认定，比如可以快速查证某个操作人员是否访问或查询过某个特定数据。

显然，图1的方案可以做到：非法人员和设备“进不来”，违规操作“做不了”，未经批准“看不到”，敏感数据“拿不走”，出了问题“跑不掉”。

3 大数据的安全保护

结合大数据应用特点，将第2章图1方案应用于大数据的开发和安全保护中，本文给出如图2所示的大数据开发应用安全平台。

图2 大数据开发应用安全平台

图2中，除了“大数据开发和应用系统”和“远程/本地访问终端”由大数据的开发者或共享者（以下简称为数据共享者）所有外，其它组件都由大数据的所有者或管理者（以下简称为数据所有者）所有或管理。

“大数据开发和应用系统”被部署在大数据开发应用安全平台中，数据所有者能够参与其运行和安全管理。大数据来源于业务应用等领域的元数据，这些元数据经过数据同步、整形和处理，以标准形式存放在数据库中，这一过程可能是实时动态的。

“大数据服务平台”为“大数据开发和应用系统”提供数据服务，比如数据集市、数据统计、数据脱敏等处理。“大数据开发和应用系统”通过调用“大数据服务平台”的API接口来使用相关服务。

大数据开发者通过远程或本地操作终端进入图2“大数据开发应用安全平台”中，对大数据进行开发和应用。数据共享者通过远程或本地操作终端进入图2“大数据开发应用安全平台”中，对大数据进行开发和应用。

图2方案中，大数据管理者并不把数据（包括脱敏后的数据）提交给大数据开发者，大数据只能在集中数据安全共享平台中被处理和存储，大数据开发者必须远程进入“集中数据安全操作平台”才能对大数据进行处理，其处理结果只有经过审核和批准后，才可以被允许复制到大数据开发应用安全平台之外。因此，在大数据开发和应用过程中，大数据管理者不必担心数据被转让，也不必担心大数据开发者的越权访问行为，一旦发生数据泄露和违规操作行为，大数据管理者可以通过可视化审计机制对安全事件进行快速追溯取证，帮助确定安全责任。

图2方案通过数据扩散控制机制实现了大数据使用权和管理权的分离。大数据开发者可以根据数据开发需求有效使用数据，但是他们没有数据的所有权和管理权，无法将数据复制扩散到大数据开发应用安全平台之外，也不能将这些数据转让给第三方，从而避免数据非法泄露事件的发生。将数据的管理权和使用权进行分离是图2方案的创新之处，传统的大数据安全保护方案难以在技术层面实现这一点。

图2方案在技术上是可行的。大数据管理者可以基于已经成熟的虚拟化或云计算平台技术实现大数据开发应用安全平台，为多个大数据开发者提供集中的共享数据操作和处理平台服务，大数据开发者将数据处理工具（图2中的“大数据开发应用安全平台”以及数据操作客户端）都部署安装在上述安全平台中，采用类似云计算的方式，对大数据进行开发。

结语

对大数据进行充分开发和利用是“互联网+”时代不可避免的趋势，也是社会进步的重要推力，与此同时对大数据中涉及到的个人隐私采取必要的保护也是推动大数据开发利用的重要保障。基于数据扩散控制的大数据开发应用安全平台，不仅能够很好地满足大数据开发的现实要求，还能够很好地保护个人敏感信息，并让大数据管理者有效规避数据安全管理风险。大数据管理者通过建设大数据开发应用安全平台为大数据开发者提供云服务，无论是在经济性还是在社会公益性方面，都是一种优势选择。

上一篇：“台积电中毒停产”事件反思：万物互联安全为先

下一篇：腾讯云丢失数据被索赔1100万！官方承认有两次违规

大数据的开发应用和保护

发布者： 发布时间：2018-08-09

联系我们

发布者：发布时间：2018-08-09