top of page
  • 作家相片Gao Zhe

企业数据防护,如何破局?


数据丢失防护(Data loss prevention, DLP)软件可检测潜在的数据泄露/非过滤数据传输,并通过在使用(端点操作)、移动(网络流量)和静止(数据存储)时监控、检测和阻止敏感数据来防止这些(泄露)。



写这篇文章着实非常惶恐,整篇用词与修饰也是经过反复琢磨和调整。因为 DLP 是个很大的产业,涉及几乎印有数据安全标签的所有安全厂商,企业数据安全建设的第一站往往也以安装 DLP 为起点,企业员工怒骂公司行为的背后也往往有 DLP 的影子在,可见该话题的影响甚大。

同样的话题讨论,发生在国外,已经是 5 年前了。2018 年 4 月 5 日,Gartner 高级 VP 级别分析师 Avivah Litan,发表了一篇博文,名为“DLP is Dying”*,但是博文内容已经过修改,因为原始内容关于 DLP 正在消亡的言辞引起了安全厂商的极大不满,开启了激烈的网络争论,作者迫于舆论压力重新修改了文章,并关闭了自己 LinkedIn 留言功能。

作者本人从事企业数据安全相关工作的时间,不算太长也不算太短,说起来也有超过十年的时间了。自身开发过 DLP 的产品,也主导了阿里巴巴原生 DLP 产品向 UEBA(user and entity behavior analytics,用户和实体行为分析技术)的转型升级,见证了身边不少新兴 DLP 厂商的迅速消亡,听惯了企业员工的骂声和老板的质疑,也帮助不少企业完成了适合自身 DLP 产品与方案的选型和落地。就经验上来讲,或许能有一点点有价值的输出,帮助安全同行们在规划自身 DLP 产品的时候适量避坑,也让企业们在选择适合自身安全产品的时候多一点点参考,期望写在这里的一些经验总结能起到这些作用。


一、DLP产品分类

数据防泄漏的产品有很多种类型,云桌面、沙箱、透明加解密也都是可选方案,DLP 区别于这些方案的特点,在于其本身是通过在不改变任何用户使用数据的习惯的前提下,自动检测出数据泄露的行为。企业内的员工甚至都意识不到 DLP 安全产品的存在,也不需要跟该产品进行任何形式的互动。

举些形象的例子,云桌面(类似的叫法还有虚拟桌面、VDI、DaaS)和沙箱好比家里的保险箱,值钱的东西都锁在里面出不来;透明加解密原理类似于在电影和电视剧里,看到的故事情节:情报人员用米汤在纸上写字,待米汤干燥后送出。而收到情报的人员, 把这张“白纸”放入碘酒中泡一下,就可以读到纸上的秘密信息;DLP 就是那个挂在墙上监控摄像头,它能震慑小偷,但也不能干扰小偷做坏事,默默记录下作案过程事后追责。

DLP 产品本身,按照数据所处位置的不同,国外同行们又定义出了 4 个分支,终端 DLP、网络 DLP、云应用 DLP、存储 DLP。很遗憾在国内的环境里,真正能被应用的只有终端 DLP 和邮件 DLP,其根本原因在于国内应用生态的落后和封闭,之前的一篇文章有详细分析过。

邮件 DLP 依附于企业自有的邮件服务器,通常以邮件网关的形式存在,去过滤外发的邮件内容,应用场景非常直观和单一,所能达到的防泄漏效果也比较狭窄,毕竟真正想偷盗企业数据的员工,还是会聪明到不用企业自身邮箱把数据给发出去。

因此,咱们这里就重点讲讲最为复杂的,终端 DLP。


二、终端DLP及其困局

不避讳地讲,DLP 是针对企业内部员工监守自盗的防范措施,不论是刻意为之还是无心之施。盗窃行为的案发地,就在办公终端上,以前以办公电脑为主,移动互联网后新增了移动端设备。辅助作案的工具就最为复杂多样了,常见的聊天工具(微信、QQ、钉钉)、第三方网盘、U 盘、蓝牙传输、AirDrop、云笔记、共享目录……无法穷举。所有这些作案工具被 DLP 产品统称为外发渠道,需要定点进行覆盖和监控。 DLP 并不是一个新的产品形态,其历史可以追溯到国外 25 年之前,国内 20 年之前。对于大量企业来讲,企业当前的数据被一张渔网包裹着,这些数据随时都能从渔网上的一个孔洞里漏出去,DLP 产品所做的就是不停地尝试在新的漏洞里面安装上摄像头,记录下来什么时候有数据从哪个洞出去了。但现实是这张渔网无限大,且还在不断自我膨胀,DLP 在一个洞口安装了监控的同时又生出了 2 个新的洞。还有些洞,门框太高或者墙壁太滑,连摄像头都装不上去。

除了产品本身研发的困难之外,DLP 还面临着很多其它挑战。

1. Everybody Hates DLP(人人喊打)

想想也真的觉得神奇,恐怕没有其它任何一个产品能像 DLP 这样,达到人人都“讨厌”的地步,即使是花钱采买的企业自己也是同样的心理。

2. 渠道覆盖不完,移动端束手无策

在移动互联网之前,DLP 是极其有效的。那会企业员工都还在主要依靠 PC 台式机办公,能带离办公室的笔记本都比较少见;企业办公主要数据资产还是终端的文件,不像现在有那么多 Web 系统,各种在线文档更是越来越普及,数据已经离开终端上云了,脱离了非结构化形态,变成了结构化和半结构化。

那会企业有专门的局域网,出了局域网也无所谓工作了,没有 996,没有居家办公,企业数据也局限在办公室的局域网内。

那会个人没那么多聊天工具,没那么多第三方服务,数据没有好的去处,也无法自由地流动。

那会没有那么智能的手机,数据还在办公电脑里,而不像现在到处飞。

那会没人关注个人隐私,员工不会质疑公司安装的安全软件;那会没有《数据安全法》,没有《个人隐私保护法》,安全软件可以干任何想干的事情。

那会操作系统还没有回收或者加强终端内核接口的管理,在终端采集数据不需要员工主动授权,不像现在操作系统动不动就弹窗提醒,吓得员工一激灵。


试想如果电脑里突然弹个窗口显示“某某安全软件正在尝试控制这台电脑……”的提示,那就有得热闹了。这些最终都会转化为企业 IT 和安全团队的运营成本。


3. 安全手段太容易被绕过

过往和当前的终端 DLP 技术路线,基本还是在享受信息不对称的红利。普通员工对 IT 技术原理不了解,忌惮企业宣传的安全能力,不敢轻易尝试破解办法,只能想到给文件打个压缩包,改个后缀名这样的办法。

普通非安全专业的 IT 团队,缺乏安全经验,无法判断 DLP 产品能给企业带来的实际作用,而是参考同行和公开渠道的乙方宣传,而认为应该采用 DLP 方式。

搜索引擎限制和内容缺乏,国内互联网上给人支招去绕过 DLP 的内容很少,但是 Google 相关内容却异常丰富。引用国外同行的总结:

I HAVEN’T SEEN A DATA LOSS PREVENTION TOOL MY TEAM CAN’T BYPASS IN TWO SECONDS. 我还没有看到我的团队在两秒钟内无法绕过的 DLP 工具。 ——A CISO AT A GLOBAL FINANCIAL SERVICES COMPANY


4. 误报太高,导致运营成本过重

任何技术手段是有局限的,作为安全软件技术来讲,都会面临两个致命的问题,不光是 DLP 独有的问题。

①数据归属判定:识别到敏感数据并不困难,困难的是无法区分该数据是归属企业的还是个人。比如员工在办公电脑上接收和处理了一份自己汽车保险的合同,DLP 发现合同是很敏感的数据,但它没法知道这是员工个人的数据。

②敏感操作判定:同样识别到数据操作的敏感行为并不困难,困难的是无法判断该行为是否违规。比如识别到员工外发了一个敏感文件,内部含有大量财务数据。DLP 无法判断这是销售人员发送给客户的报价单,还是发送给竞争对手的内部定价规则。

以上最为本质的两个问题,无法通过程序自动化的解决,那么就只能在终端不断地上报日志。随着企业员工数量和终端的增加,这些日志数据呈几何式的增长,少量的违规行为数据埋藏在海量的正常日志中,等着某天通过别的方式发现有人偷盗公司数据的事后,进行日志溯源反查。

三、终端DLP的破局之路

严格意义上讲,人类的技术进步,从来没有从 0 到 1 之说,或者最开始的那个 0 我们已经无法追溯。任何所谓新技术,新产品形态的诞生,都依仗无数过往技术的铺垫。同时也意味着,几乎没有哪项技术会消失,所谓的过时只是换了一种形态和方式,去支撑下一代创新去了。碳原子从没有消失,只是在不同生命体之间游走。

未来 DLP 的重点,不再是去支持更多外发渠道,不是去吃力不讨好地延续国外文件指纹的技术路线,个人的建议是走被应用集成的路线。


1. 被UEBA集成,而不是成为UEBA

新型的 DLP 多打着 UEBA 的旗号,然而事实是其永远也成不了一个 UEBA 的产品,无论在终端采集多少行为数据都是无用功,传统的 DLP 采集的和能够采集的数据已经够多了。

事实上对于任何一个期望建立在数据模型上的应用来讲,最为核心的不是采集单一维度数据的能力,甚至都不是数据处理的能力,而是你到底有没有关键数据的能力。例如一个 DLP 采集了所有员工的对外聊天记录信息,远远不如有一条员工和对方好友关系的数据来得重要,员工和聊天的对方是夫妻、同事、客户、友商还是别的关系。但这样的数据,可不是一个第三方 DLP 产品能够拥有的。


2. 以企业数据为中心,而不是以人的行为为中心

人的行为受制于不同上下文和在职场的角色,而千变万化,无法预测,能够标准化的并不多,顶多是针对快离职的员工进行定向的关照,如在离职期间大量拷贝企业组织架构和内部文档的行为,八成是可疑的,但除此之外能标准化判断的行为并不多。

与其盯着终端文档,去记录和串联文档的创建、修改、重命名、打压缩包这样的行为,不如去针对企业数据集中的应用进行特定应用的探针支持。方式上采用应用开放接口对接的方式,而抛弃终端 Hook 应用的模式。如针对钉钉、企业微信开放平台去打造企业内部安全应用,去收集应用行为数据给到 UEBA 引擎使用。


3. 从Detection的角色转换为Response

DLP 历来被诟病最多的就在于其风险偏事后的特性,无法在风险发生当下进行阻断,而只能作为事后溯源的手段。从技术实现上来讲,能检测就能阻断,只不过之前因为无法准确判断行为而不敢阻断,倘若成为 UEBA 的一部分,那么便可在数据模型的加持下,让阻断能力重见天日。 4. 帮助企业去归集所有维度数据,而不是基于终端行为建模型

同第一点一样,安全风险的最终解法靠数据,现有 DLP 采集的终端维度数据远远不足够用于建模,安全企业和产品应当帮助企业去收集内部能够被用于建模的一切数据,综合设计数据风险模型,DLP 就聚焦在采集和响应即可。


1 次查看0 則留言

Σχόλια


bottom of page