据称,Acuity 发生了数据泄露事件。这就是两年前发送给我的大量数据的背景。我调查了它,尝试归因并验证它,然后将其放入“太难的篮子”中,并转向更紧迫的问题。直到本周,当我拼命地试图腾出一些空间来处理更多数据时,我才意识到为什么我首先缺乏空间:
啊,是的 – Acuity – 那个蓝色的 437GB 大斑点。接下来是我试图弄清楚这个东西是什么地球的过程,围绕数据的混乱,处理它的可疑人物,以及最终,它现在如何在我是否被 Pwned (HIBP) 中搜索到,这可能是最初是什么让您看到这篇博文的。
收到数据泄露事件后,我做的第一件事就是在谷歌上搜索: acuity data bad 。这立即产生了六月份的最佳结果:
啊,Acuity 是一家医疗保健公司。但是等等 – 这是下一个结果:
这与医疗保健无关,而是 Acuity Brands 的问题。被攻破的名为“Acuity”的公司到底有多少家?!让我们看看我的电子邮件中有哪些参考资料:
另一种?♂️ 这种“违规”可能是偶然的,所以我们称其为“也许”,但它又是一个旁边有问号的敏锐度。那么“Acuity”公司总共有多少家?就在调查这些数据的过程中,我总共发现了 6 个据我所知完全不相关的数据:
- Acuity Healthcare(绝对违规): acuity.healthcare
- Acuity Brands(绝对违规): acuitybrands.com
- Acuity Scheduling(可能被破坏): acuityscheduling.com
- 视力保险: acuity.com
- Acuity“为支持国家安全和公共安全任务的联邦机构提供创新技术解决方案”: myacuity.com
- Acuity 广告: acuityads.com (现在重定向到illlumin.com )
呃,太棒了。我们稍后将研究它们并尝试找出它们在图片中的位置,但首先让我们看一下实际数据。我们已经知道它有 437GB,但最令人惊叹的是列标题的宽度;这是全部 414 个:
仅仅通过肉眼观察这些数据,就感觉这些数据确实不像是来自医疗保健提供商、品牌公司或调度程序的数据。然而,另外 3 个……也许吧。
在进一步讨论之前,还有一些数据点:
- 这些文件名为“ACUITY_MASTER_18062020.csv”(这是我选择标记违规的日期 – 2020 年 6 月 18 日)
- 文件中有 21,873,706 个电子邮件地址
- 其中,“只有”14,055,729 是唯一的,因此存在一些冗余
- 数据的清理和格式化方式绝对不反映最终用户输入数据的方式
关于最后一点,这是我正在谈论的一个例子:
姓氏相同,称呼也相同。物理地址的结构和电话号码一样准确。没有空格,没有破折号,也没有数百万不同的人输入数据时所特有的其他痕迹。这很干净——太干净了。
“datasource”字段是另一个有趣的数据点,前 10 个值是:
- 团购网
- 大众生活网
- 学生评论网
- 标签网
- jamster.com
- Expedia.com
- 哥伦比亚广播公司市场观察网
- netflix.com
- selfwealthsystem.com
- gocollege Degree.com
这些条目中的每一个都至少出现了数十万次,甚至数百万次。例如,这是否意味着 Netflix 向该列表提供了客户数据?几乎肯定不是,但这确实让人想起我一年前写的 Acxiom / Live Ramp 错误归因帖子,其中我列出了类似专栏的完整计数。最高值之一也是“TAGGED.COM”(也全部大写),以及两个来源中也出现的其他几个值。
回到归因,跳出一个流行黑客论坛上的帖子:
这里的许多内容都排列整齐,例如该数据源非常独特的列名称,包括“estimated Revenuecode”、“del_point_check_digit”和“ secondaryaddresspresent”。归因于名为“Acuity”的保险公司,但这准确吗?保险公司收集大量数据,因为这些数据与他们的业务运营方式相关,但这些数据极不可能包括以下字段:
- 观众体育篮球
- 缝纫针织针线活
- 高档零售卡的存在
在“数据丰富”领域,公司出售大量数据集,以便扩展购买者现有客户群的个人资料数据,这一点更为重要。它是合法的,诚实的、合法的商业模式。这也与此没有区别:
嘿,437GB!并且列名对齐!这就是所谓的敏锐度!列数与我的略有不同(与黑客论坛帖子相似但不同),电子邮件数也略有不同,但相似之处仍然惊人。我如何获得这个资源也很有趣,几年前我曾与某人讨论过这些数据:
YouTube 视频演示了向客户发送电子邮件的营销活动管理工具。这是否表明数据来自 Acuity Ads (现为Illumin )?不,就其本身而言,演练与我过去使用过的其他竞选工具并没有什么不同。无论我怎么寻找,我都找不到返回 Acuity Ads 的可靠线索,任何哪怕是有一点关系的东西都只是间接的。它可能来自他们,但也可能来自许多其他地方,而一个几乎相同的数据集位于一个彻底的垃圾邮件网站上,这一事实只会让整个谜团变得更加深刻。该电子邮件中还有一个更有趣的数据点:
我本人就在该数据集中,并且收到的网络钓鱼/诈骗电话、电子邮件和实体邮件数量增加了 100 倍
让我用一个最好的猜测来结束这篇文章:这感觉就像2017 年南非发生的大规模 Master Deeds 事件一样。在这种情况下,一家合法运营的数据聚合商(我想你现在知道我对这些信息的感受了……)将个人信息出售给一家房地产企业,然后该企业将其公开暴露。我说感觉是一样的,因为它是一组非常干净的数据,而且在列方面显然非常全面。这正是我期望数据聚合器准备并出售给其他企业的内容,以便他们可以识别哪些现有客户喜欢针线活。
过去,发布这样的博客文章有助于识别源服务,如果这种情况再次发生在这里,那么我一定会提供更新。目前,我已将其加载到 HIBP 中并将其标记为垃圾邮件列表,这意味着它不会影响任何人的域的大小并将其提升到不同的订阅级别。如果您对此数据有任何有趣的见解,请在下面发表评论,如果运气好的话,其中一个 Acuity 实体将作为来源出现。
注意:加载数据后,我计算了 HIBP 中预先存在的地址数量。这似乎是一个具有统计意义的数字?
所以,100%(实际上略低于,但四舍五入)。通过研究一堆样本地址,它们出现在各种其他现有垃圾邮件列表和狡猾的数据聚合器漏洞中。谁知道哪一个先出现,只是违规大池中的更多数据。 https://t.co/Ux2rw6uaAk
— 特洛伊·亨特 (@troyhunt) 2023 年 11 月 15 日
原文: https://www.troyhunt.com/acuity-who-attempts-and-failures-to-attribute-437gb-of-breached-data/