多年来,我一直听到诸如“数据是新石油”或“数据是新黄金”之类的短语。然而,我们越是关注和讨论数据管理和利用,就会出现一个更准确的比较:数据就像放射性物质

就像放射性物质一样,数据在创造积极的变化和创新方面具有巨大的潜力。但是,它也带来了必须谨慎管理的固有数据风险。正如放射性物质处理不当可能导致灾难性后果一样,对数据的疏忽处理也可能导致严重伤害。

作为人工智能的构建者和用户,我们必须采取一种思维方式,就像处理数据时处理放射性物质一样——承认它既有好处也有坏处,并采取积极措施确保其负责任和有益的使用。

数据和人工智能的演变

在 2010 年代,大数据时代出现了,其标志是前所未有的信息涌入。这种数据的激增对于大规模模型的功能至关重要,推动了对大量信息的需求。然而,随着我们过渡到 2020 年代,重点明显转向 为特定用例收集正确的数据。这种转变凸显了质量胜于数量的重要性以及有针对性的数据采集的重要性。

最近,生成式人工智能(GenAI)的兴起改变了我们认为是数据的内容类型。 数据不再局限于电子表格和结构化数据集,现在包括文章、视频等。

虽然这种扩展扩大了人工智能计划的可能性范围,但它也带来了新的复杂性和风险。 有了内容即数据,不仅人工智能项目的复杂性会增加,而且数据成为公司负担的可能性也会增加。

当数据是资产与负债时

虽然数据可以通过提供切实的业务成果而成为宝贵的资产,但它有一些严重的局限性,如果管理不善,可能会成为巨大的负担。

在GenAI和成熟的隐私法规之后尤其如此。 引用多米尼克·谢尔顿-莱比锡(Dominique Shelton-Leipzig)的《信任》一书,“为了避免数据创新和数据隐私之间的冲突,有必要进行重新校准。如果数据泄露是一个国家,而6万亿美元的损失是GDP,那么数据泄露的国家将成为仅次于美国和中国的世界第三大GDP。默认情况下,保留的日子已经一去不复返了,尤其是在数据没有产生价值的情况下。

即使是对数据治理有良好处理能力的组织,通常也无法将相同级别的数据治理应用于当今以报告、PDF、会议记录、演示文稿和其他多媒体资产形式提供的大量新内容数据源。

以下是我们看到数据成为公司负担的一些场景:

  • 无目的收集数据或将数据用于多种目的。 例如,原始数据可能是出于交易目的而收集的(即我们需要在患者记录中捕获医生笔记以记录诊断和治疗计划),但试图将相同的数据用于不同的未说明目的并不总是有效。
  • 存储大量数据。 数据需要大量的能源来存储、保护和处理,从而导致碳足迹增加。
  • 数据会带来安全风险。 网络犯罪分子被吸引到拥有大量数据的组织。随着存储的数据量的增长,您是否准备好减轻随之而来的额外风险?
  • 数据质量差会导致模型训练不足。 AI 和 ML 依靠干净的数据才能正常运行。没有它,公司可能会面临代价高昂的错误。

幸运的是,有几种策略可以避免这些数据陷阱。

使数据成为资产的策略

检查数据创建时引入的缺陷

受最严格保护准则约束的数据通常是源自人类的,无论您是在观察人类用户、捕获交易信息、构建对话代理还是任何其他以人类为中心的 ML 活动。人类是复杂的,有时是愚蠢和不可靠的,这意味着数据反映了其中一些错误。

正如 Dun 和 Bradstreet 所说,“当数据脏污时,通常有一个潜在的业务流程问题需要解决。换言之,不准确或不完整的数据通常是由于数据收集实践不佳、缺乏数据治理以及 IT 与业务目标之间的不一致造成的。不要以为你所捕捉到的是对世界的准确表示。

实际应用

根据我与医院合作的经验,由于应用了错误的诊断,或者需要将卫生系统之外的实验室工作添加到他们的记录中,因此重新访问并使用新数据更新患者病例的情况并不少见。

在处理主要数据时,这很好。但是,建立在原始不完整或未校正数据上的模型存在级联效应。虽然数据可能永远不会完美,但您需要确保数据卫生处理不仅针对数据,还处理订阅它们的模型。

权衡风险

每次选择收集新数据时,请权衡 (1) 收集数据和 (2) 保留数据的风险。它只会增加贵公司的责任,还是与允许的用途有关,因此值得存储(阅读:保护)?

完美是不存在的

不要成为追求完美数据的公司。通常,通过快速原型设计构建模型将产生缺失数据的性质,并让您在为正确的目的捕获正确的数据方面抢占先机。

一般来说,我们必须停止默认将数据视为有价值的数据。Cassie Kozyrkov在LinkedIn上写得最好:“我希望我们都不要再用大写的’D’来发音数据了。数据不是魔法——仅仅因为你有一个充满数字的电子表格,并不能保证你能够从中获得任何有用的东西。

良好的数据是过程的函数。 随着利用 GenAI 强大功能所需的数据量增加,投资数据质量从未像现在这样重要。只有通过流程和谨慎的投资,数据才能变得有价值。它可能不是等待被发现的黄金,而是一颗正在加工中的钻石。