将数据科学部署为完全透明、灵活的数据应用程序,供技术和业务最终用户使用。

如果数据是新的石油,那么我们就缺少管道。

在投资数据素养时,公司在两个主要领域投入了大量精力:

  1. 建立数据科学团队,用数据回答问题,以及
  2. 提高业务线团队的技能,以了解要问什么问题

一旦向两者都注入了大量资源,许多领导者就会惊讶地发现一切进展得如此缓慢。模型很少投入生产,两个团队之间的反馈周期非常长。

作为一门学科,数据科学仍然面临着最后一英里的问题。

将数据科学转化为数据应用程序和服务并非易事,通常需要依赖 IT 或有关部署客户端服务器架构的深厚技术知识。数据专家不仅要创建数据科学,还要向技术和业务同行解释数据科学,以便将最小的项目推向市场,这是一场艰苦的战斗。

在 KNIME,我们的目标是正面解决这个问题,并在数据科学生命周期的每一步为数据团队提供支持。朝这个方向迈出的重要一步是 KNIME 数据应用程序。我们使数据团队能够构建完全透明、灵活的数据应用程序——无需任何 HTML、CSS、Javascript、API 争吵或暂存环境。

使用 KNIME 的数据应用程序

KNIME 分析平台的核心是一个可视化编程环境。该环境用于摄取、清理、混合、探索,然后最终将数据科学生产化。相同的环境可用于构建和自动部署数据应用程序。

KNIME 用户可以灵活地构建各种数据应用程序,并精确控制:

  • 交互性:最终用户可以在多大程度上探索和控制屏幕上显示的数据
  • 复杂性:底层数据科学的复杂程度

数据科学的复杂性尤其将 KNIME 数据应用程序与 Tableau 或 Qlik 等 BI 解决方案区分开来(尽管它们可以串联使用)。虽然许多 BI 工具使交互式可视化更容易,但 KNIME 允许对数据的转换方式以及幕后发生的数据科学进行精细控制。

这种自定义级别可确保数据团队中的任何人都可以为技术和业务线最终用户构建数据应用程序。对于业务线最终用户,该应用程序可以设计为通过直观的界面引导他们理解、探索或操作他们的数据。这种方法称为引导分析。

您可以构建一个数据应用程序来:

  • 为您的领导团队提供业务 KPI 仪表板和自动生成的预测,
  • 指导领域专家访问、可视化和探索他们的数据,
  • 使您的数据科学团队能够通过高度交互的界面探索复杂的机器学习算法。

所有这一切都可以使用相同的拖放式直观界面来完成。

alt
图 1. 由 KNIME 工作流生成的数据应用程序示例(图像下半部分),显示了探索复杂机器学习算法的交互式界面

通过包含适当的组件,任何在 KNIME 中构建的工作流都可以部署为数据应用程序,为用户提供对底层数据科学和用户体验的重要选择和控制。

如何构建数据应用

通过拖放节点,KNIME 工作流几乎可用于创建和生产数据科学的每一步。数据应用程序是使用 KNIME 分析平台中的特殊节点构建的,允许用户调整每个页面的外观和感觉,构建交互,并将应用程序中的多个页面串在一起。

将其置于上下文中,一个典型的 KNIME 数据科学项目,端到端,看起来像这样:

  1. 首先,您可以在 KNIME 的可视化编程环境中访问和混合您的数据。
  2. 然后,您可以使用众多内置算法之一或访问KNIME 开放生态系统中集成的任意数量的技术(Python 等脚本语言、H2O 等机器学习库等)。
  3. 从那里,通过将特殊节点拖放到 KNIME 工作台上,使用相同的可视化、直观环境构建您的数据应用程序
  4. 部署到 KNIME 服务器并通过安全的WebPortal或通过可共享、可嵌入的链接共享您的数据应用程序。
  5. 与 5、10 或 1000 个最终用户共享。
  6. 最后,根据反馈进行监控和轻松调整。
alt
图 2 数据应用程序(右)是使用直观的无代码可视化界面(左)构建的。在此处下载工作流程以探索此示例。(点击图片放大。)

此 KNIME 功能将创建数据应用程序的时间从几个月缩短到几天。结果可以更快地为组织带来洞察力,并消除数据专家的挫败感和障碍。最重要的是,它最终降低了业务和数据科学团队之间的壁垒。

迈向专业化数据科学的第一步

数据科学家拥有创建数据科学所需的所有工具:摄取和清理数据,混合、探索和分析,在某些情况下,还可以根据数据进行预测。这些能力在某种程度上已经存在了几十年。

困难的部分是缩放。

为了有效支持“数据驱动”业务,数据科学家必须超越一次性预测或分析。他们需要一种方法来打包他们的发现并与人类和机器分享。为此,KNIME 平台通过创建和生产过程的每一步为数据专家提供支持。