低代码数据科学是未来插图

人工智能——或者你喜欢的数据科学——已经成为主流。它不再是一个研究领域。随机森林和深度学习网络现在在库和工具中可用,等待应用于业务问题和现实世界的数据。确实如此,以至于 AI 的重点现在已经从提出新范式和新算法转移到通过标准化的 MLOps 序列来设计现有解决方案。当某些事物远离研究并成为主流时,数据分析社会的其他部分就声称可以访问它。

市场分析师、医生、护士、CFO、会计师、机械工程师、审计专业人士等许多专业人士,没有学过编码的人能否成功实施人工智能解决方案?

营销分析师和情绪分析

我的一个朋友刚开始担任营销分析师。她有统计学背景,没有编码经验。她的第一个任务是实施情感分析解决方案。众所周知,这里有很多选择。您可以寻求外部服务,可以实现基于字典的包含语法的解决方案,也可以训练机器学习/深度学习模型来区分正句和负句。

外部服务是高效的,其中大部分都可以使用,但它们的价格标签并不会随着广泛使用而真正变得更便宜。基于字典的解决方案起初看起来很容易,但实际上实现起来非常复杂,因为要达到足够的性能需要许多语法规则。最终,她倾向于机器学习方法。

她很快学会了如何在开源且免费的 KNIME 分析平台中组装数据操作。然后,她在 KNIME Hub 上找到了两个有用的无代码工作流:一个使用决策树(工作流:使用决策树的情感分析)和一个使用深度学习神经架构(工作流:使用深度学习的情感分析)。由于对决策树算法更加熟悉,她下载了该工作流,将其导入到她的 KNIME 分析平台安装中,并对其进行了自定义以适合她自己的数据。

整个实施花了几天时间:对于成功的解决方案来说,这是一项值得的投资。

图 1. 训练决策树以确定文本的情绪。

审计员和欺诈检测

第二个故事来自在一家大银行的反欺诈部门工作的一名员工。他知道人工智能在预防欺诈方面的潜力,他已经阅读了大量相关内容。在丢失欺诈数据的情况下,神经自动编码器提供了一种很有前景的方法。

他有一些编码技能,是在大学和第一份工作中学到的。如果需要,他可以组装几行 Python 代码,但不能——也没有时间——真正编写一个完全可靠且强大的数据科学应用程序。所有编码人员都被其他项目吸收,通常更重要的项目。因此,他转向了低代码方法。

这个解决方案不像之前的情感分析解决方案那么简单,因为它偏离了“数据输入-数据准备-训练模型-测试模型”的经典机器学习模式。一旦整体概念清晰,原型的实现(工作流程:欺诈检测模型训练和欺诈检测模型部署)就非常容易了。

请注意,这种方法的变体也可用于物联网系统中的异常检测。

图 2. 训练神经自动编码器将输入特征复制到输出层。
图 3. 部署自动编码器模型以生成欺诈警报。

Spark平台上的运营经理和需求预测

另一个例子是配电系统的运营经理。这里的当务之急是可靠地预测能源需求。需求预测的常见解决方案依赖于时间序列分析,使用 n 个过去值来预测时间序列中的下一个值。

运营经理员工具有 Python 编码背景,可以自己组装解决方案。但是,鉴于数据量很大,她需要对解决方案进行编程,以便在大数据平台上的 Spark 上运行。这是她还需要学习的一种新的、特定的编码方式。

KNIME 分析平台使访问外部平台特别容易。您只需要正确的凭据,其他一切都由专用节点处理。在这种情况下,专用于 Spark 操作的完整节点集非常有用。

再次,从 KNIME Hub 上可用的类似现成解决方案开始,设计用于出租车需求预测并在 Spark 平台上运行(训练工作流和部署工作流),并利用可视化编程的易用性,运营经理可以快速生成适合她自己的数据和问题的工作流程。

图 4. 在 Spark 上训练随机森林进行需求预测

人工智能的未来是可视化编程

我们已经看到一位营销分析师为情感分析实施 NLP 解决方案;审计员开发基于复杂神经自动编码器的策略来触发欺诈警报;以及为Spark平台构建需求预测系统的运营经理;全部使用低代码方法。

这些人都是不同的专业人士,在编码和人工智能算法方面有着不同的背景和不同程度的知识。他们的共同点是需要在不熟悉的范围内(编码、大数据或 AI)快速开发数据解决方案。可视化编程帮助他们快速获得适当的专业知识,并快速调整现有解决方案以解决数据科学问题。

由于许多机器学习算法的当前发展水平,并且由于基于可视化编程的工具的易用性,即使是不熟悉领域的非编码人员、偶尔编码人员或专家编码人员,也可以实施复杂的 AI 解决方案。

一句小心的话。无代码并不意味着没有数学。为了正确实施/调整所需的解决方案,需要一些数据转换程序背后的数学背景知识以及机器学习和深度学习算法。