KNIME 分析平台

创建数据科学

KNIME Analytics Platform是用于创建数据科学的开源软件。直观、开放且不断集成新开发,KNIME 使每个人都能理解数据、设计数据科学工作流程和可重用组件。

构建数据科学工作流

一个单一的开源数据分析工具。

混合来自任何来源的数据

打开并组合简单的文本格式(CSV、PDF、XLS、JSON、XML 等)、非结构化数据类型(图像、文档、网络、分子等)或时间序列数据。

连接到大量数据库和数据仓库,以集成来自 Oracle、Microsoft SQL、Apache Hive、Snowflake 等的数据。从 HDFS、S3 或 Azure 加载 Avro、Parquet 或 ORC 文件。

从Salesforce,SharePoint,SAP Reader(Theobald Software),Twitter,AWS S3,Google Sheets,Azure等来源访问和检索数据

塑造数据

派生统计数据,包括平均值、分位数和标准差,或应用统计检验来验证假设。将维度缩减、相关性分析等集成到您的工作流程中。

在本地计算机、数据库内或分布式大数据环境中聚合、排序、筛选和联接数据。

通过规范化、数据类型转换和缺失值处理清理数据。使用异常值和异常检测算法检测超出范围的值。

提取并选择特征(或构建新特征),以使用遗传算法、随机搜索或向后和向前特征消除为机器学习准备数据集。操作文本,对数值数据应用公式,并应用规则来筛选或标记样本。

利用机器学习和人工智能

使用高级算法(包括深度学习、基于树的方法和逻辑回归)构建用于分类、回归、降维或聚类的机器学习模型

通过超参数优化、提升、装袋、堆叠或构建复杂集成来优化模型性能

通过应用性能指标(包括准确性、R2、AUC 和 ROC)来验证模型。执行交叉验证以保证模型稳定性。

使用LIME,Shap/Shapley值解释机器学习模型。使用交互式部分依赖关系/ICE 图了解模型预测。

发现和共享数据洞察

使用经典图表(条形图、散点图)和高级图表(平行坐标、旭日图、网络图、热图)可视化数据,并根据您的需求进行自定义。

显示有关 KNIME 表中列的汇总统计信息,并筛选出任何不相关的内容。

将报告导出为 PDF、PowerPoint 或其他格式,以便向利益干系人显示结果。

将处理后的数据或分析结果存储在许多常见的文件格式或数据库中。

按需扩展执行

构建工作流原型以探索各种分析方法。检查并保存中间结果,以确保快速反馈和高效发现新的创造性解决方案。

通过内存中流式处理和多线程数据处理来扩展工作流性能

在 Apache Spark 上运用数据库内处理或分布式计算的强大功能,以进一步提高计算性能。