测量和测试

将大数据转化为大分析和大控制——秘诀在于预筛选

2020年8月28日

作者:汤姆林奇和朱利安莫里斯代表汤姆林奇-独立分析顾问

免费阅读

本文已解锁,可以阅读。

下载

Pre-Screen是一个用户友好的软件包,由过程分析和控制技术中心(CPACT)的研究人员开发,专门用于使大型数据集的分析尽可能快速和可视化。许多商业数据分析软件包没有完全解决初始数据清理和数据调节任务,这可能会消耗开发有用模型所需的80%的时间。该独特的软件工具包是专门开发的,以提高模型质量和减少用于预筛选大型工业数据集的时间,但在数据分析中也有许多其他应用。它免费提供给过程分析和控制技术中心(CPACT)的所有成员。

简介

在之前的一篇文章中,我们讨论了石油行业接受“大分析”概念的时机已经成熟,使用他们已经拥有的数据,并继续生成越来越多的数据(1)。目前,以化工过程为基础的行业内部存在大量的数据,每天都有更多的数据被创建。利用这些数据并提供新的方法来利用这些数据进行日益复杂的分析,可以为公司提供前所未有的能力。石油化工公司越来越认识到,他们的数据是一项极其宝贵的资产,因为控制和优化流程、削减成本、推动新创新、虚拟化实验、创建和回答复杂业务问题的能力,都依赖于对数据的高效和及时分析。
然而,在实践中,许多业内人士都在努力应对这一挑战的实用性,因为商业数据分析包使用起来通常很复杂,并且不能完全解决初始数据清理和数据调节任务,这些任务可能会消耗高达80%的建模时间(2)。这一点得到了CPACT的成员的广泛认可,CPACT是研究过程性能监视和控制所有领域的领先行业/学术网络。这一认识导致了一个工作计划,开发一个新的工具箱,使大型数据集的分析尽可能快速和可视化,同时也为过程和控制工程师,分析科学家和学术研究人员访问。在这篇简短的文章中,我们将介绍这个工具箱的一些主要功能,但关于Pre-screen更广泛功能的详细描述已经在其他地方发表(3)。
Pre-Screen已在MATLAB 2012a和MATLAB 2015a中编译,并已在Windows 7和Windows 10系统上进行了测试,并使用了适当的Mathworks MCR包,这是免费下载的。预筛选通常用于具有150个变量和7000个样本的数据集,最近已应用于具有12.5万个样本的数据集。该软件已经过BP化工有限公司,Saltend Lane, Hull和其他工业和学术成员CPACT的严格测试和评估。

筛选:集锦

界面高度视觉化,互动性强,易于使用,主要特点可总结如下:-

易于加载数据集:

预筛选可以应用于广泛的数据集,并可以采用多种格式的数据,如MAT文件(使用。MAT扩展名)、CSV文件(使用。CSV扩展名)、ASCII文件(使用。txt或任何其他扩展名),或直接从商业流程信息系统(如OSI PI)获取数据,使用PI Datalink Excel插件从OSI PI导入数据。数据标记作为文本文件导入。所有数据操作和变量历史自动记录并按时间顺序保存。

缺失的数据:

要自动检测数据集中的缺失值,需要在提供原始数据时定义格式标准。通常在以下情况下选择数值标志:(i)标志的值必须在过程测量范围之外,以确保正常的测量不被识别为缺失的观测(例如,数字0不是标志的适当选择,因为它通常是一些测量的可接受值);(ii)需要注意数据预处理软件中使用的数据类型。如果数据文件是二进制格式的,并且数据集被读取为浮点数矩阵,则整数标志可能被错误解释,或者值可能因为舍入错误而更改。在Pre-Screen中,对整个数据集进行自动检查,以评估哪些变量丢失了数据。

数据可视化:

Pre-Screen的主要驱动因素之一是有一个高度可视化的用户友好的图形用户界面(GUI),可以以一种直观的方式使用,不需要MATLAB就可以使用。该工具箱是非常友好的用户与工业同事开发,具有高度的互动性和直接使用。它为数据预筛选(杂乱数据清理)和预处理提供了一种高度可视化的方法,并利用了基于主成分分析(PCA)的多元过程性能监测/多元统计过程控制(MSPC)的潜力。Pre-Screen着重于使用PCA而不是偏最小二乘(PLS),因为PCA允许用户从软件(虚拟)传感器和电子表格计算中选择那些过程测量和信息作为附加的过程性能信息。PLS要求选择与过程输出预测相关的相关变量,在这方面比PCA方法更具限制性。该软件包括独特的数据清理操作;用时间序列图进行数据绘制;正态图(单变量和多变量);汇总统计数据(平均值、标准差协方差、相关性、偏度和峰度);半自动缺失数据分析及纠错; outlier data identification and removal; data transformations, data filtering; cross correlation analysis; data transformations (mathematical and time shifting); scatter plots to observe possible relationships; loadings and contribution plots; histogram plots; normal probability plots, parallel coordinate plots and plot copying to word files. Active multiscreen visualisation and working allow simultaneous multivariate analysis plots, time series plots, scatter plots, normal probability plots and correlation plots – all observable simultaneously for enhanced process understanding and fault diagnostics.

排除变量:

选择显著性变量的工具是统计属性,如平均值、中位数、标准差、极差和裁剪标准差,以及时间序列图的检验。这使用户能够区分由过程噪声引起的可变性和由实际过程更改引起的可变性。变量的排除集中在那些“裁剪标准差”较低的变量上。在Pre-Screen中,对95%的数据计算裁剪标准差。根据用户对流程的了解,可以在排除测试框架中更改测试标准。进行了一系列测试:如果在建模之前需要对变量进行缩放,则必须进行测试(i),并调查与测量装置可检测的范围相比,标准偏差是否较小;检验(ii)检查标准偏差与预定范围相比是否较小;检验(iii)检查修剪后的标准差是否非零;检验(iv)检查变量的外围观察值。除测试(i)外,所有测试都是可选的,如果在建模之前必须对变量进行缩放,则必须进行测试(i)。 The number of tests to consider and the decision whether to accept the suggestion to remove the variable or not is ultimately based on user knowledge of the process. Variables can be included or excluded. If it is desired to include a variable with a standard deviation which did not pass the tests; random normal noise can be added to the variable by setting its standard deviation and modifying the data by the addition of noise. An example is a control valve position, a measurement that can provide important process understanding and knowledge.

使用HPLC数据的一个简单例子

Pre-Screen具有如此广泛的功能,它可以应用于广泛的工业数据分析,我们无法在这篇文章中全面介绍它。这里有一个简单的例子,将其应用于高效液相色谱分析,9个样品,声称来自同一多组分化学产品。然而,这些产品在使用中表现出一系列不同的性能特征,问题是为什么?Pre-Screen分析是由一位从未使用过Pre-Screen或接受过任何培训的作者进行的。实际的数据分析,包括从Excel格式化数据文件,花了不到一个小时,并提供了对样本来源和质量的独特见解。
HPLC分析在9个样品中检测到90个独特的峰保留时间,通过色谱图的视觉比较没有出现明确的模式。编辑所有样本的峰值面积数据的.csv文件,以包含额外的数据,包括一个常量值为1的变量(变量3)和一个随机文本的变量(变量10),以测试Pre-Screen的一些功能。加载数据文件,Pre-Screen(图1)立即将附加数据标识为常量,并选择删除这些变量。
为了说明程序的进一步特征,在此阶段没有删除可疑数据。然后使用从View菜单中选择的直方图图形可视化地检查数据。变量5、6、7和8的直方图截屏如图2所示。每个直方图的x轴显示一个变量(峰值面积)值,y轴显示9个样本中有多少个具有该值。
因此,在图2中,变量8在6个样本中值为0(没有检测到峰值),在其余3个样本中峰值面积为5 x10-4,而峰值6在每个样本中都存在,但每个样本的峰值面积不同。
然后使用数据排除和缺失数据检查工具检查数据。图3中的屏幕截图显示了对变量3的检查(添加的恒定值数据),并清楚地显示该值在1处是恒定的,应该被排除。它还确定变量10应该被排除。
缺失数据工具的截屏如图4所示,它清楚地指出变量10(添加的文本数据)没有数值数据,可以从数据集中删除。
然后使用来自统计分析工具的多元PCA对数据进行处理,结果如图5所示。
PC1与PC2的图表显示,数据似乎被分成3个主要组,每个组有3个样本,在图5中用红色突出显示。进一步讨论与样本发起者发现,这3组对应不同的制造商,也与使用的性能差异相关。此外,其中一组的点紧密聚集在一起,这表明它们在组成方面非常相似,而其他两组的样本之间的组成似乎有更大的变化。这可能是批与批产品质量方面非常重要的信息,该工具可以用于监控未来批次的质量,基于向历史数据集添加新的分析数据。
因此,通过对HPLC数据集的快速分析,可以获得有价值的信息,以了解这些来自不同制造商的所谓相同产品的成分变化,这可能与它们的性能相关。如果不是不可能的话,通过色谱图的常规比较来实现这一点将是非常困难的。尽管与许多其他预筛选应用程序相比,这是一个简单的例子,但它确实有助于说明数据筛选和分析应用程序的功能和易用性。

MSPC应用程序:

统计过程控制(SPC)的概念和方法,特别是多变量统计过程控制(MSPC),或有时称为多变量统计过程性能监视,在过程工业中已变得非常重要。目标是随着时间的推移监视流程的性能,以验证流程是否保持“统计控制状态”。MSPC的概念和方法是对反馈和先进过程控制的补充。MSPC监控方法应用于过程及其自动控制系统之上,以检测表明特殊事件或“故障”发生的过程行为。通过诊断特殊事件的原因并消除它们(而不是简单地继续补偿它们),流程得到了改进。多变量统计过程控制(multi - Statistical Process Control, MSPC)方案的重点是监控过程均值的稳定性,基于基于过程变量的平方预测误差(square Prediction Error, SPE)和霍特林的T2统计量的统计指标。

结论

Pre-Screen是一个独特的,用户友好的软件包,由CPACT的研究伙伴专门开发,使大型数据集的分析尽可能快速和可视化。它是通过学术界和行业用户之间的专家合作开发的,以克服在实际工业应用中遇到的许多问题。该独特的软件工具包是专门开发的,目的是提高模型质量,减少用于预筛选大型工业数据集的时间,但它也可以应用于大范围的数值数据分析场景。
Pre-Screen也是一套相关的数据分析和模型构建软件包和工具箱,由CPACT联盟开发,以满足其工业成员的需求;最重要的包是MultiDAT, DoEMan和Spectral Shooter,更多的细节可以在CPACT网站(www.CPACT.com)上找到。

参考文献

(1) Tom Lynch, Eric Little,大数据,智能数据和大分析,石油工业新闻2018年9月

(2)王晓燕,王晓燕,基于PCA的多变量统计过程控制软件的设计与实现,中国机械工程,2019,(1):37 - 38。

(3)易刚、Craig Herdsman、Julian Morris,数据预处理和多元统计过程控制的MATLAB工具箱,化学计量学Intell。实验室。系统。, 2019, 194。

免费阅读

本文已解锁,可以阅读。

下载