Multivariate Datenanalyse/Chemometrie/Big Data: Wie kann ich aus komplexen Daten Information gewinnen

Konzept: Daten zu Wissen
Traditionell versuchen die Naturwissenschaften über Experimente zu Erkenntnissen zu gelangen, die sich durch Gleichungen beschreiben lassen. Heute werden allerdings oft hoch komplexe und mehrdimensionale (multivariate) Systeme untersucht. Zugleich können diese komplexen Daten mit Prozessdaten wie der Temperatur, pH, etc. kombiniert werden. Mit dieser Fülle von Daten erhält man den so genannten Fingerprint des Prozesses mit der Zeit, der oft auch als Process-Trajectory bezeichnet wird. Eine Trajectory (oder Zustandsverlauf) zeigt die intrinsische Signatur eines Prozesses und besteht aus den wesentlichen Hauptkomponenten, die den Prozess optimal beschreiben.

Hauptkomponentenanalyse und Regressionsmethoden
Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) ist eine der wichtigsten Methoden, weil der Ausgangspunkt die original gemessenen Daten sind und demzufolge die Gewichtung der Information der realen Daten wiederspiegelt. Eine Hauptkomponentenanalyse ist ein mathematisches Verfahren, das angewandt wird, wenn viele Eigenschaften, die an vielen Objekten gemessen wurden, auf wenige gemeinsame, aber unabhängige Einflussgrößen reduziert werden sollen. Man hat also mit dieser Methode die Möglichkeit, einen n-dimensionalen Raum auf einen m-dimensionalen Raum zu reduzieren, wobei m << n sein sollte. Das Besondere dabei ist, dass die wesentliche Information, die in den Daten enthalten sind, bewahrt bleibt. In den meisten Fällen wird die Information sogar deutlicher dargestellt. Die Methode fasst dazu Variable, die stark untereinander korreliert sind, zusammen. Denn Variable, die stark untereinander korrelieren, liefern weitgehend dasselbe Ergebnis. Weitere so genannte chemometrische Verfahren neben der PCA sind beispielsweise Partial Least Square (PLS) Regressionen. Sie erlauben die Korrelation der Daten mit ausgewählten Zielgrößen wie z.B. Qualitätskenngrößen oder Konzentrationen. Integration von Wissen: Multivariate Curve Resolution (MCR)
Mit moderneren Methoden wie die Multivariate Curve Resolution (MCR), können auch wissenschaftliche Randbedingungen wie etwa Massebilanzen oder Spektren einzelner Komponenten in die sonst rein statistischen Methoden integriert werden. Der große Vorteil der Methode liegt dann darin, dass a priori keine Information über die Spektren der reinen Komponenten vorliegen muss. Die Spektren der reinen Komponenten werden dann aus den Mischungen berechnet.

Dieses so genannte „spektrale Unmixing“ kann aber auch beim spektralen Imaging auf die lokale Entfaltung der ortsaugelösten Spektren ausgedehnt werden. Durch diesen so genannten „super resolution postprocessing algorithm“ erhält man Verteilungsmuster der Reinkomponenten (aus den Reinspektren) mit einer Orts-Auflösung potenziell jenseits des Beugungslimits, ähnlich wie bei der spektralen Lokalisationsspektroskopie. Zudem sind die Algorithmen viel leichter anwendbar und die spektralen Ergebnisse werden auch noch vom Signalrauschen durch eine Hauptkomponentenanalyse bereinigt. Der Vorteil der Methodik liegt in ihrer universellen Anwendbarkeit in allen Spektralbereichen, ist weitestgehend dosislimitiert und es sind keine Marker notwendig, wie sie für die Lokalisationsspektroskopie notwendig ist.

Klassifizierungsverfahren
Auch wenn die PCA an sich keine Klassifizierungsmethode ist, können mit der PCA Datenstrukturen erkannt werden. Zusätzliche Algorithmen, wie sie z.B. in Prozeduren wie SIMCA, K-means oder Linear Discriminant Analysis verwendet werden klassifizieren Proben in einzelne Gruppen. Weitere Klassifizierungsmethoden sind z.B. Support Vektor Machines (SM). Mit SVM können sowohl Klassifizierungen als auch Regressionen durchgeführt werden. Im Gegensatz zu Neuronalen Netzen, bei denen sehr leicht die Gefahr besteht eines „Over- oder Underfittings“, werden bei SVM meist eindeutige Lösungen auch für nicht-lineare Systeme erhalten.

Verknüpfung von Prozessdaten und Qualitätskenngrößen
Grundsätzlich Voraussetzung für die Verknüpfung von Prozessdaten und den Qualitätskenngrößen der Rohstoffe ist die strikte Anwendung des Konzeptes des Design of Experiments (DoE) und damit die Bestimmung der Critical Process Parameters (CPP), der Critical Control Points (CCP), und der Critical Quality Attributes (CQA). Damit lässt sich dann der Prozess validieren (Process Performance Qualification (PPQ)).

Kessler ProData GmbH nutzt folgende Toolboxen für chemometrische Analysen bzw. der multivariaten Datenanalyse (Auswahl):

Datenanalyse Toolboxen:

  • Principal Component Analysis (PCA)
  • Partial Least Square Regression (PLS)
  • Multivariate Curve Resolution (MCR)
  • Support Vector Machines (SVM)
  • Clustering (hierarchical, K-means)
  • Evolving Factor Analysis (EFA)
  • Zeitserienanalysen
  • Klassische Statistik
  • Datenvisualisierung

Kommerziell käufliche Programme wie z.B. Unscrambler, Design Expert, SPSS, SIMCA, PLS – Toolbox, etc. werden genutzt sowie Programme, die eine größere Freiheit beim Programmieren erlauben wie z.B. MatLab-Toolbox.

… mehr
Hauptkomponentenanalyse (PCA), Principal Component Regression (PCR) und Partial Least Square (PLS)
Multivariate Curve Resolution (MCR)
Kalibration und Validierung