Informatik Forsch. Entw. (2002) 17: 53–59 Digital Object Identifier (DOI) 10.1007/s00450-002-0107-z © Springer-Verlag 2002
Robuste Indizes fur ¨ Projection Pursuit Tobias Rohatsch1 , Gerhard P¨oppel2 , Heinrich Werner3 1 2 3
Universit¨at Gesamthochschule Kassel, Infineon Technologies AG (e-mail:
[email protected]) Infineon Technologies AG (e-mail:
[email protected]) Universit¨at Gesamthochschule Kassel, Fachbereich Mathematik/Informatik (e-mail:
[email protected])
Eingegangen am 11. Februar 2002 / Angenommen am 14. Mai 2002
Zusammenfassung. Die moderne und hoch komplexe Fertigung, z.B. in der Halbleiterindustrie, erfordert f¨ur die dabei anfallenden Messdaten der Anlagen- bzw. Prozessparameter multivariate Analysemethoden. Eine dieser m¨oglichen Analysemethoden ist Projection Pursuit (PP). Dieses Verfahren ist durch geschickte Wahl des so genannten Projektionsindex in der Lage, verschiedenste Datencharakteristika zu detektieren und diese auf anschauliche Weise zu visualisieren. Bei den Projektionsindizes handelt es sich um Funktionen, die eine Projektion auf unterschiedliche Merkmale hin bewerten und dabei jeder Projektion einen Funktionswert zuweisen. Dieser Funktionswert spiegelt die Aussagekraft der Projektion (in Abh¨angigkeit vom verwendeten Index) wider. Die Auswahl bzw. der Aufbau dieser Indizes ist hierbei von entscheidender Bedeutung. Alle hier vorgestellten Indizes zeichnen sich vor allem durch ihren robusten Charakter gegen¨uber durch Ausreißer kontaminierte Daten, wie sie in realen Datenszenarien vorkommen, aus. Die durch Anwendung dieser Indizes gewonnenen Einblicke in die komplexe Struktur der Daten erm¨oglichen es, hochdimensionale Parameterabweichungen und komplexe Zusammenh¨ange innerhalb der Daten zu finden. Schlusselw¨ orter: Projection Pursuit, automatische Datenana¨ lyse, Mustererkennung Abstract. Modern and highly complex production environments e.g. in the semiconductor industry require multivariate analysis methods for the huge amount of equipment and processing data. One of these multivariate methods is Projection Pursuit (PP). This method in combination with a suitable choice of a so-called projection index is able to detect and visualize various characteristics of the data. Projection indices are functions which rate projections of different characteristics and thereby give them a functional value. This functional value reflects the information content of the projection (dependent on the projection index). The choice, or the construction of these indices is therefore of decisive importance. The indices which are presented here are distinguished by their robust characteristics in dealing with outliers, the latter being very common in real datasets. The insight into the complex structure of the underlying data through the usage of these indices makes it possible to find high-dimensional parameter divergence and complex connections within the data.
Keywords: Projection Pursuit, automated Data Analysis, Pattern Recognition CR Subject Classification: G.3, G.4, I.4.7, I.4.10, I.5.1, I.5.2, I.5.3, I.5.4, J.2
1 Einfuhrung ¨ Das Ziel von Projection Pursuit [3,5,7,9,6], kurz PP genannt, ist es, niederdimensionale Projektionen (meist in 1–3 Dimensionen) zu finden, die die aussagekr¨aftigsten Ansichten des hochdimensionalen Datenraums liefern. Dazu wird eine große Anzahl von Projektionen erzeugt und durch eine sogenannte Indexfunktion I bewertet. Abh¨angig von I ist diese Analysemethode in der Lage die hochdimensionale Datenlandschaft auf verschiedenste Gesichtspunkte hin zu bewerten (s. Abb. 1). Um nun m¨oglichst gute Projektionen zu finden, ist es von N¨oten diese Indexfunktionen durch z.B. Gradientenverfahren, Simulated Annealing [10] bzw. Genetische Algorithmen [1,4] zu maximieren. Durch anschließendes „Structure Removal“ (auf welches hier nicht n¨aher eingegangen wird) k¨onnen die durch die beste Projektion gefundenen Strukturen aus den Originaldaten entfernt werden. Mit diesen modifizierten Originaldaten kann dann erneut ein PP-Analysedurchgang durchgef¨uhrt werden. Dieses Vorgehen wird so lange iteriert, bis s¨amtliche interessanten Strukturen aus dem Datensatz extrahiert sind. In der Anwendung bietet PP einige Vorteile gegen¨uber anderen Datenanalysemethoden. Obwohl es sich bei den Projektionen um lineare Abbildungen handelt, k¨onnen die verwendeten Indizes durchaus nichtlinearer Natur sein. Diesem Umstand hat es PP zu verdanken, dass es auch gut nichtlineare Zusammenh¨ange detektieren kann. Des Weiteren erm¨oglicht PP, durch Wahl der entsprechenden Indexfunktion, verschiedenste Sichtweisen auf die Daten. Durch einen robusten Aufbau der Indexfunktionen, so wie sie hier im Folgenden geschildert werden, ist PP auch gegen Ausreißer unempfindlich. Es liefert implizit eine gute Visualisierung der Daten und l¨asst sich einfach automatisieren. Auch
54
T. Rohatsch et al.: Robuste Indizes f¨ur Projection Pursuit
3 Robuste Indizes Aufgrund der geschilderten Datenkonstellation und der dabei auftretenden besonderen Eigenheiten: Abb. 1.Arbeitsweise von Projection Pursuit.Aus hochdimensionalen Daten werden zweidimensionale Projektionen erzeugt und diese durch eine Indexfunktion bewertet.Anhand dieser Bewertung k¨onnen dann Projektionen gefunden werden, die die aussagekr¨aftigsten Ansichten des Datenraums liefern
k¨onnen neue Daten in alten Zusammenh¨angen gesehen werden, d.h. von einem neuen Datensatz k¨onnen die bei einer zuvor durchgef¨uhrten Analyse an vergleichbaren Daten gefundenen Projektionsvektoren benutzt werden, um auch die neuen Daten in den gleichen Projektionen zu betrachten. PP dient sowohl der u¨ berwachten wie auch der un¨uberwachten Datenanalyse. Entscheidend ist: PP liefert nachvollziehbare und einfach r¨uckverfolgbare Ergebnisse. All diese Vorteile machen PP zu einer interessanten multivariaten Analysemethode, welche die „curses of dimensionality“ elegant umgeht.
2 Daten-Datenumfeld Um die Verwendung der hier vorgestellten Indizes zu motivieren, bedarf es einer n¨aheren Durchleuchtung des auftretenden Datenvolumens. In der Halbleiterindustrie werden t¨aglich Millionen von Produkten (z.B. Mikrochips) gefertigt, welche eine schwer u¨ berschaubare Anzahl von Produktionsund Testdaten nach sich ziehen. Durch die Prozessf¨uhrung und die Herstellungsprozesse weisen die Daten besondere Charakteristika auf, die die Datenanalyse erschweren. Bei der Chipherstellung werden z.B. 400 Produktionsschritte innerhalb von 1-3 Monaten durchlaufen. Die Lagerung von Chips und die Umverteilung auf andere Fertigungsstandorte f¨uhrt dazu, dass die zeitliche Reihenfolge der eingeschleusten Chips oft nicht gewahrt bleibt. Erst nachdem ein Chip alle seine Produktionsschritte durchlaufen hat, kann er funktional getestet werden. Hierbei durchl¨auft er z.B. 500 Tests. Diese Tests werden nach dem Muster „stop on first fail“ durchgef¨uhrt. D.h. sobald ein Chip einen Test nicht besteht, wird er nicht weiter getestet und als Ausschuss gez¨ahlt. Die Menge aller Chips, die alle Tests ohne Fehler durchlaufen, bilden die sogenannte Ausbeute (s. Abb. 2). Diese Testsituation f¨uhrt zu einer erh¨ohten Datenkomplexit¨at. Um das bei der Produktion der Chips am Tag anfallende Datenaufkommen von ca. 1000000 Datens¨atzen a` z.B. 500 Dimensionen zu analysieren, bedarf es vor allem robuster, schneller und automatisierter Analyseverfahren. Die Robustheit hat hierbei einen besonderen Stellenwert, da sich bei solchen Datenmengen weder dasVorhandensein vonAusreißern vermeiden, noch eine vorsorgliche Ausreißerbehandlung der Daten in akzeptabler Zeit bewerkstelligen l¨asst. Dieses ganze Datenszenario stellt extrem hohe Anspr¨uche an eine Analysemethode und motivierte auch die Entwicklung der im Folgenden vorgestellten robusten PP-Indizes. Viele der bereits in der Literatur beschriebenen PP-Indizes w¨urden sich in einem solchen Datenumfeld vor allem von Ausreißern dominieren lassen und nicht aussagekr¨aftige Projektionen liefern.
• • • •
„stop on first fail“-Datenmessungen Ausreißer hoch nichtlineare Zusammenh¨ange fertigungsbedingte B¨undelungen von Chips zu Wafern und Wafern zu Losen • fertigungsbedingte zeitliche Inkoh¨arenz
erwies es sich als sinnvoll bestimmte, auf diese Datenkonstellation hin optimierte Indizes zu entwickeln, bzw. bereits bestehende Indizes hieran anzupassen. Generell k¨onnen die Projection-Pursuit-Indizes in verschiedene Untergruppen eingeteilt werden. Exemplarisch daf¨ur seien die beiden hier relevanten Untergruppen genannt. • Exploratory Projection-Pursuit- (EPP-) Indizes (vgl. [2]) Diese Untergruppe der Projektionsindizes charakterisiert ihre explorative Eigenschaft. Hierbei steht imAllgemeinen die alleinige Bewertung einer Projektion ohne bestimmtes Vorwissen u¨ ber etwaige Merkmalseigenschaften bestimmter Datenkategorien im Vordergrund. • Projection Pursuit Discriminant Analysis- (PPDA-) Indizes Diese Gruppe von Projection-Pursuit-Indizes hat meist zur Aufgabe, Projektionen zu finden, in denen die zuvor bestimmten Datenpunkte verschiedener Kategorien besonders auff¨allig separiert sind. Da hier bereits Vorwissen u¨ ber zumindest eine Kategorienzugeh¨origkeit der zu untersuchenden Datenpunkte vorliegen muss, spricht man hierbei auch von u¨ berwachten (supervised) Indizes. Alle hier vorgestellten Indizes k¨onnen (durch einfache Erweiterung) sowohl als EPP als auch als PPDA verwendet werden. Im Folgenden wird in die verwendete Notation eingef¨uhrt. X sei eine N × K Datenmatrix, welche aus N F¨allen und K Variablen (Dimensionen) besteht. Desweiteren sei A eine K × P Projektionsmatrix. Bei einer linearen Projektion auf P Dimensionen mit P K entsteht die Matrix der projizierten Daten Z: Z = XA Bei den hier vorgestellten Indizes gilt P ≡ 2. Die L¨ange eines jeden Spaltenvektors ai von A sei normiert auf 1 und die Spaltenvektoren werden zueinander orthogonal gew¨ahlt. Der Projektionsindex I(Z) bewertet eine Projektion. Einige, in der Statistik gel¨aufige Begriffe, die vor allem im Zusammenhang mit robuster Datenanalyse oft auftreten, sind: • Trimmen F¨alle, deren Werte innerhalb der zuvor sortierten Variable unter bzw. u¨ ber den k extremsten Werten liegen, werden aus den Daten entfernt. Oft wird k als Prozentsatz aller F¨alle der Daten angegeben. Dies hat vor allem bei einer großen Zahl von Variablen bzw. Dimensionen zur Folge, dass kaum mehr Daten zur Analyse vorhanden sind. Deshalb kann hier das Winsorisieren oft die bessere Wahl sein. • Winsorisieren Um robust gegen Ausreißer zu sein, werden die k extremsten Werte der zuvor sortierten Variable der Daten
T. Rohatsch et al.: Robuste Indizes f¨ur Projection Pursuit
55
Abb. 2. Prozess- und Testsituation bei der Chipherstellung. Der Herstellungsprozess umfasst z.B. 400 Produktionsschritte (P1-P400). Nachdem alle Produktionsschritte durchlaufen sind, finden z.B. 500 Tests (T1-T500) statt
wird nach zuvoriger Rasterung (Binning) ihr χ2 -Wert berechnet (s. Abb. 3). firef erence sei hier die erwartete Besetzungsh¨aufigkeit der i-ten Binning-Zelle (errechnet aus projizierten Zufallsdaten) und fiobserved die beobachtete Besetzungsh¨aufigkeit der i-ten Binning-Zelle. Dann errechnet sich der χ2 -Wert nach χ2 =
l (f observed − f ref erence )2 i
i=1
Abb. 3. Rank χ2 -Index. Ausgehend von einer 2-dimensionalen Projektion werden die Daten in der x- bzw. y-Dimension gerankt (rank X,Y) und danach in Rasterfelder eingeteilt (binning). Anhand dieser Einteilung wird anschließend der χ2 -Wert berechnet
ersetzt. Hierbei gilt es, die i kleinsten Werte durch den (i + 1)-kleinsten Wert, die j gr¨oßten Werte durch den (j + 1)-gr¨oßten Wert zu ersetzen. Oft wird auch hier k als Prozentsatz aller F¨alle der Daten angegeben. • Ranken Die Daten werden pro Variable der Gr¨oße nach aufsteigend sortiert und erhalten als neuen Wert den Wert des Index der sortierten Reihenfolge. Dadurch wird der Effekt von Ausreißern gemindert, grundlegende Strukturen h¨oherdimensionaler Daten bleiben aber innerhalb ihrer Rangeigenschaften erhalten. 3.1 Rank χ2 Dieser Index ist eine robuste Variante eines bereits von Posse [11,12] vorgestellten χ2 -Test-basierenden Index f¨ur Projection Pursuit. Robust ist er aus dem Grund, weil hierf¨ur die projizierten Originaldaten vor dem eigentlichen χ2 -Test gerankt werden, um somit den Einfluss von Ausreißern zu mindern bzw. zu eliminieren. Dieser Index stellt im Vergleich zum bereits in der Literatur (vgl. Posse) bekannten Index eine Verallgemeinerung im Sinne der zugrunde liegenden Referenzverteilung dar und testet nicht nur gegen eine Normal- bzw. Gleichverteilung der projizierten Daten. So kann jede Referenzverteilung zugrunde gelegt werden, auch eine gemeinsame Betrachtung verschiedener Referenzverteilungen ist m¨oglich. S sei die Matrix der Rangzahlen der in jeder Spalte gerankten projizierten Datenmatrix Z. F¨ur diese Matrix S
i
firef erence
.
l ist die Anzahl der Binning-Zellen. Um die Indexwerte f¨ur verschiedene Datenszenarien vergleichbar zu machen, wird anstelle des χ2 -Wertes als Maß der Ccorr -Wert (korrigierter Pearsonscher Kontingenzkoeffizient) verwendet, welcher im Intervall [0, 1] liegt. min(r, s) χ2 ∗ Ccorr = . min(r, s) − 1 N + χ2 Mit N sei die Anzahl der zugrunde liegenden Datenpunkte (F¨alle) bezeichnet, r entspricht der Anzahl der Reihen, s der Anzahl der Spalten der χ2 -Rastereinteilung. Es gilt weiter l = r · s. Dieser Ccorr -Wert entspricht auch zugleich dem Indexwert I. I = Ccorr 3.2 Rank Nearest-Neighbour (NN) Um Nahordnungskonstellationen innerhalb der Daten zu finden, wird ein Index entwickelt, der sich auf die NearestNeighbour-Abst¨ande der Datenpunkte konzentriert. Dieser Index liefert umso h¨ohere Indexwerte, je n¨aher die NearestNeighbour-Datenpunkte der angegebenen Kategorie zusammen liegen. Um unempfindlich gegen Ausreißer zu sein und die Nearest-Neighbour-Bestimmung rechnerisch effizient zu gestalten, werden die projizierten Originaldaten zuvor gerankt (s. Abb. 4). Es sei noch erw¨ahnt, dass bei diesem Index eine Datenkategorie mit angegeben werden kann und der Index daher sowohl dem Projection-Pursuit-Indexbereich EPP als auch PPDA zugeordnet wird. Dies ist bei allen hier vorgestellten Indizes m¨oglich und sei hier explizit aufgezeigt. Xc sei die Matrix der Originaldaten, die nur noch Nc F¨alle der Kategorie c enth¨alt. Die Kategorie c wird vom Anwender vorgegeben. Sc sei die Matrix der Rangzahlen der in jeder Spalte gerankten projizierten Datenmatrix Zc . dN N sei der Nearest-Neighbour-Abstand von einem Punkt zu seinem
56
T. Rohatsch et al.: Robuste Indizes f¨ur Projection Pursuit
Abb. 4. Rank NN-Index. Ausgehend von einer 2-dimensionalen Projektion werden die Daten in der x- bzw. y-Dimension gerankt (rank X,Y), anschließend wird die Summe der Nearest-NeighbourAbst¨ande gebildet um hieraus den Index zu berechnen
n¨achsten Nachbarn, z.B. gemessen u¨ ber die ManhattanDistanz. Um gegen Ausreißer in den Daten robust zu sein, werden alle dN N in aufsteigender Reihenfolge sortiert und die gr¨oßten Abst¨ande z.B. mit 5% getrimmt. Dadurch verringert sich nat¨urlich auch die Anzahl der F¨alle Nc um 5%. Summiert u¨ ber alle Nc F¨alle ergibt sich die Nearest-Neighbour Abstandssumme SN N : SN N =
Nc
N dN . i
Abb. 5. DDD-Index. Ausgehend von einer 2-dimensionalen Projektion, welche in der x- und y-Dimension getrimmt wurde (trim X,Y) wird der maximale Unterschied Dmax der Verteilungsfunktion dieser Punktabst¨ande dx,y zu einer Verteilungsfunktion von Punktabst¨anden einer getrimmten Referenzverteilung von Punkten als Index berechnet
dP (Z) = {dM (r i , r j ) r i , r j ∈ Z, i < j} . F (dP (T)) bzw. F (dP (Z)) sei die empirische Verteilungsfunktion der Punktabst¨ande. Hieraus ergibt sich der Index I als maximaler Abstand Dmax zwischen den beiden Verteilungsfunktionen der Punktabst¨ande zu
i=1
Je n¨aher nun die Punkte zu ihrem n¨achsten Nachbarn liegen, desto kleiner wird SN N . Um daraus aber einen sich maximierenden Index im Intervall [0,1] zu erhalten, verwendet man 2Nc I= . SN N 3.3 Trim Different Distance Distribution (DDD) Hierbei werden die kumulierten H¨aufigkeiten von Punktabst¨anden (vgl. [8]) von zuvor getrimmten projizierten Daten mit einer Referenzverteilung (Punktabst¨ande einer getrimmten projizierten Normalverteilung) verglichen (z.B. in Analogie zum Kolgomorov-Smirnov-Anpassungstest), wobei der maximale Abstand dieser beiden Verteilungen als Maß dieses Index gilt (s. Abb. 5). T sei eine Matrix mit N Zeilen und 2 Spalten, bestehend aus Zufallszahlen einer Normalverteilung. Z sei die Matrix der projizierten Originaldaten. Beide Matrizen T und Z werden nun um robust gegen Ausreißer zu sein in der x- und y-Dimension getrimmt und auf das Intervall [0, 1] umskaliert. Die Berechnung der Punktabst¨ande erfolgt in einer beliebigen Metrik, hier die Manhattan-Distanz dM : dM (r i , r j ) = |xi − xj | + |yi − yj | . Die Menge aller Punktabst¨ande dP f¨ur T bzw. Z sei gegeben durch dP (T) = {dM (r i , r j ) r i , r j ∈ T, i < j}
Dmax = max(|F (dP (T)) − F (dP (Z))|) I = Dmax 3.4 Indexerweiterungen Ein weitl¨aufig auftretendes Ph¨anomen ist das Vorhandensein von trivialen zweidimensionalen Projektionen. Hierbei werden die Daten vorwiegend in die Diagonale projiziert. Dies ist besonders beim χ2 -Index der Fall. Zwar k¨onnen durch zuvoriges „Spheren“ der Daten die linearen Effekte aus den Daten entfernt werden, aber das eigentliche Problem der Diagonallage bleibt dadurch oft weiter bestehen. Eine M¨oglichkeit diese Projektionen zu unterdr¨ucken, also deren Indexwert zu verkleinern, ist die Erweiterung der Indexfunktionen durch einen zus¨atzlichen Bestrafungsterm. I(Z)neu = α · I(Z)alt + (1 − α) · (1 − r2 ) . α (α ∈ [0, 1]) sei hierbei ein Gewichtungsfaktor f¨ur den Zusatzterm (1 − r2 ) und r2 sei das Quadrat des Korrelationskoeffizienten N (zi1 − z¯·1 )(zi2 − z¯·2 ) r = i=1 N N ¯·1 )2 i=1 (zi2 − z¯·2 )2 i=1 (zi1 − z mit z¯·i , Mittelwert der i-ten Spalte der Matrix Z. Um auch hier robust zu sein, verwendet man anstelle der Matrix Z die Matrix der gerankten projizierten Daten S.
T. Rohatsch et al.: Robuste Indizes f¨ur Projection Pursuit
57
Abb. 6. 3-Cluster Szenario. 3 Datenwolken a` 150 Punkte sind in den Ecken eines gleichseitigen Dreiecks angeordnet
Mit dieser Indexerweiterung werden interessante zweidimensionale Projektionen solchen mit trivialer Korrelation vorgezogen. 4 Testszenarien und Realdaten Anhand von Testszenarien wird die Funktionsf¨ahigkeit und die Wirkungsweise der Indizes getestet und bewertet. Exemplarisch seien hier zwei, in ihren Eigenarten v¨ollig verschiedene Testszenarien vorgestellt, die auch die unterschiedlichen Arbeitsweisen der Indizes aufzeigen. Um einen Eindruck davon zu erhalten, wie sich die Indizes bei Daten eines realen Produktionsumfeldes verhalten, wurden sie auch auf zwei hier vorgestellte Realdatenszenarios angewandt.
Abb. 7. Die jeweils besten gefundenen Projektionen des χ2 - (links oben), χ2 - mit Indexerweiterung (rechts oben), NN- (links unten) und DDD-Index (rechts unten)
4.1 Drei Cluster-Testszenario Dieses Szenario besteht aus 3 Datenclustern a` 150 Punkte, die sich in den Ecken eines gleichseitigen Dreiecks befinden (s. Abb. 6). Zus¨atzlich zu den 2 Datendimensionen wurden 3 Dimensionen Zufallsrauschen hinzugef¨ugt, so dass es sich hierbei nun um ein 5-dimensionales Datenaufkommen handelt. Der χ2 - und der NN-Index sind in der Lage einen Cluster von den restlichen zwei Clustern zu separieren. In Kombination mit der Indexerweiterung (s. Abschnitt 3.4) kann auch der χ2 -Index die 3 Cluster entdecken. Dies ist auch beim NNIndex m¨oglich, wurde hier aber nicht explizit gezeigt. Der DDD-Index trennt alle 3 Cluster. Diese Bilder (s. Abb. 7) entstanden nach einem Simulated-Annealing-Durchlauf und zeigen die jeweils beste gefundene Projektion. 4.2 Zwei-Spiralen-Testszenario Die 510 Datenpunkte dieses Szenarios bestehen aus 2 in sich gedrehten 3-dimensionalen Spiralen, welche zus¨atzlich durch ein 3-dimensionales Zufallsrauschen erg¨anzt wurden (s. Abb. 8). Der χ2 -Index ist in der Lage, die beiden Spiralen im Datenraum zu finden. Da es sich hierbei um ein typisches Nahordnungsproblem handelt, ist auch der NN-Index sehr gut geeignet die Spiralen zu entdecken. Der Unterschied in den
Abb. 8. 2-Spiralen-Szenario. 3-dimensionale Anordnung von 2 in sich gedrehten Spiralen aus 510 Datenpunkten
Verteilungsfunktionen der Punktabst¨ande erm¨oglicht es dem DDD-Index die beiden Spiralen zu detektieren. Auch hier entstanden die Bilder (s. Abb. 9) bei einem Simulated-AnnealingDurchlauf und zeigen die jeweils beste Projektion.
4.3 Realdaten-Szenario Zur Verf¨ugung standen zwei Datens¨atze aus unterschiedlichen Datenarten. Zum einen handelte es sich um einen Datensatz bestehend aus Funktionaldaten mit ca. 8000 F¨allen a` 33 Di-
58
T. Rohatsch et al.: Robuste Indizes f¨ur Projection Pursuit
Abb. 11. Diese Abbildung zeigt eine Projektion, die durch den χ2 Index bei den PCM-Daten gefunden wurde. Deutlich ist hierbei eine Datengruppe (siehe Ellipse) zu erkennen, die sich von der „Normalgruppe“ unterscheidet
Abb. 9. Die jeweils besten gefundenen Projektionen des χ2 - (links oben), NN- (rechts oben) und DDD-Index (unten)
Abbildung 11 hingegen zeigt eine durch den χ2 - Index gefundene Auff¨alligkeit in den PCM-Daten. Hierbei ist deutlich eine vom Normalzustand der Datenkonstellation abweichende Datenwolke (siehe eingezeichnete Ellipse) zu erkennen. Eine tiefergehende Analyse zeigte, dass dieser Fingerprint Wafer charakterisiert, die sich auch durch eine schlechtere Ausbeute von der „Normalgruppe“ unterscheiden. 5 Implementation
Abb. 10. Diese Abbildung zeigt eine Projektion, die durch den NNIndex bei den Funktionaltestdaten gefunden wurde. Deutlich sind hierbei 2 Datenkeulen (siehe Ellipsen) zu erkennen, die sich von der „Normalgruppe“ unterscheiden
mensionen. Funktionaldaten messen, wie der Name schon sagt, vor allem die Funktion eines Chips, wie z.B. Analog/ Digitalwandlung. Zum anderen handelte es sich um einen Datensatz bestehend aus Process Controll Monitoring (PCM)Daten bestehend aus ca. 8000 F¨allen a` 64 Dimensionen. PCMDaten fallen bei der Messung der Prozesseigenschaften, wie z.B. Str¨ome, Spannungen und Widerst¨ande, an. Diese beiden Datens¨atze wurden mit den hier vorgestellten Indizes auf Auff¨alligkeiten hin untersucht. Abbildung 10 zeigt eine durch den NN-Index gefundene Auff¨alligkeit in den Funktionaltestdaten. Hierbei sind deutlich zwei Datenkeulen (siehe eingezeichnete Ellipsen) zu erkennen, die aus einem Normalzustand der Datenkonstellation „herauswachsen“. Die anschließende Analyse dieser beiden Datenkeulen trug dazu bei, grundlegende Prozesscharakteristika zu kl¨aren.
Das multivariate Analyseverfahren Projection Pursuit wurde mit den hier vorgestellten Indizes χ2 , NN und DDD (und noch einigen hier nicht vorgestellten Indizes und Erweiterungen) innerhalb der Anwendungssoftware „Autonomous Projection Mapping“ (APM) realisiert. Diese Anwendung (s. Abb. 12) erm¨oglicht dem Benutzer sowohl eine interaktive Datenanalyse als auch eine gr¨oßtenteils autonome Datenanalyse ohne Benutzerinteraktion. Realisiert wurde diese Software als OO-Klassenpaket in der Programmiersprache Delphi. Dies erm¨oglichte ein Rapid Prototyping und sorgte somit f¨ur eine schnelle programmtechnische Umsetzung. 6 Zusammenfassung und Ausblick Projection Pursuit ist in der Lage in dieser hochkomplexen Datenlandschaft aussagekr¨aftige Datenkonstellationen automatisch zu finden. Die robusten Indexfunktionen zeigen ein ausgezeichnetes Ansprech- und Stabilit¨atsverhalten. Die Implementation dieser Analysemethode mit den hier vorgestellten Indexerweiterungen innerhalb der APM-Software bietet dem Benutzer ein exploratives Datenanalysetool, welches sowohl interaktiv als auch eigenst¨andig automatisch agieren kann. Weitere Verbesserung kann durch eine verbesserte Suche der Maxima der Indexwerte, so z.B. durch optimiertes Simulated Annealing bzw. Genetische Algorithmen, erreicht werden. Des Weiteren wird angestrebt, die gefundenen Projektionen einer automatischen Clustermarkierung und Analyse zu unterziehen. Zus¨atzlicher Informationsgewinn bei der Datenanalyse kann durch die im n¨achsten Schritt zu realisierende Erweiterung von PP durch „Structure Removal“ erwartet werden.
T. Rohatsch et al.: Robuste Indizes f¨ur Projection Pursuit
59
Abb. 12. Das Anwendungsprogramm APM (Automomous Projection Mapping), in welches die hier vorgestellten Indizes integriert wurden
Literatur 1. S.L. Crawford. Genetic optimization for exploratory projection pursuit. In E.M. Keramida, editor, Computer Science and Statistics: Proc. 23rd. Symp. Interface, pages 318–321, Fairefax Station, 1991 2. J.H. Friedman. Exploratory projection pursuit. Journal of the American Statistical Association, 82(397):249–266, 1987 3. J.H. Friedman, J.W. Tukey. A projection pursuit algorithm for exploratory data analysis. IEEE Transaction on Computers, C23(9):881–890, 1974 4. Q. Guo, W. Wu, D.L. Massart, C. Boucon, S. de Jong. Sequential projection pursuit using genetic algorithms for data mining of analytical data. Analytical Chemistry, 72(13):2846–2855, 2000 5. P.J. Huber. Projection pursuit (with discussion). The Annals of Statistics, 13(2):435–525, 1985 6. L.O. Jimenez, D.A. Landgrebe. Hyperspectral data analysis and supervised feature reduction via projection pursuit. IEEE Transactions on Geoscience and Remote Sensing, 37(6):2653–2667, 1999 7. M.C. Jones, R. Sibson. What is projection pursuit? (with discussion). Journal of the Royal Statistical Society, Serie A 150:1–36, 1987 8. H. L¨auter, R. Pincus. Mathematische – statistische Datenanalyse, Band 73 Mathematische Monographien. Berlin: Akademie Verlag 1989 9. D. MacDonald, C. Fyfe. Data mining using hierarchical exploratory projection pursuit. Computing and Information Systems, 5:95–106, 1998 10. A. Montanari, N. Guglielmi. The role of projection indices in projection pursuit. Statistica -Bologna-, 56(1):63–86, 1996 11. C. Posse. Projection pursuit exploratory data analysis. Computational Statistics & Data Analysis, 20(6):669–687, 1995 12. C. Posse. Tools for two-dimensional exploratory projection pursuit. Journal of Computational and Graphical Statistics, 4(2):83–100, 1995
Gerhard P¨oppel studierte Physik an der Universit¨at Regensburg, wo er 1990 in theoretischer Physik zum Thema Spingl¨aser und Neuronale Netze promovierte. Nach selbstst¨andiger T¨atigkeit als Berater im Bereich Statistik und Optimierung arbeitet er seit 1996 bei Infineon Technologies AG in der Produkt- und Prozesstechnik. Dort ist er zust¨andig f¨ur produktund technologie¨ubergreifende Datenanalysen und der Entwicklung zugeh¨origer Datenanalysemethoden. Tobias Rohatsch studierte Informatik in Regensburg und promoviert zur Zeit an der Universit¨at Gesamthochschule Kassel im Fachbereich Mathematik / Informatik in Kooperation mit der Infineon Technologies AG. Seine Forschungsgebiete umfassen multivariate Datenanalysemethoden, Neuronale Netze, Mustererkennung sowie Softwareengineering.
Heinrich Werner (*1944) Diplom Mathematics Uni Bonn (1969) Dr. rer. nat. T. Uni Darmstadt (1971); Habilitation Darmstadt (1976); Prof. Mathematics Uni Kassel (1978); Prof. Computer Sc. Uni Kassel (1986). Research: neural networks, pattern recognition (medical, environmental), quality assurance.