Authors: Genschel, Ulrike
Title: Robustness concepts for sliced inverse regression
Language (ISO): en
Abstract: A typical difficulty with nonparametric regression with a large number of regressor variables is the so-called curse of dimensionality. That is, as the dimension of the regressor space increases, more data are needed to fill the space densely enough to accurately estimate an underlying regression function. As a remedy, various dimension reduction procedures, such as SIR, SIR II (Li, 1991), SAVE (Cook and Weisberg (1991), Cook (2000)), or MAVE (Xia et al. (2002)) have been proposed for identifying an appropriate, smaller subspace of the original regressor space before fitting an underlying regression function. Because ultimately the estimation of a regression curve or link function relies crucially on the correct identification of the linear combinations that span the dimension reduction subspace, robustness properties of a dimension reduction procedure become crucial to understand. That is, it is important to consider just how sensitive dimension reduction procedures and their subspace estimates are to data contamination. The focus of this thesis is placed on a detailed investigation of the robustness properties of the dimension reduction procedure SIR (Li, (1991)). In particular, we emphasize on the finite sample behavior of the SIR procedure under data contamination, considering various types of contamination (i.e., directions of contamination) which may produce a “worst case” subspace estimate. We demonstrate that the data contamination scenarios that produce bad subspace estimates in SIR depend also on the covariance structure of the regressor variables as well as the dimension K of the final dimension reduction subspace. We show that the type of data contamination that causes SIR to yield an erroneous subspace estimate can change depending on whether the covariance of the regressors is known or not. Initial efforts to define a breakdown point concept for dimension reduction procedures in the finite sample case goes back to the dissertation of Hilker (1997) and involved canonical correlations as a “distance measure” between estimated and true regression subspaces (cf. Hilker (1997); Becker (2001); Gather, Hilker and Becker (2002)). Hilker's work stipulated that breakdown occurs if one basis vector of an estimated subspace is orthogonal to the true subspace. However, this formulation of breakdown in dimension reduction has some drawbacks. For one, it is arguably worse to estimate and select the entire orthogonal subspace of the true regression subspace of interest so that the previous concept of breakdown may not be adequate. Another problematic point is that breakdown classically involves the use of an underlying metric in its definition, but canonical correlations as a measure of “closeness” between spaces do not constitute a metric. The dissertation develops an alternative definition of breakdown in dimension reduction in the finite sample case and investigates an upper bound for the breakdown point in this situation. This formulation of breakdown uses an appropriate metric based on the Frobenius norm to measure the distance between subspaces and defines breakdown under data contamination when the distance between an estimated regression subspace and the true subspace is maximal under the metric. Because a subspace is characterized by its projection matrix, a suitable metric between spaces is possible through a matrix norm applied on the difference of two projection matrices. This gives a geometrically meaningful definition for the finite sample breakdown point of methods such as SIR. This thesis also contains a simulation study used to numerically support our theoretical findings.
Ein bekanntes Phänomen bei der Schätzung nichtparametrischer Regressionsmodelle ist der sogenannte Fluch der Dimensionen. Dieser besagt, dass bei steigender Anzahl an Einflussvariablen, d.h. Dimension des Regressorraumes die benötigte Datenmenge für eine adequate Schätzung des zugrunde liegenden Modells exponentiell anwächst. Zur Umgehung dieser Problematik existieren dimensionsreduzierende Verfahren, die eine maßgebliche Reduktion der Dimension des Regressorraumes anstreben. Als Verfahren dieses Typs seien beispielsweise SIR, SIR II (Li, 1991), SAVE (Cook and Weisberg (1991), Cook (2000)), oder MAVE (Xia et al. (2002)) genannt, welche einen Unterraum, genannt e.d.r. Raum, des ursprünglichen Regressoraumes schätzen. Eine korrekte Identifizierung dieses Unterraumes ist für die sich anschliessende Anpassung des Regressionsmodells konsequenterweise ausschlaggebend und Kentnisse über die Empfindlichkeit solcher dimensionsreduzierenden Verfahren gegenüber Kontamination der Daten sind daher von besonderem Interesse. Die zentrale Fragestellung dieser Dissertation beschäftigt sich mit einer ausführlichen Analyse der Robustheitseigenschaften des dimensionsreduzierenden Verfahrens SIR (Li, 1991). Besonderer Augenmerk wird dabei auf das Verhalten des Verfahrens im endlichen Stichprobenfall unter Kontamination der Daten gelegt. Ziel der Arbeit ist es aufzuzeigen, welche Art von Datenkontamination eine sogenannte “worst case” Schätzung des e.d.r. Raumes verursacht. Dabei stellt sich heraus, dass für die Schätzung die Kentniss sowohl der Kovarianzstruktur des Regressorvektors, als auch der Dimension K des e.d.r. Raumes von Bedeutung ist. Im Rahmen der Arbeit kann gezeigt werden, dass die Richtung, in welche eine Kontamination der Daten für das Erhalten einer „worst case“ Schätzung gelegt werden muss, entscheidend davon abhängt, ob die Kovarianzmatrix des Regressorvektors bekannt oder unbekannt ist. Des Weiteren werden erste Ergebnisse zur geeigneten Definition des Bruchpunktverhaltens im endlichen Stichprobenfall aus der Dissertation von Hilker (1997) analysiert und auf den mehrdimensionalen Fall erweitert. Dabei hat sich herausgestellt, dass das von Hilker verwendete Distanzmaß der kanonischen Korrelation sowie die von ihm eingeführte Bruchpunktdefinition für die Erweiterung im mehrdimensionalen Fall nicht länger geeignet sind. Eine alternative Bruchpunktdefinition für den endlichen Stichprobenfall wird daher vorgeschlagen, welche auf einer für Unterräume geeigeten Metrik basiert. Die in der Dissertation erzielten Ergebnisse werden durch eine Simulationsstudie gestützt.
Subject Headings: breakdown
dimension reduction
finite sample breakdown point
SIR
subspace estimation
subspace metric
Bruchpunkt
Dimensionsreduktion
Metrik für Unterräume
SIR
Unterraumschätzung
Zusammenbruch
URI: http://hdl.handle.net/2003/21523
http://dx.doi.org/10.17877/DE290R-15905
Issue Date: 2005-07-18T12:33:13Z
Appears in Collections:Institut für Mathematische Statistik und industrielle Anwendungen

Files in This Item:
File Description SizeFormat 
Genschel3006.pdfDNB732.97 kBAdobe PDFView/Open


This item is protected by original copyright



This item is protected by original copyright rightsstatements.org