In meiner Forschung beschäftige ich mich mit Fragestellungen der nichtparametrischen Statistik. Ziel derselben ist es, unter möglichst allgemeinen Bedingungen Rückschlüsse aus beobachteten Daten zu ziehen, die unter dem Einfluss des Zufalls entstanden sind. Die betrachteten Verfahren werden sowohl theoretisch untersucht als auch in konkreten Anwendungen angewendet.
Aktuelle Schwerpunkte der Forschung sind:
| Nichtparametrische Regressionsschätzung |
| Monte-Carlo-Verfahren zur Bewertung von Optionen |
| Statistische Verfahren in der Computerlinguistik |
In der Regressionsschätzung versucht man, ausgehend von dem Wert einer Prädiktorvariablen X den zugehörigen Wert einer abhängenden reellen Variablen Y vorherzusagen. Im Sinne einer Minimierung des mittleren quadratischen Vorhersagefehlers ist die optimale Vorhersagefunktion die sogenannte Regressionsfunktion m(x)=E{Y | X=x} . In Anwendungen ist diese aber, genauso wie die Verteilung von (X,Y), üblicherweise unbekannt, und man steht vor dem Problem, die Regressionsfunktion ausgehend von einer Stichprobe (bestehend aus in der Vergangenheit beobachteten Werten von (X,Y)) zu schätzen. Häufig hat man dabei keinerlei Vorkenntnisse über die Bauart der zu schätzenden Regressionsfunktion, was den Einsatz von nichtparametrischen Verfahren notwendig macht.
Schwerpunkt der Untersuchungen zur nichtparametrischen Regressionsschätzung ist die Untersuchung von Schätzern unter möglichst allgemeinen Voraussetzungen. Die Verwendung von möglichst wenigen Voraussetzungen stellt hierbei sicher, dass die erzielten Resultate bei möglichst vielen praktischen Problemstellungen anwendbar sind. Schwerpunkte der Untersuchungen sind unter anderem Fragestellungen der universellen Konsistenz, der Bestimmung der optimalen Konvergenzgeschwindigkeit, der automatischen Anpassung (Adaption) von Schätzverfahren an diese optimale Konvergenzgeschwindigkeit sowie der Dimensionsreduzierung.
In vielen medizinischen Anwendungen ist es nicht möglich, Werte der zugrundeliegenden Verteilung von (X,Y) zu beobachten. Hierbei enthält X eine Beschreibung eines Patienten, und statt der zugehörigen Überlebenszeit Y kann in der Regel nur das Minimum von Überlebenszeit und einer Zensierungszeit C (z.B. Zeit bis zum Ende der Studie) beobachtet werden. Verfahren zur Schätzung von Regressionsfunktionen ausgehend von solchen zensierten Daten (d.h. beobachteten Werten von (X, min{Y,C}) werden ebenfalls untersucht.
Beispiele für Arbeiten aus diesem Bereich:M. Kohler, A. Krzyzak und H. Walk. Optimal global rates of convergence for nonparametric regression with unbounded data. Herunterladbar als ps- und pdf-file.
A. M. Bagirov, C. Clausen und M. Kohler. Estimation of a regression function by maxima of minima of linear functions. Herunterladbar als ps- und pdf-file.
M. Kohler. Multivariate orthogonal series estimates for random design regression. Herunterladbar als ps- und pdf-file.
Eine Option dient zur Absicherung des Kursrisikos bei Schwankungen des Kurses in Finanzinvestitionen (z.B. in Aktien, Fremdwährungen, etc.). Bei einer amerikanischen Option kann sich der Besitzer jederzeit die Differenz des aktuellen Kurses zu einem festen vorgegebenen Betrag auszahlen lassen, sofern der Kurs unter diesem Wert liegt. Bei gegebenen stochastischem Verhalten des Kurses (z.B. geschätzt mit Hilfe der Black-Scholes-Theorie) kann der Wert einer solchen Option mit Hilfe von Monte-Carlo-Verfahren bestimmt werden. Diese erzeugen künstlich eine Stichprobe für das zufällig Verhalten des Kurses (sog. Monte-Carlo-Stichprobe) und schätzen ausgehend von dieser Stichprobe den Wert der Option. In diesem Zusammenhang wurden bereits neue Verfahren zur Bewertung amerikanischer Optionen entwickelt, theoretische hinsichtlich Konsistenz und Konvergenzgeschwindigkeit untersucht und für endlichen Stichprobenumfang, mit Hilfe von simulierten Daten, analysiert. Für die Zukunft geplant ist, diese Resultate durch die Herleitung von oberen Schranken für die Preise und durch den Einsatz von schnell berechenbaren Regressionsschätzern zu erweitern. Desweiteren sollen die zugrunde liegenden Preisprozesse unter möglichst schwachen Annahmen an die zugrunde liegenden stochastischen Strukturen geschätzt werden.
Beispiele für Arbeiten aus diesem Bereich:D. Egloff, M. Kohler und N. Todorovic. A dynamic look-ahead Monte Carlo algorithm for pricing American options. Herunterladbar als ps- and pdf-file.
M. Kohler. A regression based smoothing spline Monte Carlo algorithm for pricing American options. Herunterladbar als ps- und pdf-file.
M. Kohler, A. Krzyzak und N. Todorovic. Pricing of high-dimensional American options by neural networks. Herunterladbar als ps- und pdf-file.
Die Computerlinguistik beschäftigt sich mit der maschinellen Verarbeitung natürlicher Sprache. Ein Ansatz ist hier die Verwendung statistischer Modelle. Konkret untersucht wird zur Zeit die automatische Klassifikation von Texten. Ziel ist die Verbesserung von Suchmaschinen. Dabei sollen die Ergebnisse von Suchanfragen nach linguistisch beschreibbaren Kriterien (z.B. objektiv bzw. subjektiv geschrieben) gefiltert werden. Dies soll durch den Einsatz von statistischen Klassifikatoren auf (halb-)automatisch generierte Trainingsdaten erreicht werden.
Beispiel für eine Arbeit aus diesem Bereich:J. Eckle-Kohler, M. Kohler und J. Mehnert. Automatic recognition of German news focussing on future-directed beliefs and intentions. Herunterladbar als ps- und pdf-file.
Schwerpunkt der Forschung in diesem Bereich sind Anwendungen der Statistik in den Ingenieurwissenschaften. Zur Zeit gehören dazu in erster Linie die Analyse von dreidimensionalen Strömungsfeldern mittels particle tracking velocimetry (die auf Probleme der nichtparametrischen Schätzung von Regressionsfunktionen führt, die sich auch noch zeitlich verändern) sowie Untersuchungen im Zusammenhang mit dem SFB 666 zur Spaltprofilierung. Dabei werden Materialparameter, die die Belastbarkeit von Materialien beschreiben, mittels einfach messbarer Parameter des Materials vorhergesagt.