Titelaufnahme

Titel
Adaptive prediction models and their application to credit scoring / Georg Matthias Krempl
Verfasser/ VerfasserinKrempl, Georg
Begutachter / BegutachterinKellerer Johann ; Spiliopoulou Maria
Erschienen2011
Umfang148, I Bl. : Zsfassung ; graph. Darst.
HochschulschriftGraz, Univ., Diss., 2011
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (GND)Credit Scoring / Prognoseverfahren / Credit Scoring / Prognoseverfahren / Online-Publikation
URNurn:nbn:at:at-ubg:1-30820 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Adaptive prediction models and their application to credit scoring [5.46 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Prognoseverfahren im überwachten Lernen basieren auf Verteilungenannahmen hinsichtlich der zu Grunde liegenden Population.Im Allgemeinen sind diese Verteilungen nicht statisch, sondern verändern sich über die Zeit.Dieses Problem wird in der Literatur zu maschinellem Lernen als Population Drift oder Concept Drift bezeichnet.Bekannte Ansätze begegnen diesem Problem durch die Verwendung aktueller, gelabelter Daten.In manchen Anwendungsgebieten, wie beispielsweise dem Kreditscoring, zielen Prognosen auf Ereignisse in ferner Zukunft ab.Sie sind daher erst mit großer zeitlicher Verzögerung verifizierbar, ein Problem, das als Verification Latency bekannt ist.Treten Drift und verzögerte Verifizierbarkeit gemeinsam auf, sind bekannte Verfahren nur sehr limitiert einsetzbar, da aktuelle, gelabelte Daten nicht zur Verfügung stehen.Hauptziel dieser Dissertation ist die Klassifikation unter solchen Rahmenbedingungen.Im ersten Beitrag wird ein neues, statisches Ensembleverfahren vorgestellt, welches lokale Experten und Metaklassifikatoren zu einem Entscheidungsbaum kombiniert.Der zweite Beitrag gibt einen Überblick über die existierende Literatur zu Drift und Latency, führt eine Taxonomie von Driftarten ein, und stellt das Konzept explizieter Driftmodelle vor.Des Weiteren wird ein beispielhaftes, neues, adaptives Klassifikationsverfahren für evolvierende Subpopulationen vorgestellt und evaluiert.Im dritten Beitrag wird das Problem beliebig verteilter Subpopulationen behandelt und ein adaptives Klassifikationsverfahren präsentiert.Der vierte und letzte Beitrag wechselt von dem ex-ante in den ex-post Blickwinkel und behandelt Methoden zur Analyse von Drift in historischen Daten.Das Kapitel schließt mit einer Evaluierung der präsentierten Methoden auf zwei Datensätzen zum Kreditscoring aus der Praxis.

Zusammenfassung (Englisch)

Prediction models are based on assumptions on the distributions involved.In general, these distributions are not static but rather change over time.This phenomenon is denoted as population or concept drift.Prediction in presence of drifting distributions is a challenging problem in machine learning research.Known methods to address this problem, such as incremental learning, rely on the use of current, labelled data.This has an important limitation, as such data may be available only with a considerable delay.In some application domains such as credit scoring, predictions aim at outcomes far in the future.As predictions are only verifiable with a considerable delay, the available labelled data often consists of outdated samples.This problem of so-called verification latency or label delay recently got attention in research.However, prior to this thesis, no appropriate adaptive prediction strategies to address this problem had been discussed in literature.The main part of this thesis is thus dedicated to prediction in concurrence of drift and latency.In the first contribution, a new, static ensemble method is introduced, which uses local experts and meta classifiers in a tree layout.The second contribution addresses the problem of latency and drift, relates existing concepts in literature, provides a new taxonomy of types of drift, and introduces the concept of explicit drift models.Furthermore, an exemplary adaptive prediction model for drifting subpopulations is presented and evaluated.The third contribution is a new, non-parametric approach for mixtures of arbitrarily distributed subpopulations.A framework for modelling and tracking such subpopulations is introduced and evaluated.While these first chapters focus on adaptive prediction methods in an ex-ante point of view, the fourth and last chapter is an ex-post analysis of drift.In this last contribution, the effects of different types of drift on the distributions is discussed.[...]