1. Introduction


Le logiciel EXTREMES regroupe différents outils dédiés à l'étude des valeurs extrêmes : entre autres estimation des quantiles extrêmes et sélection de modèles pour les queues de distribution. Il est le fruit d'une collaboration entre les équipes IS2 puis MISTIS de l'INRIA Rhône-Alpes et la division Recherche et Développement d'EDF, et l'aboutissement des travaux de thêse de Myriam Garrido (Garrido, 2002). Il ne s'adresse pas uniquement aux spécialistes des valeurs extrêmes, même s'il offre de nouveaux outils pour l'étude des queues de distribution.
Dans le paragraphe 2, nous décrivons le contexte mathématique permettant l'étude des évènements rares et dans le paragraphe 3 sont exposées les fonctionnalités du logiciel proprement dites.


2. Fondements théoriques


La théorie des valeurs extrêmes (Embrechts et al, 1997) a été développée pour l'estimation de probabilités d'occurrences d'évènements rares. Elle permet d'extrapoler le comportement de la queue de distribution des données à partir des plus grandes données observées. Le résultat suivant sur la loi des valeurs extrêmes est, pour le maximum de observations, un analogue du théorème central limite pour la moyenne. Il décrit les limites possibles de la loi du maximum de variables aléatoires indépendantes et identiquement distribuées correctement normalisées à l'aide de deux suites et .
Soit la fonction de répartition de la loi d'intérêt. Sous certaines conditions de régularité sur , il existe  et deux suites normalisantes et tels que 

 


est la fonction de répartition de la loi des valeurs extrêmes :


et où la notation désigne .


On dit alors que le fonction de répartition est dans le domaine d'attraction de Fréchet, de Gumbel ou de Weibull selon que ou .
Une 2ème méthode d'estimation de queues de distribution est la méthode des excès ou POT (Peaks over threshold), introduite dans (de Haan et Rootzen, 1993). Soit un réel suffisamment grand appelé seuil. La méthode des excès s'appuie sur l'approximation de la loi des excès au-dessus du seuil de la variable aléatoire , c'est-à-dire de la loi conditionnelle de la variable aléatoire  sachant que . La fonction de répartition des excès est définie par :

 


.


D'après le théorème de Pickands, si appartient à l'un des 3 domaines d'attraction de la loi des valeurs extrêmes, la fonction de répartition peut être approchée par une loi de Pareto généralisée (GPD) définie pour  par :



Sur la base de ces résultats, il est possible d'estimer des quantiles extrêmes. Un quantile extrême d'ordre est défini par l'équation avec , désignant la taille de l'échantillon. Un tel quantile étant généralement situé au-delà de l'observation maximale, des techniques spécifiques d'estimation sont nécessaires. La méthode POT s'appuie sur le théorème de Pickands pour estimer par :

 

[1]


désigne le nombre d'excès au-delà du seuil et et sont des estimateurs des paramètres de la loi GPD. Pour ces derniers, de nombreuses propositions existent, voir par exemple (Embrechts et al, 1997).

3. Fonctionnalités


Les sources du logiciel EXTREMES sont écrites en langage C++ et une interface graphique a été développée avec la librarie QT de façon à allier rapidité d'exécution et convivialité. Les fonctions disponibles sont regroupées en 3 catégories.

3.1. Fonctions statistiques classiques


Les fonctions ci-dessous sont d'intérêt général au sens où elles ne sont pas dédiées à l'étude des valeurs extrêmes.
- Simulations de variables aléatoires de lois Normale, Lognormale, Exponentielle, Gamma, Weibull, Chi2, Student, Pareto, Burr, Frechet, Beta, Uniforme et Pareto généralisée
- Graphique des densités, fonctions de répartition, fonctions de survie, fonctions quantiles des lois précitées
- Estimation des paramètres des lois précitées
- Estimation non paramétrique de la densité (méthode de noyau, histogramme)
- Estimation paramétrique des quantiles
- Test d'Anderson-Darling et Cramer-Von Mises


3.2. Fonctions extrêmes classiques


Nous regroupons ici les fonctions d'estimation et de test bien connues dans le domaine de la statistique des valeurs extrêmes.
- Vérification de l'exponentialité des excès : il s'agit de s'assurer que la fonction de répartition des données étudiées est dans le domaine d'attraction de Gumbel, et que le nombre d'excès est convenablement choisi. L'ajustement de la loi Exponentielle aux excès est contrôlé graphiquement en traçant un QQ-plot. Un test d'exponentialité des excès est également proposé.
- Estimation des paramètres de la loi GPD. Sont regroupées ici plusieurs méthodes classiquement utilisées pour estimer le couple , notamment les méthodes de Hill, Hill généralisé (Dekkers et al,1989), Moments pondérés d'Hosking et Wallis, Maximum de vraisemblance et Zipf (Beirlant et al, 2002). Voir (Embrechts et al, 1997) et les références incluses.
- Estimation des quantiles extrêmes. Cette estimation s'appuie sur l'équation [1] et l'estimation des paramètres précédents.

3.3. Procédures introduites dans (Garrido, 2002)


Il s'agit de la partie la plus innovante du logiciel. Les fonctions rassemblées ici ont été intégralement développées dans le cadre d'une thèse co-financée par INRIA Rhône-Alpes et EDF.
- Test ET
- Test GPD
- Régularisation bayésienne
Le test ET et le test GPD sont 2 tests d'adéquation pour la queue de distribution. Ils sélectionnent par comparaison avec la méthode POT les modèles centraux produisant de bonnes estimations de la queue de distribution. Lorsqu'on souhaite reconstituer la loi des observations aussi bien dans la région centrale qu'extrême, on applique d'abord à un ensemble de modèles un test usuel (Anderson-Darling ou Cramer-Von Mises) puis un test d'adéquation de la queue de distribution (ET ou GPD). Si aucune loi n'est acceptée par les 2 types de tests, la procédure de régularisation bayésienne permet, à partir d'un modèle adapté aux valeurs les plus probables, d'améliorer l'adéquation extrême grâce à un avis d'expert sur la queue de distribution.