Informations

Comment appliquer l'inférence bayésienne pour quantifier une lecture au fur et à mesure que vous séquencez ?


Pour la technologie de séquençage NGS, plus vous séquencez des fragments donnés "en profondeur", plus vous êtes certain de ce qui est séquencé. Cela ressemble à une simple application de la règle de Bayes.

Quelle est l'approche normale sur le terrain pour quantifier son niveau de certitude dans le séquençage NGS avec des méthodes bayésiennes ? Il y a aussi une question statistique ici en termes de comment on aligne les lectures, etc.


Une méthode d'inférence bayésienne pour l'analyse des réseaux de régulation transcriptionnelle dans les données métagénomiques

La métagénomique permet l'analyse de la composition de la population bactérienne et l'étude des caractéristiques émergentes de la population, telles que les voies métaboliques partagées. Récemment, nous avons montré que les ensembles de données métagénomiques peuvent être exploités pour caractériser les réseaux de régulation transcriptionnelle à l'échelle de la population, ou méta-régulons, fournissant des informations sur la façon dont les populations bactériennes répondent collectivement à des déclencheurs spécifiques. Ici, nous formalisons un cadre d'inférence bayésienne pour analyser la composition des réseaux de régulation transcriptionnelle dans les métagénomes en déterminant la probabilité de régulation des séquences de gènes orthologues. Nous évaluons les performances de cette approche sur des ensembles de données synthétiques et nous la validons en analysant le réseau cuivre-homéostasie des espèces Firmicutes dans le microbiome intestinal humain.

Résultats

L'évaluation sur des ensembles de données synthétiques montre que notre méthode fournit une métrique robuste et interprétable pour évaluer la régulation putative par un facteur de transcription sur des ensembles de séquences de promoteurs mappés à un groupe de gènes orthologues. Le cadre d'inférence intègre la contribution régulatrice des sites secondaires et peut discerner les faux positifs résultant de plusieurs instances d'une séquence clonale. Les probabilités postérieures pour les clusters de gènes orthologues diminuent fortement lorsque moins de 20 % des promoteurs cartographiés ont des sites de liaison, mais nous introduisons une procédure d'ajustement de la sensibilité pour accélérer le calcul qui améliore l'évaluation de la régulation dans les clusters orthologues hétérogènes. L'analyse du régulon de l'homéostasie du cuivre gouverné par la CsoR dans le microbiome intestinal humain Firmicutes révèle que la CsoR se contrôle elle-même et les ATPases de type P transloquant le cuivre, mais pas les chaperons de cuivre de type CopZ. Notre analyse indique également que CsoR cible fréquemment des promoteurs avec des sites de liaison CsoR doubles, suggérant qu'il exploite des conformations de liaison d'ordre supérieur pour affiner son activité.

Conclusion

Nous introduisons et validons une méthode d'analyse des réseaux de régulation transcriptionnelle à partir de données métagénomiques qui permet l'inférence de méta-régulons de manière systématique et interprétable. La validation de cette méthode sur le méta-régulon CsoR du microbiome intestinal Firmicutes illustre l'utilité de l'approche, révélant de nouvelles propriétés du réseau cuivre-homéostasie chez des espèces bactériennes mal caractérisées et mettant en avant de nouveaux mécanismes de liaison à l'ADN pour ce régulateur transcriptionnel. Notre approche permettra l'analyse comparative des réseaux de régulation à travers les métagénomes, donnant de nouvelles perspectives sur l'évolution des réseaux de régulation transcriptionnelle.


Fond

Un défi auquel est confrontée la biologie moléculaire est de développer des modèles quantitatifs et prédictifs de régulation génique. L'avancée de la technique des puces à ADN à haut débit permet de mesurer les profils d'expression de milliers de gènes, et des ensembles de données de puces à ADN à l'échelle du génome sont collectés, fournissant un moyen de révéler le mécanisme de régulation complexe entre les cellules. Il existe deux grandes classes d'interactions de régulation des gènes : l'une basée sur « l'interaction physique » qui vise à identifier les relations entre les facteurs de transcription et leurs gènes cibles (interaction gène-séquence) et une autre basée sur « l'interaction d'influence » qui essaie de relier l'expression d'un gène à l'expression des autres gènes dans la cellule (interaction gène à gène).

Ces dernières années, les chercheurs ont proposé de nombreuses approches informatiques différentes pour reconstruire des réseaux de régulation génique à partir de données à haut débit, par ex. voir les critiques de Bansal et al. et Markowetz et Spang [1, 2]. Ces approches se répartissent grosso modo en deux catégories : les aspects qualitatifs et quantitatifs. Déduire des réseaux de régulation qualitatifs à partir de données de puces à ADN a été bien étudié, et un certain nombre d'approches efficaces ont été développées [3-10]. Cependant, ces méthodes sont basées sur des modèles qualitatifs à gros grains [11, 12], et ne peuvent fournir une vision réaliste et quantitative des systèmes de régulation. D'autre part, la modélisation quantitative du réseau de régulation génique n'en est qu'à ses balbutiements. La recherche sur les modèles quantitatifs de régulation génétique n'a vu le jour que ces dernières années, et la plupart d'entre elles sont basées sur des techniques statistiques classiques. Liebermeister et al. [13] ont proposé un modèle linéaire pour l'expression génique liée au cycle cellulaire chez la levure basé sur une analyse en composantes indépendantes. Holter et al. [14] utilisent une décomposition en valeurs singulières pour découvrir les modèles fondamentaux sous-jacents aux profils d'expression génique. Pournara et al. [15] et Yu et al. [16] ont proposé le modèle d'analyse factorielle pour décrire un plus grand nombre de variables observées. Cependant, ces approches sont basées sur la régression linéaire et ne sont pas toujours cohérentes avec les observations des expériences biochimiques qui ne sont pas linéaires. Imoto et al. [17] ont proposé un modèle non linéaire avec des variances d'erreur hétérogènes. Ce modèle correspond bien aux données des microréseaux, mais il n'est pas assez satisfaisant pour révéler un sens plus biologique. Segal et al. [18] ont proposé un modèle basé sur un réseau de contrôle de la transcription et ont appliqué leur modèle au réseau de gènes de segmentation de Drosophila melanogaster. Ils révèlent que les informations de position sont codées dans la séquence régulatrice et la distribution des facteurs d'entrée. Cependant, il reste encore un petit dilemme dans le modèle : le niveau d'activité des facteurs de transcription est difficile à mesurer ou à identifier. En effet, doser l'état d'activité des facteurs de transcription de manière dynamique est un obstacle majeur à une application plus large de la modélisation cinétique. Les niveaux d'activité des TF sont difficiles à mesurer principalement en raison de deux limitations techniques : les TF sont souvent présents à de faibles concentrations intercellulaires et les changements de leur état d'activité peuvent se produire rapidement en raison de modifications post-traductionnelles.

Sur la base de la description ci-dessus, cet article vise à décrire quantitativement le réseau de régulation transcriptionnelle. Dans ce travail, un modèle régulateur basé sur l'inférence bayésienne est proposé pour quantifier la dynamique transcriptionnelle. De multiples quantités, y compris l'énergie de liaison, l'affinité de liaison et le niveau d'activité du facteur de transcription sont incorporées dans un modèle d'apprentissage général. Les caractéristiques de séquence du promoteur et l'occupation des nucléosomes sont exploitées pour dériver l'énergie de liaison. Par rapport aux modèles précédents, le modèle proposé peut révéler plus de sens biologique.


Prédire le futur

Les gens ont toujours essayé de prédire et de changer l'avenir. Dans les temps anciens, la divination était un métier sophistiqué réservé aux prêtres et aux chamanes. L'exemple le plus connu en est peut-être le Oracle de Delphes, consulté pendant des centaines d'années par les hommes d'État grecs et les empereurs romains. La politique ancienne était une époque de beaucoup d'incertitude, et nous ne devrions pas être trop critiques quant au désir des gens de la voir réduite.

Mais d'un point de vue scientifique plus moderne, nous avons réalisé qu'il est peu probable qu'inhaler des vapeurs toxiques et parler par énigmes en état de transe nous donne un réel aperçu du fonctionnement du monde. Afin de réduire l'incertitude quant à l'avenir, nous (et notre cerveau avec lui) devons adopter une approche plus piétonne, en essayant de le prédire le mieux possible sur la base de ce que nous savons déjà du monde. Que puis-je espérer qu'il se passe demain en fonction de ce que j'observe dans le monde d'aujourd'hui, et dans quel sens dois-je orienter mon action afin d'obtenir les résultats les plus avantageux pour ma survie ?


Résultats

Après avoir spécifié l'a priori et la vraisemblance, et collecté les données, la distribution a posteriori peut être obtenue. Ici, nous expliquons comment un modèle peut être ajusté aux données pour obtenir une distribution a posteriori, comment sélectionner des variables et pourquoi une vérification prédictive a posteriori est nécessaire. La construction de modèles est un processus itératif. Tout modèle bayésien peut être considéré comme un espace réservé qui peut être amélioré en réponse à de nouvelles données ou à un manque d'ajustement aux données existantes, ou simplement par le biais d'un processus de raffinement du modèle. Encadré 56, Rubin 78 et Gelman et al. 74 discutent de la fluidité de la construction de modèles bayésiens, de l'inférence, des diagnostics et de l'amélioration des modèles.

Ajustement du modèle

Une fois le modèle statistique défini et la fonction de vraisemblance associée dérivée, l'étape suivante consiste à ajuster le modèle aux données observées pour estimer les paramètres inconnus du modèle. Bien que les modèles statistiques soient une simplification de la réalité, ils visent à capturer les principaux facteurs du système sous-jacent dont nous souhaitons améliorer notre compréhension et qui conduisent aux données que nous observons. Les modèles peuvent différer considérablement dans leur complexité, en tenant compte des nombreux facteurs ou mécanismes possibles qui agissent sur le système sous-jacent, et des sources de stochasticité et de variabilité résultant des données données que nous observons. L'ajustement des modèles aux données observées permet l'estimation des paramètres du modèle, ou des fonctions de ceux-ci, conduisant à une meilleure compréhension du système et des facteurs sous-jacents associés.

Le cadre fréquentiste pour l'ajustement du modèle se concentre sur les résultats attendus à long terme d'une expérience dans le but de produire une estimation ponctuelle unique pour les paramètres du modèle tels que l'estimation du maximum de vraisemblance et l'intervalle de confiance associé. Dans le cadre bayésien d'ajustement du modèle, des probabilités sont attribuées aux paramètres du modèle, décrivant les incertitudes associées. Dans les statistiques bayésiennes, l'accent est mis sur l'estimation de l'ensemble de la distribution postérieure des paramètres du modèle. Cette distribution postérieure est souvent résumée avec des estimations ponctuelles associées, telles que la moyenne ou médiane postérieure, et un intervalle crédible. L'inférence directe sur la distribution postérieure n'est généralement pas possible, car l'équation mathématique décrivant la distribution postérieure est généralement à la fois très compliquée et de grande dimension, le nombre de dimensions étant égal au nombre de paramètres. L'expression de la distribution postérieure n'est généralement connue que jusqu'à une constante de proportionnalité, un terme constant dans la distribution postérieure qui n'est pas fonction des paramètres et, en général, ne peut pas être explicitement calculé. En particulier, le dénominateur de l'expression pour la distribution a posteriori est une fonction des seules données, où cette fonction n'est pas disponible sous forme fermée mais exprimable uniquement comme une intégrale analytiquement intraitable. Cela signifie que nous ne pouvons pas évaluer exactement la distribution a posteriori, et donc ne pouvons pas calculer, par exemple, les statistiques récapitulatives associées d'intérêt directement. En outre, la dimensionnalité élevée exacerbe ces problèmes, de sorte que le calcul de la distribution postérieure marginale peut également ne pas être traitable et ne s'exprimer que sous forme intégrale. Nous notons que cette intraitabilité de la distribution postérieure était la principale raison pratique pour laquelle les statistiques bayésiennes ont été rejetées par de nombreux scientifiques en faveur des statistiques fréquentistes. L'article fondateur de Gelfand et Smith 79 décrit comment la chaîne de Markov Monte Carlo (MCMC), une technique d'échantillonnage à partir d'une distribution de probabilité, peut être utilisée pour ajuster les modèles aux données dans le paradigme bayésien 80 . En particulier, l'algorithme MCMC ne nécessite que la spécification de la distribution de probabilité d'intérêt jusqu'à une constante de proportionnalité et est évolutif à des dimensions élevées.

Chaîne de Markov Monte Carlo

MCMC est capable d'obtenir indirectement une inférence sur la distribution postérieure en utilisant des simulations informatiques 80 . MCMC permet d'obtenir un ensemble de valeurs de paramètres échantillonnées de taille arbitraire à partir de la distribution postérieure, bien que la distribution postérieure soit de grande dimension et connue uniquement jusqu'à une constante de proportionnalité. Ces valeurs de paramètres échantillonnées sont utilisées pour obtenir des estimations empiriques de la distribution a posteriori d'intérêt. Cette distribution postérieure, et les statistiques récapitulatives d'intérêt associées, peuvent être estimées jusqu'à la précision souhaitée en augmentant le nombre de valeurs de paramètres échantillonnées, si nécessaire. Nous notons qu'en raison de la grande dimensionnalité de la distribution postérieure, il est souvent utile de se concentrer sur la distribution postérieure marginale de chaque paramètre, définie par intégration sur les autres paramètres. Les distributions marginales sont utiles pour se concentrer sur des paramètres individuels mais, par définition, ne fournissent aucune information sur la relation entre les paramètres.

Ici, nous nous concentrons sur MCMC pour l'inférence postérieure. MCMC combine deux concepts : obtenir un ensemble de valeurs de paramètres à partir de la distribution a posteriori en utilisant la chaîne de Markov et obtenir une estimation distributionnelle de la statistique a posteriori et associée avec des paramètres échantillonnés en utilisant l'intégration de Monte Carlo. Bien que MCMC soit la classe d'algorithmes la plus couramment utilisée dans les analyses bayésiennes, il existe d'autres algorithmes d'ajustement de modèle (tableau 1). D'autres estimateurs disponibles peuvent être trouvés ailleurs 81,82 .

En général, l'intégration de Monte Carlo est une technique d'estimation d'intégrales à l'aide de simulations informatiques de valeurs échantillonnées à partir d'une distribution donnée. Compte tenu de ces valeurs de paramètres échantillonnées, l'intégration de Monte Carlo permet d'estimer cette distribution à l'aide d'estimations empiriques associées 83 . Par exemple, pour les statistiques récapitulatives distributionnelles, telles que la moyenne, la variance ou l'intervalle de crédibilité symétrique à 95 % d'un paramètre, nous estimons ces statistiques récapitulatives à l'aide de la moyenne de l'échantillon, de la variance de l'échantillon et des valeurs des paramètres quantiles de 2,5 % et 97,5 %, respectivement. De même, les déclarations de probabilité - telles que la probabilité qu'un paramètre soit positif ou négatif, ou qu'il se situe dans une plage [une,b] — peut être estimé comme la proportion des valeurs échantillonnées qui satisfont à l'énoncé donné. La distribution marginale postérieure de tout paramètre donné peut être obtenue par l'estimation de la densité par noyau, qui utilise une approche non paramétrique pour estimer la densité associée à partir de laquelle les valeurs échantillonnées ont été tirées 58 .

Il n'est pas possible d'échantillonner directement et indépendamment les valeurs des paramètres à partir de la distribution a posteriori. Cela conduit à l'utilisation de la chaîne de Markov. L'idée est d'obtenir un ensemble de valeurs de paramètres échantillonnées à partir de la distribution postérieure d'intérêt en construisant une chaîne de Markov avec un noyau de transition de premier ordre spécifié, de telle sorte que la distribution stationnaire résultante de la chaîne de Markov soit égale à cette distribution postérieure d'intérêt. Si la chaîne de Markov est suffisamment longue pour atteindre sa distribution stationnaire, les réalisations ultérieures de la chaîne peuvent être considérées comme un échantillon dépendant de la distribution postérieure et peuvent être utilisées pour obtenir les estimations de Monte Carlo correspondantes (Fig. 4a). Nous soulignons que les valeurs de paramètres échantillonnées obtenues à partir de la chaîne de Markov sont autocorrélées - elles dépendent de leurs valeurs précédentes dans la chaîne - et sont générées par la chaîne de Markov du premier ordre. La chaîne de Markov est définie par la spécification des valeurs initiales des paramètres et du noyau de transition. L'échantillonneur de Gibbs 84 , l'algorithme Metropolis-Hastings 85,86 et l'hamiltonien Monte Carlo 87 sont des approches standard pour définir le noyau de transition de sorte que la distribution stationnaire correspondante soit la distribution postérieure correcte.

une | Traces montrant le nombre d'itérations par rapport à la valeur du paramètre pour les données de retard PhD de quatre chaînes indépendantes des algorithmes de Monte Carlo de la chaîne de Markov (MCMC) pour explorer la distribution postérieure d'une intersection, ??intercepter. La section ombrée représente la phase d'échauffement et a été omise pour la construction de la distribution postérieure. b | Le (hat associé) statistique pour ??intercepter, qui semble converger vers 1 après environ 2 000 itérations (en grisé). ce | Les distributions a priori et a posteriori de ??intercepter (partie c), l'effet linéaire de l'âge (années), ??âge (partie ) et (<eta >_<<< m>>^<2>>) (partie e) sont indiqués. Pour chaque chaîne, les 2 000 premières itérations sont rejetées comme échauffement. F | Pour illustrer l'interrelation entre deux paramètres, les densités marginales a priori (bleu) et a posteriori (vert) pour ??âge et (<eta >_<>^<2>>) s'affichent. Tous les résultats sont calculés dans Stan 98 — les scripts sont disponibles sur Open Science Framework 141 .

Aspects techniques MCMC

L'obtention d'une inférence postérieure en ajustant des modèles aux données observées peut être compliquée en raison de la complexité des modèles ou des processus de collecte de données. Par exemple, pour les modèles à effets aléatoires ou en présence de variables latentes, la vraisemblance peut ne pas être disponible sous forme fermée mais uniquement exprimable comme une intégrale analytiquement insoluble des termes à effets aléatoires ou des variables latentes. Alternativement, la vraisemblance peut être disponible sous forme fermée, mais peut être multimodale - par exemple, pour un modèle de mélange fini ou un modèle à variable latente discrète. Ceci, à son tour, peut conduire à de mauvaises performances de l'algorithme avec un (ou plusieurs) mode(s) non exploré par l'algorithme. Dans de telles circonstances, l'augmentation des données est souvent utilisée 88 , où nous définissons des variables supplémentaires, ou variables auxiliaires, de sorte que la distribution conjointe des données et des variables auxiliaires - souvent appelée probabilité de « données complètes » - est désormais disponible sous forme fermée et rapide à évaluer. Par exemple, dans un modèle à effets aléatoires, les variables auxiliaires correspondent aux termes d'effets aléatoires individuels qui auraient été précédemment intégrés pour un modèle de mélange fini, les variables auxiliaires correspondent à la composante de mélange à laquelle appartient chaque observation. Une nouvelle distribution postérieure conjointe est ensuite construite sur les paramètres du modèle et les variables auxiliaires. Cette distribution postérieure est définie comme étant proportionnelle à la vraisemblance complète des données et aux distributions antérieures associées spécifiées sur les paramètres. Un algorithme MCMC standard peut ensuite être appliqué pour obtenir un ensemble de valeurs de paramètres échantillonnées à la fois sur les paramètres du modèle et les variables auxiliaires.Le fait de rejeter les variables auxiliaires et de ne considérer que les valeurs des paramètres du modèle d'intérêt au sein de la chaîne de Markov fournit un échantillon de la distribution postérieure originale des paramètres du modèle conditionnellement aux données observées. Les variables auxiliaires peuvent elles-mêmes être intéressantes dans certains cas, par exemple lorsqu'elles représentent des valeurs de données manquantes ou un concept tangible tel qu'un sous-groupe homogène (pour un modèle de mélange) ou un véritable état sous-jacent (comme pour un modèle d'espace d'état), et l'inférence sur ceux-ci peuvent être facilement obtenus en utilisant les valeurs échantillonnées.

Le noyau de transition détermine l'algorithme MCMC, décrivant comment les valeurs des paramètres et toute autre variable auxiliaire supplémentaire sont mises à jour à chaque itération de la chaîne de Markov. Pour que la distribution stationnaire de la chaîne de Markov soit la distribution postérieure d'intérêt, le noyau de transition est spécifié de telle sorte qu'il satisfasse quelques règles simples. Le noyau de transition est généralement défini à l'aide d'une distribution de proposition prédéfinie : un ensemble de nouvelles valeurs de paramètres est proposé à partir de cette distribution de proposition, et ces valeurs sont ensuite acceptées ou rejetées en fonction d'une probabilité d'acceptation donnée, qui est fonction de la distribution de proposition. Si les valeurs proposées sont acceptées, la chaîne de Markov passe à ce nouvel état alors que si les valeurs sont rejetées, la chaîne de Markov reste dans le même état à l'itération suivante. Nous notons que le noyau de transition n'est pas unique, en ce sens qu'il existe de nombreux choix possibles pour cette distribution de proposition qui conduiront à la distribution stationnaire correcte. Les distributions de proposition courantes incluent : la distribution conditionnelle postérieure, conduisant à l'échantillonneur de Gibbs où la probabilité d'acceptation dans l'étape de mise à jour est égale à l'échantillonneur à marche aléatoire Metropolis-Hastings, qui perturbe aléatoirement les valeurs des paramètres à partir de leurs valeurs actuelles l'échantillonneur de tranches et le No-U-Turn Sampler, parmi tant d'autres. Nous ne nous concentrons pas davantage sur la mécanique interne de l'algorithme MCMC ici car il existe une abondante littérature sur ce sujet et, également, des outils et programmes de calcul associés pour effectuer une analyse bayésienne en utilisant une approche MCMC. Pour une discussion plus approfondie, voir, par exemple, les références 74,89,90.

Évaluation des performances

Le choix du noyau de transition définit les performances de l'algorithme MCMC en déterminant combien de temps la chaîne de Markov doit être exécutée pour obtenir une inférence fiable sur la distribution postérieure. Les tracés de trace peuvent afficher les valeurs des paramètres sur de nombreuses itérations. Les tracés de trace unidimensionnels sont le plus souvent utilisés, ils décrivent la valeur d'un paramètre à chaque itération de la chaîne de Markov sur le oui axe contre le numéro d'itération sur le X et sont souvent un outil exploratoire utile (Fig. 4a). En particulier, les tracés de trace fournissent une visualisation de la chaîne en termes de la façon dont chaque paramètre explore l'espace des paramètres - appelé mélange. Si ce mélange est médiocre, dans la mesure où la chaîne met beaucoup de temps à explorer l'espace des paramètres postérieurs, des modifications du noyau de transition spécifié peuvent être nécessaires. Par exemple, un mauvais mélange peut être dû à de très petits changements de valeur de paramètre entre les itérations successives ou s'il existe un taux de rejet élevé des valeurs de paramètre proposées, de sorte que les valeurs de paramètre restent les mêmes sur de nombreuses itérations successives de l'algorithme MCMC. Ces graphiques sont également utilisés de manière informelle pour identifier le moment où la chaîne de Markov a atteint sa distribution stationnaire. Les réalisations de la chaîne avant la convergence vers sa distribution stationnaire sont écartées. Ce processus est communément appelé burn-in, bien que nous préférions le terme d'échauffement et que nous nous référons donc à ce processus dans cette amorce 91 .

La technique la plus courante pour évaluer la convergence d'une chaîne de Markov vers sa distribution stationnaire est le (hat) statistique, qui est définie comme le rapport entre la variabilité intra-chaîne et inter-chaîne 92,93 . Afin d'appliquer cette approche, plusieurs exécutions indépendantes de l'algorithme MCMC doivent être exécutées (Fig. 4b). Idéalement, chacune des chaînes de Markov devrait commencer à partir de valeurs de départ différentes et en utilisant différentes graines aléatoires afin de fournir une plus grande variabilité initiale à travers les chaînes de Markov et de rendre plus probable que la non-convergence de la chaîne vers la distribution stationnaire sera identifiée. . Cette non-convergence pourrait se produire, par exemple, si différents sous-modes de la distribution postérieure sont explorés. Des valeurs proches de un pour tous les paramètres et quantités d'intérêt suggèrent que la chaîne a suffisamment convergé vers la distribution stationnaire, de sorte que les réalisations futures peuvent être considérées comme un échantillon de la distribution postérieure (Fig. 4b). Lorsque la distribution stationnaire est atteinte, le nombre d'itérations nécessaires pour obtenir des estimations Monte Carlo fiables et à faible erreur peut être déterminé. Pour évaluer le nombre d'itérations requis, les valeurs échantillonnées sont souvent groupées, ce qui implique de subdiviser les valeurs échantillonnées en lots non chevauchants d'itérations consécutives et de considérer la variabilité de la statistique estimée à l'aide des valeurs échantillonnées dans chaque lot 94 .

La taille d'échantillon effective des valeurs de paramètres échantillonnées peut être obtenue pour fournir une indication de l'efficacité de l'algorithme. La taille effective de l'échantillon exprime approximativement le nombre de valeurs de paramètres échantillonnées indépendantes contenant les mêmes informations que les échantillons MCMC autocorrélés. Ici, la taille effective de l'échantillon ne fait pas référence à la taille de l'échantillon des données, c'est plutôt la longueur effective de la chaîne MCMC. Une faible efficacité d'échantillonnage est liée à une autocorrélation élevée (et à un mauvais mélange) - de sorte que la variabilité des valeurs des paramètres est faible au cours des itérations successives - et à des histogrammes non lisses de postérieurs. Dans ces circonstances, des simulations plus longues sont généralement nécessaires pour obtenir des estimations fiables de la distribution a posteriori et une erreur de Monte Carlo suffisamment faible dans les statistiques récapitulatives a posteriori estimées. Ce dernier problème d'une petite taille d'échantillon efficace, à son tour, pourrait indiquer des problèmes potentiels dans l'estimation du modèle ou une faible identifiabilité des paramètres 21 . Par conséquent, lorsque des problèmes surviennent pour obtenir des estimations de Monte Carlo fiables, un bon point de départ consiste à trier toutes les variables en fonction de la taille effective de l'échantillon et à rechercher d'abord celles dont la taille effective de l'échantillon est la plus faible. La taille effective de l'échantillon est également utile pour diagnostiquer l'efficacité de l'échantillonnage pour un grand nombre de variables 95 .

Logiciel

Il existe maintenant de nombreux progiciels de calcul standard pour la mise en œuvre des analyses bayésiennes (tableau 2), qui ont par la suite conduit à la croissance de l'inférence bayésienne dans de nombreux domaines scientifiques. De nombreux packages disponibles exécutent l'algorithme MCMC comme une boîte noire - bien que souvent avec des options pour modifier les paramètres par défaut - permettant à l'analyste de se concentrer sur les spécifications antérieures et de modèle, et d'éviter tout codage technique. Il existe de nombreux packages supplémentaires qui facilitent le travail avec les logiciels parfois fortement codés, tels que les packages BRMS 96 et Blavaan 97 en R pour simplifier l'utilisation du langage de programmation probabiliste Stan 98 .

Exemple empirique 1 suite

Les a priori pour l'exemple de retard de doctorat ont été mis à jour avec les données, et les a posteriori ont été calculés dans Stan 98 . Le tracé de trace de quatre exécutions indépendantes des algorithmes MCMC pour ??intercepter est illustré à la Fig. 4a, affichant la stabilité après l'échauffement. Le (hat associé) la statistique se stabilise après environ 2 000 itérations (Fig. 4b). Les distributions a priori et a posteriori sont présentées sur la figure 4c–e. Comme on peut le voir, les a priori et a posteriori sont très proches les uns des autres, indiquant que nos connaissances a priori sont « confirmées » par les données nouvellement collectées. Aussi, on peut voir que l'incertitude a diminué (par exemple, les variances postérieures sont plus petites par rapport aux variances antérieures), indiquant que nous avons mis à jour nos connaissances. Pour illustrer à quel point il est facile de calculer les interrelations des paramètres, nous avons également tracé les densités marginales antérieures et postérieures entre ??âge et (<eta >_<<< m>>^<2>>) (Fig. 4f).

Inférence variationnelle

Comme nous l'avons souligné, l'analyse bayésienne comprend de nombreuses étapes, notamment le développement de modèles détaillés, la spécification des modèles antérieurs et de données, la dérivation d'approches d'inférence exacte basées sur MCMC, ainsi que la vérification et le raffinement du modèle. Chacune de ces étapes est idéalement traitée indépendamment, séparant la construction du modèle de sa mise en œuvre informatique. L'accent mis sur les techniques d'inférence exacte a repoussé une activité considérable dans le développement de méthodes de Monte Carlo, qui sont considérées comme l'étalon-or pour l'inférence bayésienne. Les méthodes de Monte Carlo pour l'inférence bayésienne adoptent une stratégie basée sur la simulation pour l'approximation des distributions postérieures. Une approche alternative consiste à produire des approximations fonctionnelles du postérieur à l'aide de techniques telles que l'inférence variationnelle 99 ou la propagation d'espérance 100 . Ici, nous décrivons l'inférence variationnelle, également connue sous le nom de méthodes variationnelles ou de Bayes variationnelle, en raison de sa popularité et de la prévalence de son utilisation dans l'apprentissage automatique.

L'inférence variationnelle commence par la construction d'une distribution approximative pour estimer la distribution postérieure souhaitée, mais insoluble. En règle générale, la distribution approximative choisie provient d'une famille de distributions de probabilité standard, par exemple des distributions normales multivariées, et suppose en outre que certaines des dépendances entre les variables de notre modèle sont rompues pour rendre les calculs ultérieurs faciles. Dans le cas où la distribution d'approximation suppose que toutes les variables sont indépendantes, cela nous donne l'approximation du champ moyen. La distribution d'approximation sera spécifiée jusqu'à un ensemble de paramètres variationnels que nous optimisons pour trouver la meilleure approximation postérieure en minimisant la divergence de Kullback-Leibler par rapport à la vraie postérieure. En conséquence, l'inférence variationnelle recadre les problèmes d'inférence bayésienne comme des problèmes d'optimisation plutôt que comme des problèmes d'échantillonnage, ce qui permet de les résoudre à l'aide d'une optimisation numérique. Lorsqu'elle est combinée avec des techniques d'optimisation basées sur le sous-échantillonnage telles que la descente de gradient stochastique, l'inférence variationnelle rend l'inférence bayésienne approximative possible pour des problèmes complexes à grande échelle 101,102,103.

Sélection de variables

La sélection de variables est le processus d'identification du sous-ensemble de prédicteurs à inclure dans un modèle. C'est un élément majeur de la construction du modèle ainsi que la détermination de la forme fonctionnelle du modèle. La sélection de variables est particulièrement importante dans les situations où un grand nombre de prédicteurs potentiels sont disponibles. L'inclusion de variables inutiles dans un modèle présente plusieurs inconvénients, tels que l'augmentation du risque de multicolinéarité, des échantillons insuffisants pour estimer tous les paramètres du modèle, le surajustement des données actuelles entraînant de mauvaises performances prédictives sur les nouvelles données et rendant l'interprétation du modèle plus difficile. Par exemple, dans les études génomiques où des technologies à haut débit sont utilisées pour profiler des milliers de marqueurs génétiques, seuls quelques-uns de ces marqueurs devraient être associés au phénotype ou au résultat à l'étude.

Les méthodes de sélection des variables peuvent être classées en celles basées sur des tests d'hypothèses et celles qui effectuent une estimation des paramètres pénalisés. Dans le cadre bayésien, les approches de test d'hypothèses utilisent des facteurs de Bayes et des probabilités postérieures, tandis que les approches d'estimation de paramètres pénalisés spécifient des priorités de retrait qui induisent la parcimonie. Les facteurs de Bayes sont souvent utilisés lorsqu'il s'agit de traiter un petit nombre de prédicteurs potentiels, car ils impliquent d'ajuster tous les modèles candidats et de choisir entre eux. D'un autre côté, les méthodes de pénalisation s'adaptent à un modèle unique et sont capables d'évoluer jusqu'à des données de grande dimension.

Nous proposons une brève revue de ces approches dans le contexte d'un modèle de régression linéaire classique, où la variable de réponse de m observations indépendantes, oui, est liée à p prédicteurs potentiels définis dans un m × p matrice de covariables X via le modèle oui = X?? + ??. Le coefficient de régression ?? capture l'effet des covariables sur la variable de réponse et ?? représente les résidus supposés suivre une distribution normale avec une moyenne nulle et une variance ?? 2 .

Facteurs de Bayes et probabilités du modèle a posteriori

Les facteurs de Bayes 64 (encadré 2) peuvent être utilisés pour comparer et choisir entre des modèles candidats, chaque modèle candidat correspondant à une hypothèse. Contrairement aux méthodes de test d'hypothèses fréquentistes, les facteurs de Bayes ne nécessitent pas l'imbrication des modèles. Dans le cadre de la sélection de variables, chaque modèle candidat correspond à un sous-ensemble distinct de la p prédicteurs potentiels 104,105 . Ces 2 p les modèles possibles peuvent être indexés par un vecteur binaire ?? = (??1, …, ??p)', où ??j = 1 si covariable Xj est inclus dans le modèle, c'est-à-dire ??j 0, et ??j = 0 sinon. Laisser M?? être le modèle qui inclut le Xj valeurs avec ??j = 1. Distributions a priori pour chaque modèle, p(M??), et pour les paramètres sous chaque modèle, p(????, ?? 2 |M??), sont spécifiés, et les facteurs de Bayes BF??b sont évalués pour comparer chaque modèle M?? avec l'un des modèles pris comme référence, Mb. La probabilité postérieure, p(M??|oui), pour chaque modèle peut être exprimé en termes de facteurs de Bayes comme :

où le dénominateur somme sur tous les modèles considérés (_ >) . Les modèles avec les plus grandes probabilités postérieures correspondraient aux modèles avec la plus grande quantité de preuves en leur faveur parmi ceux à l'étude. Lorsque p est relativement petit (par exemple, <20), tous les 2 p des sous-ensembles de variables et leurs probabilités postérieures peuvent être évalués. Le modèle avec la probabilité postérieure la plus élevée peut être sélectionné comme celui le plus supporté par les données. Alternativement, les covariables avec des probabilités d'inclusion a posteriori marginales élevées, (p(_=1|<oldsymbole>)=somme _<_dans _>p(_|<oldsymbol>)) , peut être sélectionné. Pour une moyenne à grande p, cette stratégie n'est pas réalisable en pratique en tant qu'évaluation exhaustive de tous les 2 p les modèles possibles deviennent coûteux en temps de calcul. Au lieu de cela, les priors de rétrécissement qui induisent la rareté, soit en fixant les coefficients de régression des covariables non pertinentes à zéro, soit en les réduisant vers zéro, sont spécifiés et les techniques MCMC sont utilisées pour échantillonner à partir de la distribution a posteriori.

Priorités de retrait

Diverses valeurs a priori de retrait ont été proposées au cours des années. Un a priori de rétrécissement largement utilisé est l'a priori spike-and-slab, qui utilise le vecteur indicateur binaire latent (<oldsymbol>=(_<1>,cdots ,_

)dans <<0,1>>^

) pour induire un mélange de deux distributions sur ??j, l'un culminait autour de zéro (pic) et l'autre une distribution diffuse (dalle) 106,107 . Le composant de pointe identifie les éléments nuls tandis que le composant de dalle capture les coefficients non nuls. La formulation de pointes et dalles discrètes 106 utilise un mélange d'une masse ponctuelle à zéro et d'un a priori diffus (Fig. 5a), tandis que la priorisation continue d'épis et dalles 107 utilise un mélange de deux distributions continues (Fig. 5b) . Une autre formulation largement utilisée place le pic et la dalle avant la variance des coefficients de régression 108 . Après avoir spécifié des distributions antérieures pour les autres paramètres du modèle, les algorithmes MCMC sont utilisés pour explorer le grand espace modèle et produire une chaîne de modèles visités. La sélection des variables est ensuite réalisée grâce aux probabilités d'inclusion marginales postérieures P(??j = 1|oui). Intégration des paramètres ?? et ?? 2 peut accélérer la mise en œuvre de MCMC, accélérant sa convergence et son mixage. Diverses méthodes de calcul ont également été proposées pour identifier rapidement des modèles prometteurs à forte probabilité postérieure, en combinant des méthodes de sélection de variables avec des techniques modernes d'échantillonnage de Monte Carlo 109,110 (tableau 1).

Densité antérieure ??(??) contre ?? valeurs. une | L'avant discret de pointe et de dalle pour ?? (ligne continue) est spécifié comme un mélange d'une masse ponctuelle à zéro (ligne pointillée de pointe) et d'un a priori diffus (ligne pointillée de dalle). b | L'avant continu en pointes et dalles pour ?? (ligne continue) est spécifié comme un mélange de deux distributions normales, l'une culminant autour de zéro (ligne pointillée) et l'autre avec une grande variance (ligne pointillée). c | Le lasso bayésien spécifie un a priori de Laplace conditionnel, qui peut être obtenu comme un mélange d'échelles de distributions normales avec une densité de mélange exponentielle. Cet a priori n'offre pas assez de flexibilité pour permettre simultanément beaucoup de masse de probabilité autour de zéro et des queues lourdes. | Le prior en fer à cheval appartient à la classe des priors de rétrécissement global-local, qui se caractérisent par une concentration élevée autour de zéro pour rétrécir les petits coefficients et des queues lourdes pour éviter un rétrécissement excessif des grands coefficients.

Une autre classe de priors de pénalisation qui a reçu beaucoup d'attention ces dernières années sont les priors de rétrécissement continu 111.112.113 . Ce sont des distributions unimodales sur ??j qui favorisent le rétrécissement des petits coefficients de régression vers zéro, similaires aux méthodes de régression pénalisées fréquentistes qui accomplissent la régularisation en maximisant la fonction de log-vraisemblance soumise à une pénalité 114 . L'opérateur de retrait et de sélection le moins absolu, ou lasso 114 , utilise la fonction de pénalité (lambda mathoplimits_^

|<eta >_|) , avec ?? contrôler le niveau de rareté. L'estimation au lasso de ??j peut être interprétée comme une estimation bayésienne qui maximise la distribution a posteriori sous des lois de Laplace indépendantes a priori. Motivé par cette connexion, le lasso bayésien 111 spécifie des a priori de Laplace conditionnels sur ??j|?? 2 . Contrairement à la méthode du lasso fréquentiste, les méthodes de pénalisation bayésienne ne réduisent pas les coefficients de régression à exactement zéro. Au lieu de cela, la sélection des variables est effectuée en utilisant des intervalles crédibles pour ??j soit en définissant un critère de sélection sur les échantillons postérieurs. De nombreux a priori de retrait continu peuvent être paramétrés comme un mélange d'échelles de distributions normales, ce qui facilite leur mise en œuvre dans les méthodes MCMC. Par exemple, le prior de Laplace dans le lasso bayésien peut être formulé comme un mélange d'échelle de distributions normales avec une densité de mélange exponentielle pour le paramètre d'échelle.La distribution de mélange exponentielle a un seul hyperparamètre, ce qui limite sa flexibilité dans la réduction différentielle des effets petits et grands (Fig. 5c). Cette limitation peut être surmontée en utilisant une classe de retraits a priori qui introduisent deux paramètres de retrait, qui contrôlent respectivement la parcimonie globale et la quantité de retrait pour chaque coefficient de régression. Les priors marginalisés qui en résultent pour ??j se caractérisent par un pic serré autour de zéro qui réduit les petits coefficients à zéro, et des queues lourdes qui empêchent un rétrécissement excessif des grands coefficients. Ces priors sont connus sous le nom de priors de retrait global-local 113 . Le prior en fer à cheval, un exemple de prior de retrait global-local, atteint le pic serré autour de zéro et les queues lourdes en spécifiant une distribution normale pour le coefficient de régression ??j, conditionnée à ses paramètres d'échelle, qui eux-mêmes suivent des distributions de demi-Cauchy 112 (Fig. 5d). Un examen complet et une comparaison approfondie des caractéristiques et des performances de différents a priori de retrait peuvent être trouvés dans la réf. 115 .

Les méthodes bayésiennes de sélection de variables ont été étendues à une grande variété de modèles. Les extensions des modèles de régression multivariée comprennent des a priori de pointe et de dalle qui sélectionnent des variables pertinentes pour toutes ou aucune des variables de réponse 116, ainsi que des constructions multivariées qui permettent à chaque covariable d'être pertinente pour des sous-ensembles et/ou des variables de réponse individuelles 117. D'autres extensions incluent des modèles linéaires généralisés, des modèles à effet aléatoire et à coefficients variables dans le temps 118,119, des modèles de mélange pour le regroupement non supervisé 120 et l'estimation de modèles graphiques gaussiens simples et multiples 121,122 .

Sélection variable en biomédecine

Les priors de sélection de variables pour les modèles linéaires ont trouvé des applications importantes dans les études biomédicales. L'avènement des technologies à haut débit a permis de mesurer des milliers de marqueurs génétiques sur des échantillons individuels. Des modèles linéaires sont couramment utilisés pour relier de grands ensembles de biomarqueurs aux résultats liés à la maladie, et des méthodes de sélection de variables sont utilisées pour identifier des prédicteurs significatifs. Dans les approches bayésiennes, des connaissances supplémentaires sur les corrélations entre les variables peuvent être facilement incorporées dans l'analyse. Par exemple, dans les modèles avec des données d'expression génique, des a priori de sélection de variables pointes et dalles intégrant la connaissance des réseaux d'interaction gène à gène ont été utilisés pour faciliter l'identification des gènes prédictifs 123 , ainsi que l'identification des voies et sous - ensembles de gènes 124 . Les a priori de sélection variable bayésienne ont été appliqués avec succès dans des études d'association à l'échelle du génome, où des centaines de milliers de polymorphismes mononucléotidiques sont mesurés chez des milliers ou des dizaines de milliers d'individus, dans le but d'identifier des variantes génétiques associées à un seul phénotype ou un groupe de traits corrélés 125,126 .

La pollution atmosphérique est un facteur de risque environnemental majeur de morbidité et de mortalité. Les petites particules produites par la circulation et la pollution industrielle peuvent pénétrer dans les voies respiratoires et avoir des effets néfastes sur la santé. L'exposition aux particules et leurs effets sur la santé présentent une variabilité à la fois spatiale et temporelle, qui peut être prise en compte dans les modèles bayésiens de pollution atmosphérique (pour une ressource sur les modèles hiérarchiques bayésiens pour les données spatiales, nous renvoyons les lecteurs à la référence 127). Des modèles de coefficients variant dans l'espace avec des a priori de pointes et de dalles induisant une corrélation spatiale ont été proposés pour identifier les polluants associés à des effets néfastes sur la santé, soit dans une région entière, soit dans des sous-régions distinctes 128 . Au cours des deux dernières décennies, de nombreuses études omiques ont été menées pour étudier les effets de l'exposition à la pollution atmosphérique sur les marqueurs génomiques et mieux comprendre les mécanismes sous-jacents aux lésions pulmonaires dues à l'exposition aux polluants atmosphériques. Des modèles de réponse multivariés avec des priorités structurées en pointes et en dalles qui exploitent la dépendance entre les marqueurs ont été proposés pour identifier et estimer l'effet des polluants sur les résultats de la méthylation de l'ADN 117 .

En neurosciences, les études de neuroimagerie utilisent souvent l'IRM fonctionnelle, une technique non invasive qui fournit une mesure indirecte de l'activité neuronale en détectant les changements de flux sanguin. Ces études produisent des collections massives de données de séries chronologiques, provenant d'emplacements spatialement distincts du cerveau sur plusieurs sujets. Les expériences basées sur les tâches utilisent l'IRM fonctionnelle pour scanner le cerveau de manière dynamique pendant que le sujet est soumis à différents stimuli externes. Les données sont analysées dans le but d'identifier les régions cérébrales qui sont activées par ces stimuli. Des modèles linéaires généraux bayésiens avec des priors spatiaux, qui permettent une modélisation flexible de la structure de corrélation dans ces données, ont été appliqués avec succès 129 . Les priorités de sélection de variables Spike-and-Slab qui intègrent des informations structurelles sur le cerveau ont été étudiées dans une large classe de modèles hiérarchiques spatio-temporels pour la détection de modèles d'activation 130,131. Une autre application de l'IRM fonctionnelle concerne les études de connectivité cérébrale, où les données sont mesurées sur des sujets au repos dans le but de comprendre comment les régions cérébrales interagissent les unes avec les autres. Entre autres approches, des modèles linéaires autorégressifs vectoriels multivariés ont été étudiés comme moyen de déduire une connectivité efficace. Des a priori de retrait continu et des constructions antérieures structurées de pointes et de dalles ont été utilisés pour la sélection des connexions actives 132,133. Les méthodes bayésiennes de sélection de variables ont été appliquées avec succès à de nombreux autres ensembles de données biomédicales, notamment des données longitudinales, des données fonctionnelles, des données de survie et des études cas-témoins.

Vérification prédictive postérieure

Une fois qu'une distribution postérieure pour un modèle particulier est obtenue, elle peut être utilisée pour simuler de nouvelles données conditionnelles à cette distribution qui pourraient être utiles pour évaluer si le modèle fournit des prédictions valides afin que celles-ci puissent être utilisées pour extrapoler à des événements futurs. Ces simulations peuvent être utilisées à plusieurs fins. Ils peuvent être utilisés pour vérifier si les données simulées du modèle ressemblent aux données observées en comparant les estimations de densité du noyau des données observées avec les estimations de densité des données simulées 57 . Une approche de vérification prédictive postérieure plus formelle peut être adoptée pour évaluer si le modèle peut être considéré comme un bon ajustement avec le mécanisme de génération de données 57,78,134,135,136. Toute statistique ou écart dépendant des paramètres peut être utilisé pour la vérification prédictive a posteriori 135 . Ceci est similaire à la façon dont la vérification prédictive préalable peut être utilisée, mais beaucoup plus stricte dans la comparaison entre les données observées et simulées 57 . La sensibilité des contrôles prédictifs a posteriori est utile car si des modèles réalistes sont utilisés, on s'attend à ce que les résultats soient bien calibrés dans la moyenne à long terme 78 . Ces deux utilisations de la vérification prédictive a posteriori doivent être utilisées avec prudence, car il existe un risque de surajustement et de sur-raffinement des modèles aux détails d'un ensemble de données spécifique. Les distributions prédictives postérieures peuvent en outre être utilisées pour extrapoler au-delà des données observées et faire des prédictions, par exemple en extrapolant des données à partir d'une série chronologique. Sur la base des distributions postérieures pour un modèle d'intérêt particulier, des distributions prédictives postérieures peuvent être simulées pour les données observées et futures, devenant naturellement plus incertaines à mesure qu'elles prédisent plus loin dans le futur en raison de l'incertitude accumulée. Il est important d'être conscient que dans les modèles temporels, il existe certains défis en termes d'inférence postérieure qui sont inhérents aux dépendances spatiales et/ou temporelles, telles que l'autocorrélation des paramètres au fil du temps 52,137,138,139.

Exemple empirique 2 : pages vues Wikipédia

Pour illustrer l'utilisation des distributions prédictives a posteriori, nous présentons un deuxième exemple. Supposons qu'il soit intéressant de savoir combien de pages vues une page Web a, et quels facteurs liés au temps pourraient être pertinents pour les pages vues. Considérez les pages vues pour la page Wikipedia sur la Premier League anglaise - le plus haut niveau de la ligue de football professionnel anglaise - obtenues à l'aide du package wikipediatrend 140 R. Les scripts sont disponibles sur Open Science Framework 141 . Le modèle de série chronologique décomposable 142, implémenté dans le package prophet 143 R, permet l'estimation de tendances avec des changements non périodiques, des effets de vacances, des effets de saisonnalité hebdomadaire et annuelle (Fig. 6). Les effets notables de cette série chronologique sont les pics d'intérêt entourant le début des saisons en août, la fin des saisons en mai et le creux du 29 septembre 2011 – le jour du mariage du prince William et de Catherine Middleton. De plus, une diminution du nombre de pages vues se produit chaque jour de Noël et des augmentations notables se produisent le lendemain de Noël et au début de l'année, lorsque les matchs sont joués pendant la saison des vacances de Noël. Le modèle est estimé à l'aide de données observées entre le 1er janvier 2010 et le 1er janvier 2018. Sur la base des distributions postérieures pour le modèle particulier, des distributions prédictives postérieures peuvent être simulées pour les données observées et futures (Fig. 6e,f). En général, les données simulées du modèle ressemblent aux données observées pour la période observée. Les distributions prédictives postérieures pour les points temporels futurs sont plus incertaines lorsqu'elles sont plus éloignées dans le futur en raison de l'incertitude accumulée. Notez que les augmentations et les diminutions des pages vues sont prédites avec précision pour les futures pages vues, à l'exception d'un intérêt accru en juillet 2018 qui pourrait être lié à la phase finale de la Coupe du Monde de la FIFA, qui s'est jouée à ce moment-là.

une | Moyennes postérieures avec intervalles de crédibilité (IC) à 95 % pour les changements non périodiques (partie une), effets de vacances (partie b), saisonnalité hebdomadaire (partie c) et les effets de saisonnalité annuelle (partie ). Affiché comme la contribution des caractéristiques spécifiques à la date au journal attendu10(pages vues). e,F | Distributions prédictives postérieures à chaque instant. Les distributions prédictives postérieures pour les points temporels qui tombent dans l'intervalle de données observé sur lequel la distribution postérieure est conditionnée sont affichées en jaune clair (IC à 50 %) et jaune foncé (IC à 95 %), tandis que les distributions prédictives postérieures pour les données futures sont présentées dans vert clair (50 % CI) et vert foncé (95 % CI). Les observations de vue de page sont marquées par des cercles gris (partie e). Les observations de pages vues réelles pour la période de temps prédite sont marquées par des triangles gris, superposés sur la distribution prédictive postérieure (partie F). Pages vues pour la page Wikipedia de la Premier League anglaise obtenues à l'aide du package wikipediatrend 140 R et analysées avec le package prophet 143 R — les scripts sont disponibles sur Open Science Framework 251 .


Introduction

Les méthodes bayésiennes en elles-mêmes ne sont ni sombres ni, croyons-nous, particulièrement difficiles. À certains égards, cependant, elles sont radicalement différentes des méthodes statistiques classiques et, en tant que telles, reposent sur une façon de penser légèrement différente qui peut sembler inhabituelle au premier abord. L'estimation bayésienne des paramètres n'aboutira généralement pas à une estimation unique, mais produira une gamme d'estimations avec des plausibilités variables qui leur sont associées et les tests d'hypothèse bayésiens aboutiront rarement à la falsification d'une théorie mais plutôt à une redistribution de la probabilité entre des comptes concurrents. Les méthodes bayésiennes ne sont pas non plus nouvelles, leur première utilisation remontant au XVIII e siècle. Ils ne sont pas non plus nouveaux en psychologie : ils ont été introduits dans le domaine il y a plus de 50 ans, dans ce qui reste aujourd'hui une exposition remarquablement perspicace de Ward Edwards, Harold Lindman et Savage (1963).

Néanmoins, jusqu'à récemment, les méthodes bayésiennes n'étaient pas particulièrement courantes dans les sciences sociales, de sorte que l'augmentation récente de leur adoption signifie qu'elles sont nouvelles pour la plupart des praticiens - et pour de nombreux psychologues, l'apprentissage de nouvelles techniques statistiques peut évoquer des sentiments compréhensibles d'anxiété ou d'appréhension. Dans le même temps, des révélations récentes concernant la reproductibilité de la science psychologique (par exemple, Open Science Collaboration, 2015 Etz & Vandekerckhove, 2016) ont stimulé l'intérêt pour les méthodes statistiques qui trouvent une utilisation sur le terrain.

Dans le présent article, nous proposons une introduction technique douce à l'inférence bayésienne (et mettons en place le reste de ce numéro spécial de Bulletin Psychonomic & Review), en partant des premiers principes. Nous donnerons d'abord un bref aperçu portant sur la définition des probabilités, les lois fondamentales de la théorie des probabilités (les produit et somme règles de probabilité) et comment la règle de Bayes et ses applications émergent de ces deux lois simples. Nous illustrerons ensuite comment les lois de probabilité peuvent et doivent être utilisées pour inférence: tirer des conclusions à partir des données observées. Nous n'hésitons pas à montrer des formules et une exposition mathématique, mais lorsque cela est possible, nous les connectons à une aide visuelle, soit dans une figure ou un tableau, pour rendre les concepts qu'elles représentent plus tangibles. Nous fournissons également des exemples après chaque section principale pour illustrer comment ces idées peuvent être mises en pratique. La plupart des idées clés décrites dans cet article ne nécessitent que des compétences mathématiques au niveau de l'algèbre universitaire, comme nous le verrons, de nombreuses formules sont obtenues en réarrangeant les équations de manière créative de sorte que la quantité d'intérêt se trouve du côté gauche de une égalité.

À tout moment, les lecteurs plus intéressés par la situation dans son ensemble que par les détails techniques peuvent ignorer les équations en toute sécurité et se concentrer sur les exemples et la discussion. Cependant, l'utilisation d'explications verbales ne suffit qu'à acquérir une compréhension superficielle des idées et des implications sous-jacentes, nous proposons donc des formules mathématiques pour les lecteurs intéressés par une appréciation plus approfondie. Tout au long du texte, nous utilisons occasionnellement des notes de bas de page pour fournir des éclaircissements supplémentaires aux lecteurs qui ne sont peut-être pas aussi familiarisés avec l'exposition mathématique.

Bien que nous maintenions que les fondements mathématiques servent à comprendre ces méthodes de manière importante, nous devons également souligner que les développements récents concernant les progiciels statistiques bayésiens (par exemple, Wagenmakers, Love, et al., ce numéro Matzke, Boehm, & Vandekerckhove, ce numéro issue van Ravenzwaaij, Cassey, & Brown, ce numéro Wagenmakers, Marsman, et al., ce numéro) ont permis d'effectuer de nombreux types d'analyses bayésiennes sans avoir besoin d'effectuer aucune des dérivations mathématiques techniques. La base mathématique que nous présentons ici reste, bien entendu, plus générale.

Mais tout d'abord, nous prendrons le temps de discuter d'une subtile confusion sémantique entre deux interprétations du concept clé de « probabilité ». Le lecteur pressé peut sans risque sauter la section qui suit (et passer à « Les règles de probabilité du produit et de la somme »), sachant seulement que nous utilisons le mot « probabilité » pour signifier « un degré de croyance » : une quantité qui indique à quel point nous croyons que quelque chose est vrai.

Qu'est-ce que la probabilité ?

Tout au long de ce texte, nous traiterons de la notion de probabilité. Cela pose un problème philosophique immédiat, car le mot « probabilité » est en quelque sorte ambigu : il va parfois passer d'un sens à un autre et cette différence de sens est parfois conséquente.

Dans un sens, parfois appelé le épistémique Interprétation de la note de bas de page 1 — la probabilité est un degré de croyance: c'est un nombre entre zéro et un qui quantifie à quel point nous devrions penser que quelque chose est vrai sur la base des informations pertinentes dont nous disposons. En d'autres termes, la probabilité est un langage mathématique pour exprimer notre incertitude. Ce type de probabilité est intrinsèquement subjectif, car il dépend de l'information qui tu disponibles — et des personnes raisonnables peuvent raisonnablement différer dans les probabilités qu'elles attribuent aux événements (ou propositions). Selon l'interprétation épistémique, il n'y a donc pas de les probabilité - il n'y a que ton probabilité (Lindley 2000). Votre probabilité peut être considérée comme caractérisant votre état de connaissance incomplète, et en ce sens la probabilité n'existe pas au-delà de votre esprit.

On peut par exemple dire « Il y a 60 % de probabilité que le Royaume-Uni soit en dehors de l'Union européenne au 31 décembre 2018 ». Quelqu'un qui pense qu'il y a une probabilité de 60% que cet événement se produise devrait être prêt à parier Jusqu'à 6$ contre 4$ sur l'événement, car leur gain attendu serait au moins 60% × (+4$ ) + 40% × (−6$), qui est nul. En d'autres termes, parier plus de 6 $ ne serait pas judicieux parce qu'ils s'attendraient à perdre de l'argent, et prendre une telle mesure ne serait pas adhérer avec ce qu'ils croient. Bien sûr, dans la pratique scientifique, on est rarement obligé de faire de tels paris, mais il serait regrettable que nos probabilités (et donc nos inférences) ne puissent pas être exécutées avec confiance si une telle occasion se présentait (Hill 1974).

Le fait que les probabilités épistémiques des événements soient subjectives ne signifie pas qu'elles soient arbitraire. Les probabilités ne sont pas des actes de volonté, elles sont simplement subjectives dans le sens où elles peuvent différer d'un individu à l'autre. C'est juste pour dire que différentes personnes apportent des informations différentes à un problème donné. De plus, si différentes personnes mettent à jour leurs croyances de manière rationnelle, au fur et à mesure que les données s'accumuleront, elles se rapprocheront progressivement de l'accord (à moins qu'elles n'aient a priori complètement exclu le point d'accord, voir, par exemple, Jern, Chang, & Kemp, 2014). En fait, il peut être démontré que la seule façon dont nos croyances pré-données (quelles qu'elles soient) s'harmoniseront avec nos croyances post-données est d'utiliser la probabilité pour représenter notre incertitude et mettre à jour nos croyances selon les lois de la probabilité ( Lindley 2000).

Dans un autre sens, le physique ou aléatoire Interprétation de la note de bas de page 2 — la probabilité est l'énoncé d'une fréquence attendue sur de nombreuses répétitions d'une procédure. Un énoncé de probabilité aléatoire pourrait être « Si je lance une pièce équitable très souvent, le ratio de lancers sur lesquels la pièce se retrouvera face est de 50 %. Ainsi, la probabilité qu'une pièce équitable apparaisse face est de 50 %. Ces déclarations expriment les propriétés du comportement à long terme de processus bien définis, mais ils ne peuvent pas parler d'événements singuliers, ils nécessitent des hypothèses sur la répétabilité physique et l'indépendance entre les répétitions.Il est important de comprendre que ces fréquences sont considérées comme faisant réellement partie du monde physique, en ce sens que « les fréquences relatives d'un dé tombant de telle ou telle manière sont « persistantes » et constituent les propriétés mesurables de ce dé, comparables à sa taille. et le poids » (Neyman 1977, p. 99). La citation de Neyman offre un contraste intéressant avec l'interprétation épistémique. Le probabiliste italien et statisticien bayésien influent Bruno de Finetti a commencé son traité Théorie des probabilités en déclarant « La probabilité n'existe pas » et que « l'abandon des croyances superstitieuses sur l'existence du Phlogiston, de l'Éther cosmique, de l'Espace et du Temps absolus, … ou des Fées et des Sorcières était une étape essentielle sur la voie de la pensée scientifique. La probabilité, aussi, si elle est considérée comme quelque chose doté d'une sorte d'existence objective, n'est pas moins une idée fausse trompeuse, une tentative illusoire d'extérioriser ou de matérialiser nos véritables croyances probabilistes » (De Finetti 1974, p. x). Cela ne veut pas dire que nous ne pouvons pas construire des modèles qui attribuent des probabilités aux résultats de processus physiques, mais seulement qu'ils sont nécessairement des abstractions.

Il est clair que ces deux interprétations de la probabilité ne sont pas les mêmes. Il existe de nombreuses situations auxquelles la définition aléatoire ne s'applique pas et donc les probabilités n'ont pas pu être déterminées : nous ne verrons pas d'exemples répétés du 31 décembre 2018, dans lesquels le Royaume-Uni pourrait être à l'intérieur ou à l'extérieur de l'UE, nous n'en verrons qu'un seul. un événement. De même, « quelle est la probabilité que cette pièce de monnaie, au tout prochain coup, viendra-t-il des têtes ? » n'est pas quelque chose auquel une probabilité aléatoire s'applique : il n'y a pas de fréquences à long terme à considérer s'il n'y a qu'un seul flip qui compte.

La probabilité aléatoire peut, dans certains cas, être un conceptuel interprétation des probabilités, mais il s'agit rarement d'une opérationnel interprétation (voir Jaynes, 1984 Winkler, 1972 Wrinch & Jeffreys, 1919) : elle ne peut pas s'appliquer à des événements singuliers tels que la vérité ou la fausseté d'une théorie scientifique, nous ne pouvons donc tout simplement pas parler de probabilités aléatoires lorsque nous sommes confrontés à l'incertitude à laquelle nous sommes confrontés dans le domaine scientifique. s'entraîner. C'est-à-dire que nous pouvons valablement utiliser la probabilité aléatoire pour Penser à probabilité d'une manière abstraite, mais pas pour faire des déclarations sur des événements observés dans le monde réel tels que des résultats expérimentaux.

En revanche, la probabilité épistémique s'applique à tout événement que nous tenons à considérer - qu'il soit singulier ou répétitif - et si nous avons des informations pertinentes sur les fréquences du monde réel, nous pouvons choisir d'utiliser ces informations pour informer nos croyances. Si la répétition est possible et que nous trouvons raisonnable de supposer que la chance qu'une pièce tombe face à un tirage donné ne change pas en fonction du résultat des tirages précédents, alors un bayésien pourrait raisonnablement croire à la fois (a) qu'au prochain tirage il y a il y a 50 % de chance qu'il se retrouve face et (b) 50% des lancers se traduiront par des têtes dans une très longue série de flips. Par conséquent, la probabilité épistémique est à la fois un conceptuel interprétation des probabilités et une opérationnel interprétation. La probabilité épistémique peut être vue comme une extension de la probabilité aléatoire qui s'applique à tous les cas où cette dernière s'appliquerait et à d'innombrables cas où elle ne le pourrait pas.

Pourquoi cela compte

Nous soutenons que la distinction ci-dessus est directement pertinente pour la psychologie empirique. Dans l'écrasante majorité des cas, les psychologues sont intéressés à faire des déclarations probabilistes sur des événements singuliers : cette la théorie est vraie ou pas cette l'effet est positif ou négatif cette la taille de l'effet est probablement comprise entre X et oui et soit cette modèle ou l'autre est plus probable compte tenu des données. Nous nous intéressons rarement simplement à la fréquence à laquelle un processus bien défini aboutira à un certain résultat. Même des séquences arbitrairement longues de répliques fidèles d'études empiriques servent à répondre à un singulier la question est cette la théorie est-elle correcte ? » Nous pourrions raisonnablement définir un certain modèle comportemental et lui attribuer des paramètres (même des paramètres qui sont des probabilités), puis examiner son comportement à long terme. C'est une question aléatoire valable. Cependant, il ne s'agit pas d'une procédure inférentielle : elle décrit le comportement d'un modèle idéalisé mais ne nous fournit pas d'inférences par rapport à ce modèle. On peut aussi se demander à quelle fréquence un chercheur fera des erreurs d'inférence (quelle qu'en soit la définition) dans certaines conditions, mais il s'agit d'un exercice purement académique à moins que la proportion d'erreurs soit 0 ou 1, une fréquence aussi longue ne permet pas à elle seule de déterminer la probabilité que le chercheur ait réellement commis une erreur concernant singulier trouver—concernant cette pièce de monnaie, cette effet, ou cette hypothèse. En revanche, la probabilité épistémique exprime des degrés de croyance concernant des sujets spécifiques, individuels, singulier événements, et pour cette raison devrait être la valeur par défaut pour l'inférence scientifique.

Dans la section suivante, nous présenterons les règles de base de la théorie des probabilités. Ces règles sont agnostiques par rapport à notre conception de la probabilité - elles valent également pour la probabilité épistémique et aléatoire - mais dans tout le reste de cet article et en particulier dans les exemples, nous utiliserons, sauf indication contraire, une interprétation épistémique du mot « probabilité ».

Les règles de probabilité de produit et de somme

Ici, nous allons introduire les deux règles cardinales de la théorie des probabilités dont dérive essentiellement toute l'inférence bayésienne. Cependant, avant de nous aventurer dans les lois de la probabilité, il y a des conventions de notation à dessiner. Tout d'abord, nous utiliserons P(UNE) pour désigner la probabilité d'un événement UNE, où UNE est un énoncé qui peut être vrai ou faux (par exemple, UNE pourrait être « il pleuvra aujourd'hui », « le Royaume-Uni sera hors de l'UE le 31 décembre 2018 », ou « le 20 e chiffre de ?? est de 3"). Ensuite, nous utiliserons (B|UNE) pour désigner le conditionnel événement : la probabilité que B est vrai étant donné que A est vrai (par exemple., B pourrait être "il pleuvra demain") est P(B|UNE) : la probabilité qu'il pleuve demain étant donné qu'il a plu aujourd'hui. Troisièmement, nous utiliserons (UNE,B) pour désigner un découper événement : la probabilité que UNE et B sont tous les deux vrais P(UNE,B). La probabilité conjointe P(UNE,B) est bien entendu égal à celui de la probabilité conjointe P(B,UNE) : l'événement « il pleut demain et aujourd'hui » est logiquement le même que « il pleut aujourd'hui et demain ». Enfin, nous utiliserons (¬UNE) pour se référer à la négation de UNE: la probabilite UNE est faux est PUNE). Ces notations peuvent être combinées : si C et représentent respectivement les événements « c'est la saison des ouragans » et « il a plu hier », puis P(UNE,BC) est la probabilité qu'il pleuve aujourd'hui et demain, étant donné que (¬C) ce n'est pas la saison des ouragans et que (¬) il n'a pas plu hier (c'est-à-dire les deux C et ne sont pas vrais).

Avec cette notation à l'esprit, nous introduisons la règle de probabilité du produit :

En mots : la probabilité que UNE et B sont tous les deux vrais est égal à la probabilité de B multiplié par la probabilité conditionnelle de UNE en supposant B est vrai. En raison de la symétrie, cela est également égal à la probabilité de UNE multiplié par la probabilité conditionnelle de B en supposant UNE est vrai. La probabilité qu'il pleuve aujourd'hui et demain est la probabilité qu'il pleuve pour la première fois aujourd'hui multipliée par la probabilité qu'il pleuve demain étant donné que nous savons qu'il a plu aujourd'hui.

Si nous supposons UNE et B sont statistiquement indépendants alors P(B) équivaut à P(B|UNE), car sachant UNE arrive ne nous dit rien sur la chance B arrive. Dans de tels cas, la règle de produit se simplifie comme suit :

En gardant notre exemple, cela signifierait calculer la probabilité qu'il pleuve à la fois aujourd'hui et demain de telle sorte que le fait de savoir s'il a plu ou non aujourd'hui n'a aucune incidence sur la force avec laquelle nous devrions croire qu'il pleuvra demain.

Comprendre la règle de la somme des probabilités nécessite un autre concept : le ensemble disjoint. Un ensemble disjoint n'est rien de plus qu'une collection d'événements mutuellement exclusifs. Pour simplifier l'exposé, nous supposerons également qu'exactement un de ces événements doit être vrai bien que cela ne fasse pas partie de la définition commune d'un tel ensemble. L'exemple le plus simple d'un ensemble disjoint est un événement et son refus : Note de bas de page 3 <BB>. Si B représente l'événement « Il pleuvra demain », puis ¬B représente l'événement « Il ne pleuvra pas demain. Un et un seul de ces événements doit se produire, ils forment donc ensemble un ensemble disjoint. Si UNE représente l'événement « Il pleuvra aujourd'hui » et ¬UNE représente « Il ne pleuvra pas aujourd'hui » (un autre ensemble disjoint), alors il y a quatre paires possibles de ces événements, dont l'un doit être vrai : (UNE,B), (UNEB), (¬UNE,B), et (¬UNEB). La probabilité d'un seul des événements singuliers, disons B, peut être trouvé en additionnant les probabilités de tous les événements conjoints qui contiennent B comme suit:

En d'autres termes, la probabilité qu'il pleuve demain est la somme de deux probabilités conjointes : (1) la probabilité qu'il pleuve aujourd'hui et demain, et (2) la probabilité qu'il ne pleuve pas aujourd'hui mais qu'il pleuve demain.

En général, si <UNE 1,UNE 2,…,UNE K> est un ensemble disjoint, la règle de probabilité de somme indique :

C'est-à-dire pour trouver la probabilité de l'événement B seul, vous additionnez toutes les probabilités conjointes qui impliquent les deux B et un élément d'un ensemble disjoint. Intuitivement, il est clair que si l'un des <UNE 1,UNE 2,…,UNE K>doit être vrai, alors la probabilité que l'un d'eux et B est vrai est égal à la probabilité de base que B est vrai.

Dans le contexte de la collecte de données empiriques, l'ensemble disjoint de résultats possibles est souvent appelé le espace d'échantillon.

Une illustration de la règle de probabilité du produit

est représenté par le diagramme de chemin de la figure 1. Chaque fourche indique le début d'un ensemble disjoint, avec chacun des éléments de cet ensemble représenté par les branches s'étendant. Les lignes indiquent la probabilité de sélectionner chaque élément dans l'ensemble. En partant de la gauche, on peut tracer ce diagramme pour trouver la probabilité conjointe de, disons, UNE et B. Au Début fourche il y a une probabilité de 0,6 d'aller le long de la flèche du haut jusqu'à l'événement UNE (un schéma similaire pourrait bien sûr être tracé qui commence par B) : La probabilité qu'il pleuve aujourd'hui est de 0,6. Il y a alors une probabilité de 0,667 d'aller le long de la prochaine fourche supérieure à l'événement (UNE,B) : La probabilité qu'il pleuve demain étant donné qu'il a plu aujourd'hui est de 0,667. Par conséquent, de la probabilité initiale de 0,6 attribuée à UNE, les deux tiers se divisent en (UNE,B), donc la probabilité de (UNE,B) est de 0,6 × 0,667 = 0,40 : étant donné qu'il a plu aujourd'hui, la probabilité qu'il pleuve demain est de 0,667, donc la probabilité qu'il pleuve à la fois aujourd'hui et demain est .4. La probabilité d'un événement conjoint à la fin d'un chemin peut être trouvée en multipliant les probabilités de toutes les fourches qu'il faut pour y arriver.

Une illustration de la règle de probabilité du produit : la probabilité des événements conjoints à l'extrémité droite du diagramme est obtenue en multipliant les probabilités le long du chemin qui y mène. Les chemins indiquent où et comment nous divisons progressivement la probabilité initiale en sous-ensembles plus petits. Un exercice suggéré pour tester la compréhension et se familiariser avec les règles est de construire le diagramme de chemin équivalent (c. B à la place de UNE

Une illustration de la règle de la somme des probabilités

est présenté dans le tableau 1, qui présente les probabilités de tous les événements conjoints trouvés sur la figure 1 dans les cellules principales. Par exemple, en additionnant toutes les probabilités conjointes sur la ligne notée UNE donne P(UNE). Additionner toutes les probabilités conjointes dans la colonne indiquée B donne P(B). Ceci peut également être vu en notant que sur la figure 1, les probabilités des deux fourches enfants partant de UNE, à savoir (UNE,B) et (UNEB), additionner à la probabilité indiquée dans la fourchette initiale menant à UNE. Ceci est vrai pour toute valeur de P(B|UNE) (et PB|UNE) = 1 − P(B|UNE)).


Comment appliquer l'inférence bayésienne pour quantifier une lecture au fur et à mesure que vous séquencez ? - La biologie

C'est drôle, si je devais le résumer en une phrase, je le décrirais de la manière opposée : l'inférence bayésienne est une façon de faire moins pointu prédictions à partir de vos données, avec une incertitude quantifiée.

L'inférence bayésienne est un moyen efficace de suivre vos estimations et vos incertitudes au fur et à mesure que vous accumulez des données.

Je le résumerais car les méthodes bayésiennes fonctionnent mieux dans les domaines où il n'y a souvent pas assez de données, il existe des connaissances d'experts importantes et vous pouvez spécifier correctement un modèle. Et oui, ils quantifient l'incertitude.

Si vous cherchez un endroit pour commencer, je vais à l'introduction d'Andrew Gelman pour la langue Stan : https://www.youtube.com/watch?v=T1gYvX5c2sM

Il existe des implémentations Stan en R, Python, Julia ou vous pouvez l'exécuter en C++ puisqu'il est écrit en C++. Je pense que cela a un plus grand potentiel pour changer la façon dont nous traitons l'inconnu que l'IA ou d'autres apprentissages automatiques.

Je suis tout à fait d'accord, jouez simplement avec Stan ou les JAG et vous comprendrez. Les descriptions en prose ne peuvent tout simplement pas transmettre la puissance et la flexibilité des statistiques bayésiennes.

PS, vous ne devriez pas essayer de faire un "test t bayésien" ou quelque chose comme ça. Toute cette façon de penser la recherche (demander « y a-t-il un effet ? ») est imparfaite et ne peut pas disparaître assez tôt.

Pourtant, cela reste impressionnant pour moi ce qu'ils ont pu accomplir sans outils modernes.

Maintenant, je fais juste la moyenne de pixelvalue = (photo1.pixelvalue + photo2.pixelvalue) / numPhotos

Existe-t-il un moyen de rendre cela plus intelligent avec une approche bayésienne ? Je pense que cela pourrait faire une estimation plus intelligente de la valeur réelle du pixel plutôt que de la moyenne.

Toute idée serait appréciée!

Cet article traite exactement du scénario dont vous parlez.

Mais comment utiliseriez-vous une approche bayésienne ? Qu'essayez-vous de prédire exactement ? Quelles sont les entrées ? Quel est le modèle ?

La différence cruciale est que l'inférence statistique ne prend en compte aucune causalité, son domaine est uniquement celui des observations, et seules les observations ne peuvent pas établir une causalité en principe.

La corrélation n'est pas une causalité. La substitution d'une inférence bayésienne à une inférence logique devrait entraîner une erreur de type (où sont tous ces fanatiques de typage statique quand nous en avons besoin ?).

C'est d'ailleurs l'un des principes les plus importants - l'univers existe, les probabilités et les nombres n'existent pas. Chaque causalité dans l'univers est due à ses lois et aux structures et processus connexes. La causalité n'a rien à voir avec les nombres ou les observations. C'est Pourquoi la plupart des "sciences" modernes sont des tas de merde non reproductibles.

Tout observateur est un produit de l'univers. La secte bayésienne essaie de faire l'inverse. Tantras mathématiques de l'ère numérique.

Mais la véritable inférence logique n'existe pas dans le monde réel. Parce que vous ne pouvez jamais être sûr à 100% de quoi que ce soit, pas même des faits mathématiques. Ce n'est qu'une approximation de l'inférence bayésienne supérieure : http://lesswrong.com/lw/mp˰_and_1_are_not_probabilities/

NON. C'est une putain de merde sectaire. Toute logique n'est possible que parce que l'Univers a ses lois et sa structure. Cela vient toujours en premier. La logique est une chaîne ininterrompue d'étapes d'induction qui doit être validée en remontant toute la chaîne jusqu'à un principe fondamental validé. C'est un processus universel. Les étapes et les prémisses inductives sont spécifiques au domaine.

La logique pourrait être appliquée à des abstractions comme les nombres à titre d'exception, car les nombres représentent des aspects ou des propriétés valides de la réalité, et non l'inverse. Les nombres sont imaginaires. L'univers est réel. Cela rend un observateur possible, mais n'en nécessite pas un, ce qui signifie qu'un observateur et toutes ses inférences pourraient être complètement exclus de la "mécanique" de ce qui est. Le temps, par exemple. Et des chiffres, bien sûr.

Mais ce n'est qu'une approximation, et est fondamentalement faux en principe pour tout problème du monde réel. Vous ne pouvez jamais être sûr à 100% de quoi que ce soit, même des preuves mathématiques. Après tout, des erreurs sont trouvées tout le temps dans les preuves mathématiques publiées. Et les gens font régulièrement des erreurs même en arithmétique simple.

C'est le problème, nous vivons dans un monde incertain et ne pouvons jamais avoir de véritable certitude sur quoi que ce soit. Surtout dans la plupart des problèmes du monde réel qui nous tiennent à cœur. Toutes les formes ou raisonnements et inférences font partie de l'esprit, pas de la réalité. La réalité n'a pas à respecter vos axiomes ou inférences logiques. À tout moment, la réalité peut riposter et dire que votre logique était fausse. Et vous devez changer votre carte, ne pas prétendre que le territoire est incorrect.

L'inférence bayésienne est le processus consistant à tracer des cartes d'un territoire. Et réalisant que ce ne sont que des cartes. Que nous pouvons faire des cartes de plus en plus précises, mais nous ne pouvons jamais avoir des cartes qui sont 100% parfaites et sûres. La réalité ne nous donne pas de certitude, et ça va.

"Socrate est un homme, donc Socrate est mortel". S'il vous plaît, expliquez-nous, en disant un tas de bêtises incohérentes, comment la logique bayésienne prouvera que "tous les hommes sont mortels". Remarquez que le simple fait de dire "100% d'un échantillon est mort" ne prouve rien. je ne demande pas Pourquoi le soleil va riz à l'est le lendemain matin.

> Vous ne pouvez jamais être sûr à 100% de quoi que ce soit, même des preuves mathématiques.

C'est une connerie pseudo-intellectuelle hipster, je suis désolé de le dire. On peut être sûr à 100% que l'ADN est le matériel génétique et un tas d'autres choses, comme pour un observateur extérieur l'une et l'autre constituent une structure - une paire et une paire introduit la notion d'un ordre, etc. C'est le bon- suffisamment de base du codage de l'ADN, (et un Lisp). Notez que le codage de l'ADN ne repose que sur une correspondance exacte des motifs sur des structures physiques concrètes - il n'y a aucun nombre nulle part. La Mère Nature ne compte pas. Et cette est logique, mon ami.

Allez maintenant un peu plus loin dans votre métaphore canonique de la carte-territoire. La structure d'un cerveau qui rend l'esprit possible, et tous les autres organes du corps, bien sûr, y compris un œil, reflètent l'environnement physique dans lequel il a évolué. Un cerveau est une « carte implicite » du territoire, il reflète ce qui est, comme une empreinte ou, selon la terminologie moderne, un réseau de neurones entraîné.

L'esprit est lié par le cerveau et son conditionnement sensoriel et évolutif, qui est lié par l'environnement (peu importe ce que diraient les idéalistes, les humanistes et les théologiens). Tout ce dont l'esprit est capable, y compris un raisonnement valable (et excluant pour un instant les conneries socialement construites et les croyances sectaires) est lié par la structure du cerveau qui est une représentation de la réalité ou pour ainsi dire une "carte" du territoire. La consultation de cette carte rend la logique (et les intuitions !) possible, de la même manière qu'un modèle correctement entraîné pourrait donner des prédictions raisonnables. C'est juste une forme d'appariement de motifs.

Ce type de carte est plus "valide" que n'importe quelle carte bayésienne. Il n'y a pas d'objection à propos de la partie incertitude tant qu'elle se réfère à un processus de "déploiement" de la réalité.

Exactement de la même manière que la logique régulière ! Vous pouvez avoir des déclarations logiques comme "Pour tout x, 'x est un homme', implique 'x est mortel'". La logique bayésienne n'enlève rien à la logique régulière, elle y ajoute. Il vous donne la possibilité d'ajouter probabilités aux déclarations. Vous pouvez donc faire :

Socrate est mortel, 98,9901%

>On peut être certain à 100 % que l'ADN est le matériel génétique

Non, vous ne pouvez pas. Les scientifiques pourraient découvrir quelque chose de complètement différent demain. Je t'accorde que c'est très improbable, mais non littéralement impossible. C'est une erreur courante de confondre les deux, mais ce ne sont pas les mêmes.

>La Mère Nature ne compte pas.

Prenez deux pommes, ajoutez deux autres pommes, vous avez quatre pommes. La nature compte vraiment.

>La structure d'un cerveau qui rend l'esprit possible, et tous les autres organes du corps, bien sûr, y compris un œil, reflètent l'environnement physique dans lequel il a évolué. Un cerveau est une « carte implicite » du territoire, il reflète ce qui est, comme une empreinte ou, selon la terminologie moderne, un réseau de neurones entraîné.

Je ne suis pas d'accord. Et qu'est-ce que cela a à voir avec quoi que ce soit? Le cerveau est (approximativement) bayésien et pèse différentes probabilités. Le cerveau n'est jamais sûr à 100% de quoi que ce soit. Il ne peut jamais connaître complètement la réalité, il suffit de devenir une meilleure carte.

À qui? Aux autres pommes ? L'observateur intelligent qui est nécessaire pour relier des pommes absolument sans rapport ensemble est une innovation la plus récente. Les structures atomiques, au contraire, se suffisent à elles-mêmes et pourraient être appariées sans aucun observateur. Réalisez-vous la différence subtile ?

La biologie moléculaire ne compte pas, n'a pas de minuterie et ne calcule évidemment pas les probabilités. Il repose sur la correspondance de motifs et la transmission de messages pour ainsi dire et sur des boucles de rétroaction. C'est un univers analogique, comme une horloge.

Encore une fois. Il n'y a aucun moyen d'établir une causalité appropriée à partir de simples observations sans une méthode scientifique rigoureuse appropriée. Toute la connaissance humaine est basée sur cette affirmation. Les religions ont été renversées par elle. C'est la réalisation la plus importante de toute la philosophie humaine. Et les Bayésiens ne sont qu'une secte. )

La question principale de la philosophie orientale (Qu'est-ce qui est réel ? Qu'est-ce qui est ?) est bien trop éloignée d'une réponse adéquate. Une vision très ancienne et très naïve est que rien n'est réel, tout est construit par l'esprit. La question est - qu'est-ce qui est mental et qu'est-ce qui est réel et comment les séparer.

De là découlent quelques notions simples, telles que, bien que les mathématiques et les probabilités en particulier puissent être utilisées pour produire un modèle de ce qui est, elles ne peuvent néanmoins pas être la cause de phénomènes car les mathématiques et les probabilités n'existent pas en dehors de l'esprit des gens.

Bien sûr, il existe certaines constantes physiques - un angle entre les atomes d'une molécule d'eau, mais il n'y a aucun moyen pour une cellule de le mesurer. Il arrive que d'autres molécules prennent certaines positions dans une solution d'eau, mais il n'y a aucune notion d'angle nulle part. Cela nécessite un observateur intelligent, ce qui n'est pas ici.

La même logique s'applique aux nombres. Oui, bien sûr, deux pommes et deux pommes seraient quatre pommes, mais il n'y a personne pour le remarquer au niveau moléculaire. Ainsi, les cellules ne comptent pas. Ils correspondent au modèle, car cela ne nécessite ni observateur ni interprète.

Ces notions pourraient être généralisées à une simple règle empirique - n'essayez pas d'établir un lien de causalité avec de simples abstractions de l'esprit - elles ne sont pas ici. Les nombres, sans parler des probabilités, sont des abstractions. A partir d'abstractions, on construit des simulations. Mais la simulation n'est pas la réalité de la même manière qu'une carte n'est pas le territoire.

Maintenant sur la logique. C'est un chemin de ce qui est réel à ce qui est réel, dont chaque étape est validée par toutes les étapes précédentes. C'est le résultat d'un processus de recherche guidé par une heuristique spécifique au domaine, où une heuristique ne choisit pas l'étape suivante, mais valide la position actuelle en la ramenant à ce qui est réel.

Pas grand chose à voir ici. Juste appliqué la philosophie orientale. Pour arriver à ce qu'est un observateur avec toutes ses constructions mentales, il faut l'enlever, semblable à l'enlèvement du soi illusoire qui fait obstruction à la réalité. C'est un vieux hack.

D'où viennent ces chiffres et pourquoi ?

Socrate est mortel non pas parce qu'il est un homme, mais parce que la biologie est liée à la physique de cet univers (dans lequel les structures composées sont impermanentes et ce que nous appelons l'énergie est éternelle, se transformant d'une forme en une autre) et parce qu'un homme est un être biologique. processus, il est impermanent ou mortel. (Au fait, les anciens bouddhistes avaient raison).

La logique est possible parce que l'Univers donné a certaines propriétés stables (éternelles), donc des processus et des structures sont possibles. La logique abstraite est une connerie (bonjour les hégéliens !).

La logique mathématique fonctionne parce que chaque étape inductive repose sur des prémisses valides du fait que les nombres en tant qu'abstraction capturent un aspect valide de la réalité révélé à un observateur. Mais il ne peut s'appliquer qu'aux nombres. Différents types de prémisses et d'inductions sont nécessaires pour différents domaines (alors que le processus est fondamentalement le même).

Le soleil se lèvera dans le ciel demain non pas à cause d'une inférence probabiliste, mais parce qu'un tel processus physique ne peut pas être modifié rapidement. Les causes sont toujours réelles (physiques) et non imaginaires (mathématiques).

Cela, vous pouvez ensuite ajuster.

> étant donné une certaine condition sur une distribution de distributions, quand pensons-nous qu'un devineur prend trop de temps pour faire un choix ?

C'est comme une personne qui met trop de temps à identifier une couleur ou un bébé à prendre une décision sur le type de nourriture qu'il veut et à attendre qu'il le fasse. Pendant un certain intervalle, cela a du sens, mais après un certain point, cela devient pathologique.

Ainsi par exemple si nous avons deux distributions,

> distribution uniforme sur l'intervalle unitaire [0,1] distribution uniforme sur l'intervalle [1,2]

alors on s'impatiente avec un devineur qui prend plus de temps qu'une seule estimation, puisque nous savons (avec probabilité 1) qu'une seule estimation fera l'affaire.

Maintenant, si nous avons deux distributions qui se chevauchent, disons la distribution uniforme sur [1,3] et [0,2], alors nous pouvons quantifier combien de temps il faudra avant de connaître le choix avec la probabilité 1, mais nous ne pouvons pas dire avec certitude combien d'observations seront nécessaires avant qu'un agent capable de traiter une rétroaction positive dans un réseau de neurones puisse dire avec certitude de laquelle il s'agit. Dès qu'une observation quitte l'intervalle (1,2), le devineur peut énoncer la réponse.

Maintenant, les choses peuvent devenir plus intéressantes lorsque les distributions sont organisées en hiérarchie, disons la distribution uniforme sur des unions disjointes finies d'intervalles disjoints (a,b) où a < b sont deux rationnels dyadiques avec le même dénominateur lorsqu'ils sont écrits en termes les plus bas.

Si un devineur est obligé de deviner tôt, avant d'être certain du résultat, alors nous pouvons comparer les façons de deviner en calculant à quelle fréquence ils obtiennent la bonne réponse.

Les observations donnent maintenant deux types d'informations : certaines distributions peuvent être éliminées en toute confiance (car il existe un epsilon positif tel que la probabilité d'obtenir une observation dans la boule epsilon est nulle) tandis que pour les autres, le théorème de Bayes peut être utilisé pour mettre à jour une distribution de distributions ou plusieurs distributions de distributions qui sont utilisées pour piloter un algorithme de devinette. Une supposition est un énoncé de la forme « toutes les observations sont tirées de la distribution uniforme sur le sous-ensemble ___ de l'intervalle unitaire ».

Exemple : prenons les distributions sur l'intervalle unitaire données par les fonctions de densité de probabilité 2x et 2-2x. Étant donné une séquence d'observations, on peut se demander : quelle est la probabilité que la première distribution ait été choisie ?

Les réponses à ces questions peuvent être trouvées dans un livre comme Probabilité : théorie et exemples.


Intervalles de prédiction

Une propriété intéressante des modèles bayésiens est qu'ils permettent de quantifier l'incertitude des prédictions. En termes pratiques, la méthode de prédiction de notre implémentation génère une distribution statistique et pour être précis, une instance de scipy.stats.norm . Par conséquent, nous avons accès à une panoplie d'outils gratuitement. Par exemple, nous pouvons utiliser la méthode des intervalles pour obtenir un intervalle auquel appartient probablement la prédiction. Cet intervalle, appelé intervalle de prédiction, est un sujet qui déroute beaucoup de praticiens, y compris le vôtre. Je vous recommande de lire cet article de Wikipédia pour vous éclairer sur le sujet.

La chose à comprendre est que nous utilisons un modèle paramétrique, donc l'exactitude de nos intervalles de prédiction est basée sur l'hypothèse que les choix de modèle que nous avons faits sont valides. Par exemple, nous supposons que la vraisemblance suit une distribution gaussienne. D'autres modèles, tels que l'amplification de gradient, sont non paramétriques et produisent des intervalles de prédiction (presque) toujours fiables. Néanmoins, nous pouvons effectuer un contrôle visuel pour voir à quel point ces intervalles de prédiction sont réellement fiables. Pour ce faire, nous pouvons vérifier si la prochaine valeur cible est contenue dans l'intervalle de prédiction. Nous pouvons ensuite calculer une moyenne courante du nombre de fois où cela se produit et l'afficher au fil du temps. Si nous choisissons un niveau de confiance de, disons, 0,95, alors nous nous attendons à voir environ 95% des prédictions contenues dans l'intervalle de prédiction. Dans l'extrait suivant, nous utilisons la même méthode d'échantillonnage que celle utilisée dans la section précédente.

Cela semble fonctionner assez bien, puis encore une fois, les données générées suivent une distribution gaussienne, donc c'était prévu. Que se passe-t-il si vous essayez la même chose sur un ensemble de données du monde réel ? À titre de test, j'ai fait exactement cela sur l'ensemble de données sur le logement en Californie, qui est un ensemble de données modérément volumineux.

Cela n'a vraiment pas l'air très bien ! C'est le problème avec les modèles paramétriques : ils font des hypothèses sur vos données. Si vous vous souciez vraiment des intervalles de prédiction qui fonctionnent quel que soit votre ensemble de données, qui voudrait cela ? &ndash alors j'examinerais les intervalles de prédiction non paramétriques et la régression quantile &ndash voir par exemple ce problème GitHub pour LightGBM.


Fond

Les communautés microbiennes sont des assemblages très complexes d'organismes individuels. Des centaines, et parfois des milliers, d'espèces peuvent contribuer à une communauté (par exemple, [1,2]), les individus appartenant à une espèce ayant un large éventail d'interactions avec d'autres individus de cette communauté [3]. De plus, les espèces au sein d'une communauté peuvent être structurées hiérarchiquement en assemblages. Par exemple, parmi toutes les espèces qui contribuent au microbiome intestinal humain, seul un sous-ensemble a des relations de co-occurrence stables, seul un autre sous-ensemble semble avoir une stabilité sur des décennies [4]. Bien que des espèces ou des souches aient été ciblées avec succès en tant qu'agents causant des maladies (par exemple, [5]), il existe un intérêt croissant pour savoir comment la composition plus large d'une communauté pourrait être liée à une caractéristique préoccupante (par exemple, un processus écosystémique [6], la gravité d'un état pathologique [7], l'impact d'une intervention alimentaire [8] ou le suivi des sources [9]). Dans les contextes où la fonction au niveau de la communauté est considérée comme importante, les relations de cooccurrence entre les lignées peuvent être plus informatives que la simple présence ou absence d'une ou de quelques espèces indicatrices [10]. Bien que l'échantillonnage de la composition de la communauté via le séquençage d'amplicons à haut débit, ou via la métagénomique de fusil de chasse, ne soit plus un défi méthodologique, les données posent toujours un défi analytique important. Les associations au sein de telles données sont complexes, le nombre de variables est énorme et les informations sur l'abondance des espèces sont rares pour de nombreuses espèces (ou souches) sur de nombreux échantillons. Dans ce contexte, les procédures de test classiques ont une capacité limitée à identifier des caractéristiques complexes dans les données [11,12].

L'apprentissage supervisé basé sur un modèle statistique est idéalement adapté aux défis posés par les données de la communauté microbienne. Cette famille de techniques est conçue pour apprendre les variables d'un modèle les plus adaptées à la discrimination parmi les caractéristiques d'intérêt définies par l'utilisateur. Leur capacité à (je) apprendre à partir de données de très grande dimension et (ii) quantifier la précision d'un modèle pour prédire les caractéristiques préoccupantes dans les futurs ensembles de données [11]. Malgré ces avantages, les techniques existantes n'ont été appliquées que récemment aux données de la communauté microbienne, et très peu de développement a été fait à dessein pour les données de la communauté microbienne (mais voir [9,13]). Les lecteurs sont référés aux Chevaliers et al. [12] pour un examen approfondi de la façon dont les techniques standard peuvent être appliquées aux données de la communauté microbienne.

Ici, nous nous concentrons sur la tâche de construire et d'évaluer un modèle prédictif pour les données de composition du microbiome. En prenant la microbiomique clinique comme exemple, un objectif de recherche typique pourrait être d'apprendre comment la structure du microbiome est liée, par exemple, à la probabilité de maladie, puis d'utiliser cette information pour surveiller et faire des prédictions sur le risque de maladie d'un individu en fonction de son propres échantillons de microbiome. Comme une structure de communauté est caractérisée par la contribution des espèces aux assemblages et des assemblages aux communautés, nous nous concentrons sur la modélisation de l'abondance relative des assemblages et des espèces. Ci-après, les espèces sont définies de manière opérationnelle selon un seuil de similarité de séquence (typiquement 97% pour les séquences d'ARNr 16S) et sont appelées unités taxonomiques opérationnelles (OTU) plutôt que espèces. La modélisation des données de composition dans un cadre supervisé n'est pas nouvelle (par exemple, [14]), mais seules deux approches ont été développées à dessein pour modéliser les abondances relatives des OTU [9,13]. Les deux chevaliers et al. [9] et Holmes et al. [13] modélisent les abondances d'OTU en appliquant un Dirichlet avant les paramètres de la distribution multinomiale. Chevaliers et al. [9] ont développé leur modèle pour prédire comment les contaminants microbiens pourraient être mélangés dans un échantillon donné (c'est-à-dire le suivi de la source). Leur modèle apprend la composition de l'OTU pour chacune d'un nombre fixe de communautés sources, où tous les échantillons d'une source donnée doivent partager un seul mélange d'OTU, puis utilise ces informations pour prédire dans quelle mesure chaque source pourrait contaminer un échantillon de test donné. Holmes et al. [13] ont utilisé une approche similaire à l'allocation de Dirichlet latente (LDA) pour modéliser la composition du microbiome. Leur modèle assouplit l'hypothèse selon laquelle, lors de l'apprentissage d'une structure de microbiome, tous les échantillons pour une caractéristique donnée partageront un seul mélange d'OTU. Cependant, leur modèle ne fournit pas un moyen d'évaluer la structure du microbiome en termes de parties facilement interprétables. Dans cette étude, nous décrivons un nouveau modèle (appelé inférence bayésienne des communautés microbiennes (BioMiCo)) qui vise à faciliter l'interprétation d'une structure de communauté à la lumière des étiquettes de caractéristiques définies par l'utilisateur. Le nôtre est un modèle hiérarchique qui peut être utilisé pour apprendre simultanément comment les assemblages d'OTU contribuent à la structure du microbiome et comment plusieurs assemblages peuvent être liés aux caractéristiques connues des échantillons.

BioMiCo peut être appliqué à des données échantillonnées en coupe ou en série. Les données échantillonnées en série sont souhaitables car elles peuvent aider à exclure les cas où les communautés microbiennes se sont simplement accumulées poste aut propriétaire différences. Plus important encore, les données échantillonnées en série sont particulièrement précieuses pour la validation statistique du modèle en divisant les données en deux parties indépendantes (par exemple, des échantillons prélevés à différentes périodes), la précision prédicative du modèle peut être directement mesurée à différents moments. Des phases distinctes de l'analyse (formation et test) sont appliquées aux ensembles de données indépendants. Dans la phase d'apprentissage, le modèle est appliqué à une seule partie des données et fourni avec des étiquettes pour les caractéristiques d'intérêt. C'est la phase dans laquelle le modèle apprend à utiliser les structures du microbiome (assemblages d'OTU) pour prédire les caractéristiques d'intérêt. Dans la phase de test, le modèle est appliqué à une autre partie des données, mais il n'est pas fourni avec les étiquettes de caractéristiques, c'est-à-dire qu'il doit prédire les étiquettes « cachées » en fonction de ce qu'il a précédemment appris sur la structure du microbiome. La connaissance des étiquettes cachées peut ainsi être utilisée pour quantifier la précision prédictive du modèle pour les données collectées à différents moments. Notez que les méthodes supervisées ne nécessitent pas de données échantillonnées en série. Plusieurs échantillons peuvent être prélevés à un moment donné et divisés en deux parties pour la formation et les tests. Cependant, nous avons choisi d'appliquer BioMiCo à trois ensembles de données échantillonnés en série. Le premier ensemble de données provient d'une étude de la variation du microbiome chez deux humains sur quatre sites corporels au cours d'une période de 6 à 15 mois. La seconde est issue d'une étude du microbiome vaginal humain sur une période de 4 mois. La troisième est issue d'une étude de communautés marines côtières tempérées échantillonnées pendant plus de 6 ans. Nous utilisons ces données pour illustrer comment BioMiCo peut être utilisé pour étudier la structure de la communauté par rapport à des caractéristiques spécifiques d'intérêt, et nous évaluons explicitement la précision du modèle pour faire des prédictions à différents moments.


Philosophie de la statistique

Prasanta S. Bandyopadhyay , Malcolm R. Forster , dans Philosophie de la statistique , 2011

2.3 Paradigme de la statistique bayésienne

Il est généralement admis par ses partisans et ses critiques que le bayésianisme 5 est actuellement le point de vue dominant dans la philosophie des sciences. Certains statisticiens sont allés plus loin, conjecturant il y a des années que les statistiques bayésiennes seraient les statistiques dominantes pour le XXIe siècle. La question de savoir si cette allégation peut être étayée dépasse le cadre de cette introduction. Cependant, il est incontestable que le paradigme bayésien a joué un rôle central dans des disciplines telles que la philosophie, les statistiques, l'informatique et même la jurisprudence.

Les bayésiens sont largement divisés en catégories subjectives et objectives. Selon tous les bayésiens, la croyance d'un agent doit satisfaire aux règles du calcul des probabilités.Sinon, conformément à l'argument familier du « Dutch Book », le degré de croyance de l'agent est incohérent. Les bayésiens subjectifs considèrent cette cohérence (probabiliste) comme une condition à la fois nécessaire et suffisante pour la rationalité des croyances d'un agent, puis soutiennent (généralement) que les croyances des agents rationnels convergeront avec le temps. Le point de l'inférence scientifique, et la source de son « objectivité », est de garantir la cohérence et d'assurer la convergence. Les bayésiens objectifs, en revanche, typiquement insister sur le fait que si la condition de cohérence est nécessaire, elle n'est pas non plus suffisante pour le type d'objectivité que les méthodologies scientifiques sont censées rendre possible.

L'article de Paul Weirich dans ce volume se concentre principalement sur la probabilité subjective. Weirich a développé une approche de la théorie de la décision bayésienne où il considère comment les croyances d'un agent peuvent être révisées à la lumière des données. Les probabilités représentent le degré de croyance d'un agent. Weirich évalue plusieurs charges contre les Bayésiens. Selon une objection qu'il a examinée, le bayésianisme permet aux degrés de croyance d'un agent d'être n'importe quoi tant qu'ils satisfont au calcul de probabilité. Weirich considère que l'objection implique que les probabilités subjectives bayésiennes doivent représenter les croyances idiosyncratiques d'un agent. Il a cependant rejeté le bayésianisme permissif en faveur de sa version du bayésianisme. La notion de probabilité conditionnelle sur laquelle repose le principe de conditionnalisation est centrale pour lui. Selon ce principe, un agent doit mettre à jour son degré de croyance en une hypothèse (H) à la lumière des données () conformément au principe de conditionnalisation, qui dit que son degré de croyance en H une fois que les données sont connues est donné par la probabilité conditionnelle P(H|) = P(H&)/P(), en admettant que P() n'est pas nul. Weirich évalue également les accusations portées contre l'utilisation du principe de la conditionnalité. Enfin, il compare la théorie de la décision statistique bayésienne à la statistique classique, concluant son article par une évaluation de cette dernière.

Un domaine central de la recherche en philosophie des sciences est la théorie bayésienne de la confirmation. James Hawthorne prend la théorie de la confirmation bayésienne pour fournir une logique de la façon dont les preuves distinguent les hypothèses ou théories concurrentes. Il soutient qu'il est trompeur d'identifier la théorie bayésienne de la confirmation avec le compte rendu subjectif de la probabilité. Au contraire, tout compte qui représente le degré auquel une hypothèse est soutenue par des preuves en tant que probabilité conditionnelle de l'hypothèse sur la preuve, où la fonction de probabilité impliquée satisfait les axiomes probabilistes habituels, sera une théorie de confirmation bayésienne, quelle que soit l'interprétation de la notion de probabilité qu'il emploie. Car, sur un tel compte, le théorème de Bayes exprimera comment ce que disent les hypothèses sur les preuves (via les vraisemblances) influence le degré auquel les hypothèses sont étayées par des preuves (via les probabilités postérieures). Hawthorne soutient que l'interprétation subjective habituelle de la fonction de confirmation probabiliste est sévèrement contestée par les versions étendues de la problème de preuves anciennes. Il montre que selon l'interprétation subjectiviste habituelle, même des informations insignifiantes qu'un agent peut apprendre à propos d'une allégation de preuve peuvent complètement saper l'objectivité des probabilités. Ainsi, dans la mesure où les vraisemblances sont supposées objectives (ou intersubjectivement convenues), la fonction de confirmation ne peut supporter la lecture subjectiviste habituelle. Hawthorne considère que les probabilités antérieures dépendent des évaluations de plausibilité, mais soutient que de telles évaluations ne sont pas simplement subjectif, et que la théorie bayésienne de la confirmation n'est pas gravement handicapée par le type de subjectivité impliquée dans de telles évaluations. Il fonde cette dernière affirmation sur un puissant résultat de convergence bayésienne, qu'il appelle le théorème de convergence du rapport de vraisemblance. Ce théorème ne dépend que des vraisemblances, pas des probabilités a priori et c'est un loi faible des grands nombres résultat qui fournit des bornes explicites sur le taux de convergence. Il montre qu'à mesure que les preuves augmentent, il devient très probable que les résultats probants seront tels que les rapports de vraisemblance en viennent à favoriser fortement une hypothèse vraie par rapport à chaque concurrent clairement identifiable. Ainsi, deux fonctions de confirmation (employées par des agents différents) qui s'accordent sur les probabilités mais diffèrent sur les probabilités a priori des hypothèses (à condition que l'a priori de l'hypothèse vraie ne soit pas trop proche de 0) auront tendance à produire des rapports de vraisemblance qui amènent les probabilités a posteriori à converger vers 0 pour les fausses hypothèses et vers 1 pour la vraie alternative. 6

John D. Norton cherche à contrebalancer l'opinion désormais dominante selon laquelle la théorie bayésienne de la confirmation a réussi à trouver la logique universelle qui régit les preuves et leur portée inductive dans la science. Il admet que les Bayésiens ont de bonnes raisons d'être optimistes. Là où beaucoup d'autres ont échoué, leur système réussit à spécifier un calcul précis, à expliquer les principes inductifs d'autres comptes et à les combiner en une seule théorie cohérente. Cependant, insiste-t-il, sa domination n'est apparue que récemment au cours des siècles de théorie bayésienne et pourrait ne pas durer compte tenu de la persistance des problèmes auxquels elle est confrontée.

Bon nombre des problèmes identifiés par Norton pour la théorie de la confirmation bayésienne concernent des aspects techniques que nos lecteurs peuvent trouver plus ou moins troublants. À son avis, le défi le plus sérieux découle de l'aspiration bayésienne à fournir un compte rendu complet de l'inférence inductive qui ramène notre raisonnement inductif à un état initial neutre, avant l'incorporation de toute preuve. Ce qui va à l'encontre de cette aspiration, selon Norton, c'est le problème bien connu et récalcitrant des prieurs, raconté sous deux formes dans son chapitre. Dans une forme, le problème est que la partie postérieure P(H|&B), qui exprime le support inductif des données pour hypothèse H en conjonction avec des informations de base B, est complètement fixé par les deux probabilités "a priori", P(H&|B) et P(|B). Si l'on est subjectiviste et soutient que les probabilités a priori peuvent être sélectionnées à volonté, sous réserve uniquement des axiomes du calcul des probabilités, alors, selon Norton, la P(H|&B) ne peut jamais être libéré de ces caprices. Ou si l'on est un objectiviste et soutient qu'il ne peut y avoir qu'un seul a priori correct dans chaque situation spécifique, alors, comme expliqué dans son chapitre, l'additivité d'une mesure de probabilité empêche d'attribuer de véritables "priorités sans information". C'est pour le mieux, selon Norton, puisqu'un a priori vraiment sans information attribuerait la même valeur à chaque proposition contingente de l'algèbre. La dépendance fonctionnelle d'un a posteriori sur les a priori forcerait alors tous les a posteriori non triviaux à une seule valeur sans information. Par conséquent, un compte bayésien ne peut être non trivial, soutient Norton, que s'il commence par une distribution de probabilités a priori riche dont le contenu inductif est fourni par d'autres moyens non bayésiens.

Trois articles du volume explorent la possibilité que le compte bayésien puisse être présenté comme une forme de logique. Colin Howson soutient que le bayésianisme est une forme de logique déductive d'inférence, tandis que Roberto Festa et Jan-Willem Romeijn soutiennent que la théorie bayésienne peut être exprimée sous la forme d'inférence inductive. Pour déterminer si l'analyse bayésienne peut être considérée comme une forme d'inférence déductive, Howson examine brièvement les trois cents dernières années d'inférence scientifique, puis se concentre sur les raisons pour lesquelles il pense que l'inférence bayésienne devrait être considérée comme une forme de pure logique d'inférence. Prenant en compte le débat sur la question de savoir si l'inférence probabiliste peut être considérée comme une logique de cohérence ou de cohérence, il discute de la théorie des probabilités de Finetti où de Finetti a pris la théorie des probabilités pour ne rien dire sur le monde, mais la prend comme une « logique d'incertitude. Une raison motivante de considérer pourquoi l'inférence bayésienne devrait être considérée comme une logique de logique pure est de noter son désaccord avec la distinction de Kyburg entre l'expression « cohérence » applicable à un système qui ne contient pas deux croyances incohérentes et l'expression « cohérence ». ” pour être applicable aux degrés de croyance. Pour Howson, l'analogie avec la logique déductive se situe entre cette dernière imposant des contraintes de cohérence aux évaluations de vérité et les règles de la théorie des probabilités imposant des contraintes de degré de croyance. Le reste de son article est consacré au développement et à l'interprétation de l'inférence bayésienne comme une forme de pure logique d'inférence.

Festa et Romeijn regrettent tous deux qu'au cours du siècle dernier, la statistique et l'inférence inductive se soient développées et florissantes plus ou moins indépendamment l'une de l'autre, sans signes clairs de symbiose. Festa fait un zoom sur la statistique bayésienne et la théorie des probabilités inductives de Carnap, et montre qu'en dépit de leurs bases conceptuelles différentes, les méthodes élaborées au sein de cette dernière sont essentiellement identiques à celles utilisées dans la première. Il soutient que certains concepts et méthodes de logique inductive peuvent être appliqués dans la reconstruction rationnelle de plusieurs notions et procédures statistiques. Selon lui, la logique inductive suggère de nouvelles méthodes qui peuvent être utilisées pour différents types d'inférence statistique impliquant des considérations analogiques. Enfin, Festa montre comment une version bayésienne de l'approximation de la vérité peut être développée et intégrée dans un cadre statistique. 7

Romeijn étudie également la relation entre les statistiques et la logique inductive. Bien que la logique inductive et les statistiques se soient développées séparément, Romeijn pense, comme Festa, qu'il est temps d'explorer l'interrelation entre les deux. Dans son article, il examine s'il est possible de représenter divers modes d'inférence statistique en termes de logique inductive. Romeijn considère trois idées clés en statistique pour forger le lien. Ce sont (i) les tests d'hypothèse de Neyman-Pearson (NPTH), (ii) l'estimation du maximum de vraisemblance et (iii) les statistiques bayésiennes. Romeijn montre, en utilisant à la fois la logique inductive carnapienne et bayésienne, que la dernière de deux de ces idées (c. Dans la dernière section de son chapitre, le NPTH est lié à la logique inductive bayésienne au moyen de probabilités basées sur des intervalles sur les hypothèses statistiques.

Comme il y a des bayésiens subjectifs, il y a des bayésiens objectifs. José Bernardo est l'un d'entre eux. Comme de nombreux philosophes ne connaissent généralement pas les travaux de Bernardo, nous y consacrerons une discussion relativement plus longue. Bernardo écrit que « [i]l est devenu une pratique courante,…, de décrire comme ‘objective’ toute analyse statistique qui ne dépend que du modèle [statistique] supposé. Dans ce sens précis (et seulement dans ce sens) l'analyse de référence est une méthode pour produire une inférence bayésienne « objective » » [ Bernardo, 2005 ].

Pour Bernardo, l'analyse de référence qu'il a préconisée pour promouvoir sa marque de bayésianisme objectif doit être comprise en termes de modèle paramétrique de la forme M ≡ < P ( x | w ) , x ∈ X , w ∈ Ω >, qui décrit les conditions dans lesquelles les données ont été générées. Ici, les données X sont supposés consister en une observation du processus aléatoire XX avec distribution de probabilité P(X|w) pour certains w Ω. Un modèle paramétrique est une instance d'un modèle statistique. Bernardo définit ?? = ??(w) ∈ Θ pour être un vecteur d'intérêt. Toutes les inférences bayésiennes légitimes sur la valeur sont capturées dans sa distribution postérieure P ( | x ) ∝ ∫ Λ P ( x | θ , λ ) P ( θ , ) d λ à condition que ces inférences soient faites sous un modèle supposé. Ici, est un vecteur de paramètres de nuisance et est souvent appelé « modèle » P(X|λ).

L'attrait de ce type d'objectivisme réside dans l'accent mis sur « l'analyse de référence », qui, à l'aide d'outils statistiques, a fait de nouveaux progrès en faisant de son thème de l'objectivité une école statistique respectable au sein du bayésianisme. Comme l'écrit Bernardo, « l'analyse de référence peut être décrite comme une méthode pour dériver des postérieurs, basé sur les idées de la théorie de l'information, et destiné à décrire le contenu inférentiel des données pour la communication scientifique » [ Bernardo, 1997 ]. Ici, par le « contenu inférentiel des données », il entend que le premier fournit « la base d'une méthode pour dériver des postérieurs non subjectifs » (Idem). Le bayésianisme objectif de Bernardo consiste en les affirmations suivantes.

Premièrement, il pense que les informations de base de l'agent devraient aider l'enquêteur à construire un modèle statistique, donc finalement influencer quelle a priori ce dernier devrait attribuer au modèle. Par conséquent, bien que Bernardo puisse approuver l'obtention d'une valeur de probabilité unique comme objectif, il n'exige pas que nous ayons besoin d'une affectation de probabilité unique dans tous les problèmes à notre disposition. Il écrit : « [l]'analyste est censé avoir un unique (souvent subjectif) avant p(w), indépendamment de la conception de l'expérience, mais la communauté scientifique sera vraisemblablement intéressée à comparer le postérieur personnel de l'analyste correspondant avec le référence (consensus) postérieur associé à la conception expérimentale publiée. [ Bernardo, 2005, p. 29, le premier accent est le nôtre]. Deuxièmement, pour Bernardo, l'inférence statistique n'est rien d'autre qu'un cas de décision parmi divers modèles/théories, où la décision inclut, entre autres, l'utilité d'agir en supposant que le modèle/la théorie est empiriquement adéquat. Ici, l'utilité d'agir sur l'adéquation empirique du modèle/théorie en question pourrait impliquer une fonction de perte [Bernardo et Smith, 1994, p.69]. Dans son chapitre pour ce volume, il a développé sa version du bayésianisme objectif et a abordé plusieurs accusations portées contre son compte.

Dans leur chapitre commun, Gregory Wheeler et Jon Williamson ont combiné le bayésianisme objectif avec la théorie probante des probabilités de Kyburg. Cette position du bayésianisme ou de toute forme de bayésianisme semble en désaccord à l'approche de Kyburg à l'inférence statistique qui repose sur sa théorie probante de la probabilité. Nous considérerons Kyburg comme un argument contre le bayésianisme. Kyburg pense que nous ne devrions pas considérer les croyances partielles comme des « degrés de croyance » parce que les bayésiens (stricts) (comme Savage) sont associés à l'hypothèse d'une probabilité unique d'une proposition. Il a discuté de la probabilité basée sur des intervalles comme capturant nos croyances partielles sur l'incertitude. Puisque la probabilité basée sur des intervalles n'est pas bayésienne, il s'ensuit que nous ne sommes pas autorisés à traiter les croyances partielles comme des degrés de croyance. Compte tenu de cette opposition entre le point de vue de Kyburg sur la probabilité et le point de vue objectif bayésien, Wheeler et Williamson ont essayé de montrer comment les idées fondamentales de ces deux points de vue pouvaient être fructueusement intégrées dans un seul compte rendu d'inférence scientifique.

Pour conclure notre discussion sur la position bayésienne tout en gardant à l'esprit l'attribution par Royall de la question de la croyance aux bayésiens, de nombreux bayésiens auraient des sentiments mitigés à propos de cette attribution. Dans une certaine mesure, certains d'entre eux pourraient considérer que c'est trop simple d'esprit. Howson serait d'accord avec cette attribution avec l'observation que cela manquerait certaines des nuances et des subtilités de la théorie bayésienne. Il suit largement la ligne de de Finetti en prenant des évaluations subjectives de probabilité. Ces évaluations sont généralement appelées « degrés de croyance ». Donc, dans cette mesure, il pense avec certitude qu'il y a un rôle central pour les degrés de croyance, puisqu'après tout c'est à eux que se réfère directement la fonction de probabilité. Par conséquent, selon lui, l'attribution de la question de la croyance aux bayésiens a un certain sens. Cependant, il pense que l'essentiel de la théorie bayésienne consiste à identifier les contraintes qu'il convient de leur imposer pour assurer leur consistance/cohérence. Son article a fourni ce cadre pour le bayésianisme. Hawthorne pourrait être en partie en désaccord avec Royall puisque son théorème de convergence du rapport de vraisemblance montre que comment différents agents pourraient s'entendre à la fin, même s'ils pourraient très bien commencer avec divers degrés de croyance en une théorie. Weirich et Norton, bien qu'appartenant à des camps opposés en ce qui concerne leurs positions envers le bayésianisme, pourraient convenir que l'attribution de Royall aux Bayésiens est après tout justifiée. En ce qui concerne la question de la prédiction, de nombreux bayésiens, y compris ceux qui travaillent dans les limites de la théorie de la confirmation, soutiendraient qu'un compte rendu de la confirmation qui répond à la question de la croyance est capable de traiter la question de la prédiction car, pour les bayésiens, cette dernière est une sous-classe de la question de croyance.


Voir la vidéo: Luvut 11-20 ja 10 - 1000 000 (Novembre 2021).