Informations

Comment la récompense/la pénalité est-elle comprise ?


Techniquement, le cerveau est composé de milliards de neurones pour le calcul abstrait du monde qui nous entoure. Je suis un peu confus quant à la façon dont les émotions telles que la peur/la colère sont simulées par l'amygdale, qui n'est rien de plus qu'un tas de neurones spécialisés, mais nous le ressentons comme une pénalité. Quelle partie du cerveau détecte la réponse de l'amygdale et détermine ok, c'est la peur/la pénalité ? Qu'est-ce que la pénalité exactement ?

Comment l'humain comprend-il la récompense et la pénalité (peur/colère/chagrin) ?


Comment la récompense/la pénalité est-elle comprise ? - La biologie

Academia.edu ne prend plus en charge Internet Explorer.

Pour parcourir Academia.edu et l'Internet au sens large plus rapidement et de manière plus sécurisée, veuillez prendre quelques secondes pour mettre à jour votre navigateur.

, ou pénalise, r = O, le réseau de neurones en décrémentant les poids par un delta inverse
terme multiplié par le produit du taux d'apprentissage et d'un coefficient de pénalité,

× Arp. Notre recherche initiale, utilisant un
signal de récompense "'bounded", r* E < 0 , . . . , 1>, a constaté que le critique fournit des informations consultatives au sigma--pi net
ce qui augmente son efficacité d'entraînement. Cela nous a conduit à développer une extension à la critique adaptative et associative
méthodologies récompense-pénalité, utilisant un signal de récompense "non borné", r* E <- 1 , . . . , 2>, ce qui permet de pénaliser
d'un filet même lorsque le coefficient de pénalité, Arp, est mis à zéro, A,p = O. Il faut noter qu'avec la norme
méthodologie associative récompense-pénalité, le filet n'est normalement pénalisé que si le coefficient de pénalité est non nul (c'est-à-dire,
0 < Arp

< 1). L'une des énigmes de la formation associative récompense-pénalité (AR-I,) est qu'elle diffuse peu
des informations, sous la forme d'un signal de récompense binaire instantané, qui ne dépendent que de l'erreur de sortie actuelle.
Nous proposons ici ACE et AR-I, des méthodologies pour les réseaux sigma-pi, qui sont basées sur le traçage de la fréquence de
• l'occurrence des "stimuli"s, puis l'utiliser pour en déduire une prédiction du renforcement. Les prédictions sont ensuite utilisées pour
dériver un signal de renforcement qui utilise des informations temporelles. On peut donc utiliser des informations plus précises pour
permettre une formation plus efficace. Copyright ©1996 Elsevier Science Ltd

, ou pénalise, r = O, le réseau de neurones en décrémentant les poids par un delta inverse
terme multiplié par le produit du taux d'apprentissage et d'un coefficient de pénalité,

× Arp. Notre recherche initiale, utilisant un
signal de récompense "'limité", r* E < 0 , . . . , 1>, a constaté que le critique fournit des informations consultatives au sigma--pi net
ce qui augmente son efficacité de formation. Cela nous a conduit à développer une extension à la critique adaptative et associative
méthodologies récompense-pénalité, utilisant un signal de récompense "non borné", r* E <- 1 , . . . , 2>, ce qui permet de pénaliser
d'un filet même lorsque le coefficient de pénalité, Arp, est mis à zéro, A,p = O. Il faut noter qu'avec la norme
méthodologie associative récompense-pénalité, le filet n'est normalement pénalisé que si le coefficient de pénalité est non nul (c'est-à-dire,
0 < Arp

< 1). L'une des énigmes de la formation associative récompense-pénalité (AR-I,) est qu'elle diffuse peu
des informations, sous la forme d'un signal de récompense binaire instantané, qui ne dépendent que de l'erreur de sortie actuelle.
Nous proposons ici ACE et AR-I, des méthodologies pour les réseaux sigma-pi, qui sont basées sur le traçage de la fréquence de
• l'occurrence des "stimuli"s, puis l'utiliser pour en déduire une prédiction du renforcement. Les prédictions sont ensuite utilisées pour
dériver un signal de renforcement qui utilise des informations temporelles. On peut donc utiliser des informations plus précises pour
permettre une formation plus efficace. Copyright ©1996 Elsevier Science Ltd


Systèmes de récompense et de punition

L'idée d'un système d'éveil orienté vers un objectif dans le cerveau implique l'existence d'un mécanisme permettant de sélectionner des objectifs appropriés, d'initier les comportements requis pour les atteindre et de signaler quand ils ont été atteints. Si un objectif s'avère favorable à la survie dans les circonstances qui prévalent, il est avantageux de renforcer les comportements qui y mènent si l'objectif s'avère défavorable, les comportements qui y mènent doivent être supprimés et des mesures d'évitement prises à l'avenir. Un tel système de signalisation peut être fourni par certaines voies de « récompense » et de « punition » dans le cerveau. Ceux-ci sont étroitement intégrés aux systèmes d'éveil, à l'apprentissage et à la mémoire, et semblent être fondamentaux pour la motivation, ainsi que pour les comportements de recherche d'objectifs et d'évitement.

Oxford Scholarship Online nécessite un abonnement ou un achat pour accéder au texte intégral des livres du service. Les utilisateurs publics peuvent cependant rechercher librement sur le site et consulter les résumés et les mots-clés de chaque livre et chapitre.

Veuillez vous inscrire ou vous connecter pour accéder au contenu en texte intégral.

Si vous pensez que vous devriez avoir accès à ce titre, veuillez contacter votre bibliothécaire.

Pour résoudre les problèmes, veuillez consulter notre FAQ , et si vous n'y trouvez pas la réponse, veuillez nous contacter .


Récompense monétaire et punition pour l'inhibition de la réponse modulent l'activation et la synchronisation au sein du réseau cérébral inhibiteur

Une récompense ou une punition peut moduler la motivation et les émotions, qui à leur tour affectent le traitement cognitif. La présente étude simultanée d'imagerie par résonance magnétique fonctionnelle et d'électroencéphalographie examine les mécanismes neuronaux d'inhibition de la réponse sous l'influence d'une récompense ou d'une punition monétaire en mettant en œuvre une tâche de signal d'arrêt modifiée dans un scénario de champ de bataille virtuel. Les participants ont reçu pour instruction de jouer le rôle de tireurs d'élite qui ouvrent le feu sur une cible terroriste mais retiennent le tir en présence d'un otage. Les participants ont effectué la tâche sous trois conditions de rétroaction différentes dans un ordre contrebalancé : une condition de récompense où chaque réponse retenue avec succès ajoutait un bonus (c'est-à-dire une rétroaction positive) au crédit de démarrage, une condition de punition où chaque échec à l'arrêt entraînait une pénalité (c'est-à-dire, rétroaction négative) et une condition sans rétroaction où le résultat de la réponse n'avait aucune conséquence et servait de cadre de contrôle. Sur le plan comportemental, les conditions de récompense et de punition ont conduit à une fonction inhibitrice considérablement régulée à la baisse en termes de retard critique du signal d'arrêt. En ce qui concerne les résultats de la neuroimagerie, des activités accrues ont été trouvées pour la condition de non-rétroaction dans les régions précédemment signalées comme étant associées à l'inhibition de la réponse, y compris le gyrus frontal inférieur droit et l'aire motrice pré-supplémentaire. De plus, une activation plus élevée du gyrus lingual, du gyrus cingulaire postérieur (PCG) et du lobule pariétal inférieur a été trouvée dans la condition de récompense, tandis qu'une activation plus forte du gyrus précuneus a été trouvée dans la condition de punition. La rétroaction positive était également associée à des changements plus importants de la synchronisation delta, thêta et alpha dans le PCG que les conditions négatives ou sans rétroaction. Ces résultats ont illustré la relation entrelacée entre l'inhibition de la réponse et les réseaux de motivation.

Mots clés: électroencéphalographie imagerie par résonance magnétique fonctionnelle motivation sans retour gyrus cingulaire postérieur punition réponse inhibition récompense.

Les figures

Conception expérimentale. Présentation des stimuli…

Conception expérimentale. Présentation de stimuli sous trois conditions dont le non-retour, la récompense et la punition…

Différentes régions du cerveau et connexes…

Différentes régions du cerveau et emplacements de source dipolaire associés. Pré-SMA, pré-zone motrice supplémentaire rMFG,…

Les fonctions d'inhibition de la réponse pour…

L'inhibition de la réponse fonctionne pour les conditions de non-rétroaction (bleu), de récompense (vert) et de punition (rouge).…

Différence des frais monétaires en…

Différence des frais monétaires dans les conditions de non-rétroaction, de récompense et de punition. Récompense (c'est-à-dire positive…

Régions cérébrales associées à l'inhibition de la réponse.…

Régions cérébrales associées à l'inhibition de la réponse. Activations cérébrales associées au no-feedback (panneau de gauche),…

Activation cérébrale liée à la réponse…

Activation cérébrale liée à l'inhibition de la réponse. Panneau de gauche : sections horizontales sous récompense – sans rétroaction Panneaux du milieu : horizontal…

Activation cérébrale significative dans le…

Activation cérébrale significative dans les régions corticales, pour la récompense-sans-rétroaction, la récompense-punition, la punition-récompense, et…

La perturbation spectrale liée à l'événement (ERSP)…

La perturbation spectrale liée à l'événement (ERSP) du cluster lIFG pendant l'inhibition de la réponse. Les…

L'analyse ERSP dans le pré-SMA du cerveau pendant l'inhibition de la réponse. Solide…

L'analyse ERSP dans le PCG du cerveau pendant l'inhibition de la réponse. Solide…

Le système neuronal montre le…

Le système neuronal montre les différentes zones d'activation cérébrale et de chevauchement du…


Skinner a identifié trois types de réponses ou d'opérants qui peuvent suivre un comportement.

  1. Opérants neutres :
    Réponses de l'environnement qui n'augmentent ni ne diminuent la probabilité qu'un comportement se répète.
  2. Renforcement (renforce le comportement)
    Une réponse/conséquence qui provoque un comportement plus fréquent. Les renforçateurs peuvent être positifs ou négatifs.
  3. Punition (affaiblit le comportement)
    Une réponse/conséquence qui provoque un comportement de se produire avec moins de fréquence. Tout comme les renforts, il peut y avoir deux types de punition : positive et négative.

Contenu

Il existe un grand nombre de compréhensions différentes de ce qu'est la punition. [5]

Châtiment c'est quand quelque chose est fait à une personne (ou à un animal) qu'ils n'aiment pas. C'est peut-être parce qu'ils ont enfreint une règle. Il existe de nombreux types de punitions, de la peine de mort pour des crimes horribles aux choses que les parents peuvent faire pour punir les enfants, comme leur donner une fessée ou leur enlever leurs jouets. Les gens sont souvent envoyés en prison pour punir un crime.

La punition peut être considérée comme bonne dans la société pour empêcher les gens de faire de mauvaises choses. Cela peut aussi être considéré comme cruel et inutile. On peut aussi voir qu'il fait plus de mal que de bien.

En philosophie Modifier

Divers philosophes ont présenté des définitions de la punition. [6] [7] [8] [9] [10] Les conditions généralement considérées comme nécessaires pour décrire correctement une action en tant que punition sont les suivantes :

  1. il est imposé par une autorité,
  2. cela implique une certaine perte pour le présumé contrevenant,
  3. c'est en réponse à une infraction et
  4. l'humain (ou l'autre animal) à qui la perte est infligée devrait être considéré au moins en partie responsable de l'infraction.

En psychologie Modifier

Introduite par B.F. Skinner, la punition a une définition plus restrictive et technique. Avec le renforcement, il appartient à la catégorie du conditionnement opérant. Le conditionnement opérant fait référence à un apprentissage avec soit une punition (souvent confondue avec un renforcement négatif) soit une récompense qui sert de renforcement positif de la leçon à apprendre. [16] En psychologie, la punition est la réduction d'un comportement via l'application d'un stimulus désagréable ("positif punition") ou la suppression d'un stimulus agréable ("négatif punition"). Les corvées supplémentaires ou la fessée sont des exemples de punition positive, tandis que la suppression de la récréation ou des privilèges de jeu d'un élève fautif sont des exemples de punition négative. La définition exige que la punition ne soit déterminée qu'après coup par la réduction du comportement si le comportement délinquant de le sujet ne diminue pas, ce n'est pas considéré comme une punition. Il y a un certain amalgame de punition et d'aversion, bien qu'une aversion qui ne diminue pas le comportement ne soit pas considérée comme une punition en psychologie. Les comportementalistes d'étiquettes s'appliquent généralement aux renforçateurs négatifs (comme dans l'apprentissage par évitement), plutôt qu'aux punisseurs.

En sociobiologie Modifier

La punition est parfois appelée de représailles ou agression moralisatrice [19] il a été observé dans tous [ éclaircissements nécessaires ] espèces d'animaux sociaux, conduisant les biologistes évolutionnistes à conclure qu'il s'agit d'une stratégie évolutivement stable, choisie parce qu'elle favorise le comportement coopératif. [20] [21]

Exemples contre l'utilisation sociobiologique Modifier

Une critique de l'affirmation selon laquelle tous les animaux sociaux sont câblés de manière évolutive pour la punition provient d'études sur des animaux, tels que les pieuvres près de Capri, en Italie, qui ont soudainement formé des cultures communautaires en ayant, jusqu'alors, vécu des vies solitaires. Pendant une période de pêche intensive et de tourisme qui empiétait sur leur territoire, ils ont commencé à vivre en groupe, apprenant les uns des autres, notamment les techniques de chasse. De petites pieuvres plus jeunes pourraient se trouver à proximité des pieuvres adultes sans être mangées par elles, même si, comme les autres Poulpe vulgaire, étaient cannibales jusqu'à juste avant la formation du groupe. [ citation requise ] Les auteurs soulignent que ce changement de comportement s'est produit trop rapidement pour être une caractéristique génétique chez les poulpes, et qu'il n'y avait certainement pas de mammifères ou d'autres animaux "naturellement" sociaux punissant les poulpes pour cannibalisme impliqués. Les auteurs notent également que les pieuvres ont adopté un apprentissage par observation sans aucune histoire évolutive d'adaptation spécialisée pour cela. [22] [23]

Il existe également des arguments contre la notion de punition nécessitant de l'intelligence, basés sur des études de punition chez des animaux à très petit cerveau tels que les insectes. Il existe des preuves que les ouvrières des abeilles mellifères présentent des mutations qui les rendent fertiles en ponte uniquement lorsque les autres abeilles mellifères ne les observent pas, et que les quelques-unes qui sont prises en flagrant délit sont tuées. [ citation requise ] Ceci est corroboré par des simulations informatiques prouvant que quelques réactions simples bien dans les vues dominantes de l'intelligence extrêmement limitée des insectes sont suffisantes pour imiter le comportement « politique » observé chez les grands singes. Les auteurs soutiennent que cela fausse l'affirmation selon laquelle la punition a évolué comme une stratégie pour traiter avec des individus capables de savoir ce qu'ils font. [24]

Dans le cas de cerveaux plus complexes, la notion d'évolution sélectionnant pour une punition spécifique des violations des règles intentionnellement choisies et/ou des malfaiteurs capables de choix intentionnels (par exemple, punir les humains pour meurtre sans punir les virus mortels) est sujette à la critique de la coévolution problèmes. Cette punition d'individus présentant certaines caractéristiques (y compris mais, en principe, sans s'y limiter, les capacités mentales) sélectionne contre ces caractéristiques, rendant impossible l'évolution de toute capacité mentale considérée comme la base de la responsabilité pénale dans les populations soumises à une telle punition sélective. Certains scientifiques soutiennent que cela réfute la notion selon laquelle les humains auraient un sentiment biologique de transgressions intentionnelles méritant d'être punis. [25] [26] [27]

Les punitions sont appliquées à diverses fins, le plus généralement, pour encourager et imposer un comportement approprié tel que défini par la société ou la famille. Les criminels sont punis judiciairement, par des amendes, des châtiments corporels ou des peines privatives de liberté tels que les détenus en prison risquent des peines supplémentaires pour les infractions aux règles internes. [28] Les enfants, élèves et autres stagiaires peuvent être punis par leurs éducateurs ou instructeurs (principalement les parents, tuteurs ou enseignants, tuteurs et entraîneurs) – voir Discipline des enfants.

Les esclaves, domestiques et autres serviteurs sont punis par leurs maîtres. Les salariés peuvent toujours faire l'objet d'une forme contractuelle d'amende ou de rétrogradation. La plupart des organisations hiérarchiques, telles que les forces militaires et de police, ou même les églises, appliquent encore une discipline interne assez rigide, même avec un système judiciaire qui leur est propre (cour martiale, cours canoniques).

La punition peut également être appliquée pour des motifs moraux, notamment religieux, comme la pénitence (qui est volontaire) ou imposée dans une théocratie avec une police religieuse (comme dans un État islamique strict comme l'Iran ou sous les talibans) ou (bien qu'il ne s'agisse pas d'un véritable théocratie) par l'Inquisition.

La croyance que la punition ultime d'un individu est envoyée par Dieu, la plus haute autorité, à une existence en enfer, un endroit censé exister dans l'au-delà, correspond généralement aux péchés commis au cours de leur vie. Parfois ces distinctions sont spécifiques, des damnés souffrant pour chaque péché commis (voir par exemple le mythe d'Er de Platon ou celui de Dante The Divine Comedy), mais parfois ils sont généraux, avec des pécheurs condamnés relégués à une ou plusieurs chambres de l'Enfer ou à un niveau de souffrance.

Dans de nombreuses cultures religieuses, y compris le christianisme et l'islam, l'enfer est traditionnellement décrit comme ardent et douloureux, infligeant culpabilité et souffrance. [29] [ spécifier ] Malgré ces représentations courantes de l'Enfer comme un lieu de feu, d'autres traditions décrivent l'Enfer comme un lieu froid. Les descriptions bouddhistes – et particulièrement bouddhistes tibétaines – de l'enfer présentent un nombre égal d'enfers chauds et froids. Parmi les descriptions chrétiennes de Dante Enfer dépeint le cercle le plus intime (9e) de l'Enfer comme un lac gelé de sang et de culpabilité. [30] Mais le froid a également joué un rôle dans les représentations chrétiennes antérieures de l'enfer, à commencer par l'Apocalypse de Paul, originaire du début du IIIe siècle [31] la "Vision de Dryhthelm" par le Vénérable Bède du VIIe siècle [32] " Le Purgatoire de St Patrick", "La Vision de Tundale" ou "Visio Tnugdali", et la "Vision du Moine d'Enysham", tous du XIIe siècle [33] et la "Vision de Thurkill" du début du XIIIe siècle. [34]

Gravité d'un crime La punition correspond au crime Modifier

Un principe souvent mentionné en ce qui concerne le degré de punition à infliger est que la punition doit correspondre au crime. [35] [36] [37] Une norme de mesure est le degré auquel un crime affecte les autres ou la société. Des mesures du degré de gravité d'un crime ont été élaborées. [38] Un crime est généralement considéré comme un crime de "gravité élevée", alors qu'un délit ne l'est pas.

Il existe de nombreuses raisons possibles qui pourraient être invoquées pour justifier ou expliquer pourquoi quelqu'un devrait être puni.

Dissuasion (prévention) Modifier

Deux raisons invoquées pour justifier la punition [12] sont qu'il s'agit d'une mesure visant à empêcher les gens de commettre une infraction - dissuader les contrevenants précédents de récidiver et empêcher ceux qui envisagent une infraction qu'ils n'ont pas commise de la commettre réellement. Cette punition est censée être suffisante pour que les gens choisissent de ne pas commettre le crime plutôt que de subir la punition. L'objectif est de dissuader tous les membres de la communauté de commettre des infractions.

Certains criminologues affirment que le nombre de personnes condamnées pour crime ne diminue pas en raison de sanctions plus sévères et concluent que la dissuasion est inefficace. [39] D'autres criminologues s'opposent à cette conclusion, citant que bien que la plupart des gens ne connaissent pas la sévérité exacte de la peine, par exemple si la peine pour meurtre est de 40 ans ou à perpétuité, la plupart des gens connaissent encore les grandes lignes telles que les peines pour vol à main armée. ou le viol forcé étant plus sévère que les punitions pour conduite trop vite ou pour avoir mal garé une voiture. Ces criminologues soutiennent donc que l'absence d'effet dissuasif de l'augmentation des peines pour des crimes déjà sévèrement punis ne dit rien sur l'importance de l'existence d'une peine en tant que facteur dissuasif. [40] [41]

Certains criminologues soutiennent que l'augmentation des peines pour les crimes peut amener les enquêteurs criminels à accorder une priorité plus élevée à ces crimes, de sorte qu'un pourcentage plus élevé de ceux qui les commettent sont condamnés pour eux, ce qui entraîne une augmentation des statistiques donnant une fausse apparence de tels crimes. Ces criminologues soutiennent que l'utilisation de statistiques pour évaluer l'efficacité des méthodes de lutte contre la criminalité risque de créer un piratage de récompense qui fait que les systèmes de justice pénale les moins efficaces semblent être les meilleurs pour lutter contre la criminalité, et que l'apparence de dissuasion étant inefficace peut être un exemple de cela. [42] [43]

Réhabilitation Modifier

Certaines punitions comprennent un travail pour réformer et réhabiliter le coupable afin qu'il ne commette plus l'infraction. [12] Cela se distingue de la dissuasion, en ce sens que le but ici est de changer l'attitude du délinquant envers ce qu'il a fait et de lui faire comprendre que son comportement était répréhensible.

Incapacitation et protection sociétale Modifier

L'incapacité en tant que justification de la peine [12] fait référence à la capacité du délinquant de commettre d'autres infractions étant retiré. L'emprisonnement sépare les délinquants de la communauté, par exemple, l'Australie était un dépotoir pour les premiers criminels britanniques. C'était leur façon de supprimer ou de réduire la capacité des délinquants à commettre certains crimes. La peine de mort le fait de manière permanente (et irrévocable). Dans certaines sociétés, les personnes qui volent sont punies en se faisant amputer les mains.

Châtiment Modifier

Les activités criminelles procurent généralement un avantage au délinquant et une perte à la victime. [44] [45] La punition a été justifiée en tant que mesure de justice punitive, [12] [46] [47] [48] dans laquelle l'objectif est d'essayer de rééquilibrer tout avantage injuste obtenu en veillant à ce que le délinquant subisse également un perte. Parfois considérée comme un moyen de « se venger » d'un malfaiteur, la souffrance du malfaiteur est considérée comme un objectif souhaité en soi, même si elle n'a aucun avantage réparateur pour la victime. L'une des raisons pour lesquelles les sociétés ont administré des punitions est de diminuer le besoin perçu de représailles « justice de rue », de vendetta et d'autodéfense.

Restauration Modifier

Pour les infractions mineures, la punition peut prendre la forme d'une « réparation du tort » par le délinquant ou d'un dédommagement à la victime. Les ordonnances de travaux d'intérêt général ou d'indemnisation sont des exemples de ce type de sanction. [49] Dans les modèles de justice réparatrice, les victimes prennent une actif rôle dans un processus avec leurs contrevenants qui sont encouragés à assumer la responsabilité de leurs actes, « pour réparer le mal qu'ils ont fait – en s'excusant, en restituant l'argent volé ou en travaillant à la communauté ». [50] L'approche de justice réparatrice vise à aider le délinquant à vouloir éviter de futures infractions.

Education et dénonciation Modifier

La punition peut être expliquée par la théorie de la prévention positive pour utiliser le système de justice pénale pour enseigner aux gens quelles sont les normes sociales pour ce qui est correct, et agit comme un renforcement.

La punition peut servir de moyen pour la société d'exprimer publiquement la dénonciation d'une action comme étant criminelle. En plus d'éduquer les gens sur ce qui n'est pas un comportement acceptable, il remplit la double fonction d'empêcher la justice d'autodéfense en reconnaissant la colère du public, tout en dissuadant en même temps de futures activités criminelles en stigmatisant le délinquant. C'est ce qu'on appelle parfois la « théorie expressive » de la dénonciation. [51] Le pilori était une méthode de dénonciation publique. [52]

Certains critiques du modèle d'éducation et de dénonciation citent des problèmes d'évolution avec l'idée qu'un sentiment de punition en tant que système de signal social a évolué si la punition n'était pas efficace. Les critiques soutiennent que certaines personnes qui dépensent du temps et de l'énergie et prennent des risques pour punir les autres, et la perte possible des membres du groupe punis, auraient été sélectionnées si la punition n'avait d'autre fonction que des signaux qui pourraient évoluer pour fonctionner par des moyens moins risqués. [53] [54]

Théorie unifiée Modifier

Une théorie unifiée de la punition rassemble de multiples objectifs pénaux, tels que la rétribution, la dissuasion et la réhabilitation, dans un cadre unique et cohérent. Au lieu de punir nous obligeant à choisir entre eux, les théoriciens unifiés soutiennent qu'ils travaillent ensemble dans le cadre d'un objectif plus large tel que la protection des droits. [55]

Certaines personnes pensent que la punition dans son ensemble est inutile et même nuisible aux personnes contre lesquelles elle est utilisée. [56] Les détracteurs soutiennent que la punition est tout simplement mauvaise, du même ordre que « deux torts font un droit ». Les critiques soutiennent que la punition est simplement une vengeance. Professeur Deirdre Golash, auteur de Le cas contre le châtiment : châtiment, prévention du crime et loi, dit:

Nous ne devons imposer un tel mal à personne à moins d'avoir une très bonne raison de le faire. Cette remarque peut sembler trivialement vraie, mais l'histoire de l'humanité est jonchée d'exemples de mal intentionnés infligés par des personnes bien intentionnées dans la vaine poursuite de fins que ce mal n'a pas poursuivies, ou dans la poursuite réussie de fins douteuses. Ces bienfaiteurs de l'humanité ont sacrifié leurs semblables pour apaiser les dieux mythiques et les ont torturés pour sauver leurs âmes d'un enfer mythique, ont cassé et lié les pieds des enfants pour favoriser leur mariage éventuel, battu des écoliers lents pour promouvoir l'apprentissage et le respect des enseignants, soumis les malades aux sangsues pour les débarrasser de l'excès de sang, et mettre les suspects au rack et à la molette au service de la vérité. Ils se sont entraînés à ne ressentir aucune pitié, à renoncer à la compassion humaine au service d'une fin supérieure. Le fait de faire délibérément du mal dans la croyance erronée qu'il favorise un plus grand bien est l'essence de la tragédie. Nous ferions bien de nous demander si les biens que nous recherchons en faisant du mal aux délinquants valent la peine et si les moyens que nous choisissons les sécuriseront effectivement. [57]

L'emprisonnement signifie, au minimum, la perte de liberté et d'autonomie, ainsi que de nombreux conforts matériels, la sécurité personnelle et l'accès aux relations hétérosexuelles. Ces privations, selon Gresham Sykes (qui les a identifiées le premier) « ensemble ont causé 'une blessure profonde' qui est allée aux 'fonds mêmes de l'être du prisonnier. Mais ce ne sont là que les préjudices minimaux, subis par les détenus les moins vulnérables dans les prisons les mieux gérées. La plupart des prisons sont mal gérées et, dans certaines, les conditions sont plus sordides que dans le pire des bidonvilles. Dans la prison du district de Columbia, par exemple, les détenus doivent laver leurs vêtements et leurs draps dans les toilettes des cellules car les machines à laver sont en panne. La vermine et les insectes infestent le bâtiment, dans lequel les bouches d'aération sont obstruées par des décennies d'accumulation de poussière et de crasse. Mais même les détenus dans les prisons où les conditions sont hygiéniques doivent toujours faire face à l'ennui et au vide de la vie carcérale - un vaste désert de jours perdus dans lequel peu d'activités significatives sont possibles. [57]

Destructivité pour la pensée et l'amélioration Modifier

Il y a des critiques de la punition qui soutiennent que la punition visant des actions intentionnelles oblige les gens à supprimer leur capacité d'agir intentionnellement. Les partisans de ce point de vue soutiennent qu'une telle suppression de l'intention provoque la persistance des comportements nocifs, rendant la punition contre-productive. Ces personnes suggèrent que la capacité de faire des choix intentionnels devrait plutôt être considérée comme une source de possibilités d'amélioration, citant que la cognition complexe aurait été un gaspillage d'énergie inutile sur le plan de l'évolution si elle avait conduit à des justifications d'actions fixes et à aucun changement comme une simple incapacité à comprendre que les arguments auraient été la protection la plus économe d'être induit en erreur par eux si les arguments étaient pour la manipulation sociale, et rejeter la condamnation des personnes qui ont intentionnellement fait de mauvaises choses. [58] La punition peut être efficace pour arrêter les comportements indésirables des employés tels que le retard, l'absentéisme ou un rendement au travail inférieur aux normes. Cependant, la punition n'oblige pas nécessairement un employé à adopter un comportement souhaitable. [59]

  1. ^ Edwards, Jonathan (1824). "Le salut de tous les hommes strictement examiné : et la punition sans fin de ceux qui meurent impénitents : argumenté et défendu contre les objections et les raisonnements de feu le révérend Docteur Chauncy, de Boston dans son livre intitulé "Le salut de tous les hommes", &c ". C. Ewer et T. Bedlington, 1824 : 157. Citer le journal requiert |journal= (aide)
  2. ^
  3. Bingham, Joseph (1712). "Volume 1 d'une histoire scolastique de la pratique de l'Église en référence à l'administration du baptême par des laïcs". Une histoire scolastique de la pratique de l'Église en référence à l'administration du baptême par des laïcs. Knaplock, 1712. 1: 25.
  4. ^
  5. Grotius, Hugo (1715). "H. Grotius des droits de guerre et de paix : en trois volumes : dans lesquels sont expliqués les lois et les droits de la nature et des nations, et les principaux points qui se rapportent soit au gouvernement public, soit à la conduite de la vie privée : ensemble avec les propres notes de l'auteur : Fait en anglais. Volume 2". H. Grotius des droits de guerre et de paix : en trois volumes : dans lesquels sont expliquées les lois et les droits de la nature et des nations, et les principaux points qui se rapportent soit au gouvernement public, soit à la conduite de la vie privée : avec les propres notes de l'auteur : fait en anglais par plusieurs mains : avec l'ajout de la vie de l'auteur par les traducteurs : dédié à son altesse royale le prince de Galles, Hugo Grotius. D. Brown. T. Ward. et W. Meares, 1715. 2: 524.
  6. ^
  7. Lee Hansen, Marcus (1918). "Vieux Fort Snelling, 1819-1858". Série Mid-America. Société historique d'État de l'Iowa, 1918 : 124.
  8. ^ uneb
  9. Gade, Christian B.N. (2020). « La justice réparatrice est-elle une punition ? » Trimestriel sur la résolution des conflits. 38 (3) : 127-155. doi: 10.1002/crq.21293 .
  10. ^ uneb
  11. Hugo, Adam Bedau (19 février 2010). "Le châtiment, le crime et l'État". Encyclopédie de philosophie de Stanford . Récupéré le 04-08-2010. La recherche d'une définition précise de la punition qui a exercé certains philosophes (pour la discussion et les références voir Scheid 1980) est susceptible de s'avérer vaine : mais on peut dire que la punition légale implique l'imposition de quelque chose qui se veut lourd ou douloureux, sur un présumé coupable d'un crime présumé, par une personne ou un organisme qui revendique l'autorité de le faire.
  12. ^ unebc et viole la loi ou les règles par lesquelles le groupe est gouverné.
  13. McAnany, Patrick D. (août 2010). "Châtiment". En ligne. Encyclopédie multimédia Grolier. Archivé de l'original le 2017-10-19 . Récupéré le 04-08-2010. La punition décrit l'imposition par une autorité d'une privation, généralement douloureuse, à une personne qui a violé une loi, une règle ou une autre norme. Lorsque la violation est du droit pénal de la société, il y a un processus formel d'accusation et de preuve suivi de l'imposition d'une peine par un fonctionnaire désigné, généralement un juge. De manière informelle, tout groupe organisé – le plus souvent la famille, dans l'éducation des enfants – peut punir les malfaiteurs perçus.
  14. ^ unebc
  15. Hugo, Adam Bedau (19 février 2010). "Théorie de la punition". Encyclopédie de philosophie de Stanford . Récupéré le 04-08-2010. Punition en vertu de la loi. est l'imposition autorisée de privations - de liberté ou de vie privée ou d'autres biens auxquels la personne a par ailleurs un droit, ou l'imposition de charges spéciales - parce que la personne a été reconnue coupable d'une violation criminelle, généralement (mais pas toujours) impliquant un préjudice aux innocents. (La formulation classique, remarquable chez Hobbes, par exemple, définit la punition par référence à l'imposition de la douleur plutôt qu'à des privations.) Cette définition, bien qu'imparfaite en raison de sa brièveté, permet de dégager plusieurs points essentiels.
  16. ^ unebce
  17. Peters, Richard Stanley (1966). "Éthique et éducation". British Journal of Educational Studies. 20 (3) : 267-68. JSTOR3120772. Châtiment. implique le fait d'infliger intentionnellement de la douleur ou quelque chose de désagréable à quelqu'un qui a enfreint les règles. par quelqu'un qui détient l'autorité, qui a le droit d'agir ainsi. Sinon, il serait impossible de distinguer la « punition » de la « vengeance ». Les personnes en position d'autorité peuvent, bien sûr, infliger de la douleur aux personnes à leur guise. Mais cela s'appellerait "malveillance" à moins qu'il ne soit infligé à la suite d'une violation des règles de la part de la victime. De même, une personne en autorité peut donner 5 £ à une personne pour avoir enfreint une règle. But unless this were regarded as painful or at least unpleasant for the recipient it could not be counted as a case of 'punishment'. In other words at least three criteria of (i) intentional infliction of pain (ii) by someone in authority (iii) on a person as a consequence of a breach of rules on his part, must be satisfied if we are to call something a case of 'punishment'. There are, as is usual in such cases, examples that can be produced which do not satisfy all criteria. For instance there is a colloquialism which is used about boxers taking a lot of punishment from their opponents, in which only the first condition is present. But this is a metaphorical use which is peripheral to the central use of the term.


Fond

Iowa Gambling Task (IGT) assesses decision making in uncertain conditions. Several studies have reported impaired performance on IGT in various clinical population compared to healthy normal. However, some researchers have reported incongruent findings from the basic assumptions of IGT in healthy normal. Our aim was to examine the possible decision making processes on IGT.

Méthodes

The IGT was administered on two groups: Healthy normal (n = 34) and offspring at high risk for alcoholism (n = 34). Subjects were matched on age (+/–1 year), education (+/–1 year) and gender. Other tools used were: Mini-international Neuropsychiatric Interview, Family Interview for Genetic Studies, Socio-demographic Data Sheet, Annett’s Handedness Questionnaire.

Résultats

Results showed a significant difference between two groups on selections made from disadvantageous deck A but no significant difference on disadvantageous deck B, advantageous/safe decks C and D. Also, there was no significant difference between two groups on IGT Net score [selections from decks (C + D) – decks (A + B)]. Further analysis showed that varying nature of reward and penalty schedules play an important role in selecting the cards from four decks of IGT. Subjects may prefer infrequent penalty decks without consideration of delayed loss/gain.

Conclusion

Frequency and magnitude of reward/penalty in IGT may adversely impact decision making. Deck B can induce myopia for delayed loss in the healthy normal too because of having a high frequency of gains with high magnitude of reward. Hence, IGT related studies should consider these factors while making an inference about decision making ability.


Types of Machine Learning

There are three main categories of machine learning:

  • Enseignement supervisé: The machine learns from labeled data. Normally, the data is labeled by humans.
  • Apprentissage non supervisé: The machine learns from un-labeled data. Meaning, there is no “right” answer given to the machine to learn, but the machine must hopefully find patterns from the data to come up with an answer.
  • Apprentissage par renforcement: The machine learns through a reward-based system.

RÉSULTATS

Figures 3–5 show how the reward acquisition and button-push behaviors changed during the TEST blocks of the stimulus-action-reward association task for the most successful subject (Fig. 3) and least successful subject (Fig. 4) in terms of total monetary reward, and the average for the 20 subjects (Fig. 5). Accumulated reward (AR) increases almost monotonically in S1–S3 in Fig. 3. In contrast, only S1 exhibits a monotonic increase in Fig. 4, and the flat and decreasing tendencies found in S2 and S3 show that learning was demanding for the subject and that it had not yet been completed within the given number of trials. The averages of all subjects displayed in Fig. 5 show that ARs yielded progressively smaller positive slopes in S1, S2, and S3. Accumulated rewards in the final TEST blocks were significantly larger than zero (P < 0,0001 t-test) and ranked in the order S1 > S2 > S3 (P < 0.05 t-test). These observations are consistent with the hypothesis that learning is progressively more difficult in S1, S2, and S3 in accordance with their stochastic uncertainties.

FIGUE. 3.Behavioral results of learning for the most successful subject in terms of total reward. UNEC: time-courses of accumulated reward (AR), SADRP, and RPE. et F: chronological plots of actual button-pushes by the subjects and corresponding model predictions for each fractal stimulus (FS1–3), respectively, aligned with the subjects' actual rewards (E). Dans et F, light grey and dark grey bars represent a left and right button-push, respectively, whereas in E, white and black bars represent a reward and penalty, respectively. S1, S2, and S3 represent experimental sessions with a dominant probability of 0.9, 0.8, and 0.7, respectively.


FIGUE. 4.Behavioral results of learning for the least successful subject in terms of total reward. All subplots follow format of Fig. 3.


FIGUE. 5.Behavioral results of learning for the average and SD of all 20 subjects. Corresponding to Figs. 3 and 4, A–C show time-courses of AR, SADRP, and RPE averaged over 20 subjects. et E: proportion of nonoptimal button-pushes by subjects and change in SADRP of the model, respectively.

From their behavior, we estimated each subject's SADRP by the Q-learning model (Sutton and Barto 1998), which is defined as the amount of reward predicted by a subject based on a given contextual stimulus and an action selected by the subject. The RPE amounts simply to the difference between SADRP and an actual reward. SADRP is shown in Figs. 3B, 4B, and 5B. The horizontal lines in Fig. 5B show theoretical maximum values that are expected for optimal button-push <40 yen [=50 × (0.9 −0.1)], 30 yen [=50 × (0.8 − 0.2)], and 20 yen [=50 × (0.7 − 0.3)] for S1–S3, respectively>. In the easiest task (S1), SADRP increased and approached the theoretical maximum (40 yen) within 20 trials for all subjects. In more stochastic tasks (S2 and S3), the increase in SADRP became progressively slower than in S1, and some of the subjects failed to achieve the maximum SADRP even in the final TEST trial. None of the estimated SADRPs of any of the subjects showed a simple monotonically increasing tendency because of the stochasticity of the task. Furthermore, it is even difficult to find general increasing tendency in the more stochastic S2 and S3 tasks among the poorer subjects (e.g., Fig. 4). Considering this nonmonotonic nature of SADRP, the subsequent regression analysis of fMRI data with SADRP did not simply capture the artifact correlated with an arbitrary increasing function in time.

Corresponding to SADRP, the absolute values for RPE shown in Figs. 3C, 4C, and 5C quickly decreased to close to 5 yen within 20 trials in S1, but decreased only slowly in S2 and S3. The absolute value was taken because BOLD signal change in the striatum is assumed to represent the energy consumption that arises from the synaptic plasticity change triggered by the RPE. The spiked increase of RPE found in the final stage of S1 (see Figs. 3C, 4C, and 5C) was induced because an unexpected penalty (−50 yen) with low probability occurred, whereas the majority of subjects predicted a 40-yen reward (−50 − 40 = −90 yen RPE). This is also evident in the average (Fig. 5), because most subjects who had already learned to predict a positive reward received an unexpected penalty at this point because of our use of the same random-number sequence. Again, because of the stochasticity of the task, the RPEs did not exhibit a monotonically decreasing tendency in time. It is also difficult to find generally decreasing patterns in the most stochastic S3 tasks among the poorer subjects (e.g., Fig. 4). Thus regression with RPE again did not simply capture brain activity that was correlated with an arbitrary decreasing function in time.

To evaluate how well the simple Q-learning model predicted each subject's behaviors, Figs. 4 et 5 also compare the actual button-pushes, which subjects selected for each of the fractal stimuli during the TEST trials, and the corresponding behaviors (Figs. 4F et 5F) predicted by the model. These subject and model behaviors were aligned with the actual reward (Figs. 4E et 5E), in which a reward and a penalty are labeled in white and black, respectively. In Figs. 4, et F, and 5, et F, FS1–3 are represented from Haut à bas, with the abscissa showing the number of trials in the temporal order of presentation of the three stimuli. Light grey and dark grey vertical bars represent left and right button-pushes, respectively. In the model, we assumed that each subject's button-push was selected according to which button-push, left or right, was more advantageous in terms of the SADRP table (deterministic selection: the button with the larger Q is always selected).

The model's predictions showed generally good agreement with subjects' actual behaviors. In the most successful subject (Fig. 3, et F), the behaviors and predictions were different only in the first few trials, with the discrepancy seeming to arise from a difference in initial strategies, in which the model set the elements of SADRP at 0, thus setting button selection probabilities for left and right equally at 0.5. For the least successful subject (Fig. 4, et F), the model's predictions and actual behaviors coincided very well in the easiest task (S1), but the degree of agreement decreased progressively in S2 and S3. This subject's behaviors changed more frequently than the model's prediction. A possible reason for the discrepancy is that the subject was naïve to an unfortunate penalty (see also Fig. 4E) because of stochastic uncertainty and behaved in a shortsighted and non–self-confident way without considering the long-term statistics of reward and penalty. This suggests that the subject was more explorative than the behavior expected from using the Q-learning algorithm. Averaged over all 20 subjects, the mean precision of the model's prediction was 0.92 ± 0.21 (SD), 0.85 ± 0.32, and 0.73 ± 0.42 for S1, S2, and S3, respectively. These values indicate that this parsimonious model simulated the subjects' behaviors reasonably well.

Both the simplicity of the model and its ability to predict behaviors motivated the use of computational internal representations such as SADRP and RPE in the subsequent fMRI analysis. In addition, Fig. 5, et E, compare the proportion of nonoptimal button-pushes and the change in SADRP averaged over all subjects. This ratio was determined from the subject's behaviors alone. It decreased most rapidly in S1 and progressively more slowly in S2 and S3, reflecting the increasing stochastic uncertainty and resulting greater difficulty. The later stage of the proportion of nonoptimal button-pushes showed smaller fluctuations than later-stage RPE, although the fluctuations decreased in both with the number of trials. The time-course of the change in SADRP showed a pattern of decay closer to that of the proportion of nonoptimal button-pushes than that of RPE, which continuously fluctuated until the end of the learning trials because of the stochastic uncertainty of the task. This contrast shows that the change in SADRP better explains each subject's behavioral learning (the proportion of nonoptimal button-pushes) than RPE does, suggesting that SADRP better reflects the internal representations responsible for behavioral learning. In summary, all of the observations described above indicate that the learning strategy of the human subjects is reasonably comparable with a very simple computational model based on SADRP and RPE.


Voir la vidéo: Formation Google My Business - ÉTAPE par ÉTAPE en 2021 (Décembre 2021).