Informations

Où puis-je trouver des données de séquence d'ADN pour le cancer du côlon


Je suis un informaticien étudiant la reconnaissance de formes et j'espère faire un apprentissage supervisé sur le cancer du côlon. Malheureusement, j'ai du mal à trouver des données ADN dans le format suivant.

ADN bénin (adénome ?) ADN malin (carcinome ?) A A A A T G G G C C

J'ai donc juste besoin de deux colonnes (peu importe si cela descend pour 3 milliards d'enregistrements/acides aminés) : une avec le bon ADN et une avec le mauvais.

Y a-t-il un endroit où je peux trouver des données dans ce format spécifique ?


Vous pouvez essayer les données pour "Colon Adenocarcinoma" faites par le projet TCGA : http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/

Le fichier avec les mutations appelées par la tumeur contre une normale appariée, http://gdac.broadinstitute.org/runs/analyses__2015_04_02/reports/cancer/COAD/MutSigNozzleReport2.0/COAD-TP.final_analysis_set.maf

Ce dont vous avez besoin sont les colonnes 11, 12 et 13. La colonne 11 est l'allèle de référence (votre soi-disantbon ADN). Pour chaque ligne, l'allèle alternatif (mauvais ADN) est la colonne 12 si la colonne 12 n'est pas égale à la colonne 11, sinon c'est la colonne 13. -- Ce serait du gâteau à faire en codant :)

Au cas où vous seriez intéressé, les colonnes 16 et 17 sont les identifiants de la tumeur et de l'échantillon normal.