生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

生信速递:如何用PrediXcan建立o受SNP调控的基因表达和性状的关系

生信草堂

将会与更多的优秀微信公众号合作,把更优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!

号外,号外,号外

你想和生信分析大神做好朋友么?

你想认识更多爱好生信分析的小伙伴么?

你想让自己的生信分析走上快车道么?

那就赶快加入我们的生信交流微信群吧!

正确加入我们的模式是:

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群

在群里请大家注明自己本名,单位,研究领域

便于小编管理

导读

GWAS找到大量的SNP,可是可以解释生物学功能的SNP位点却是很有限的。其结果让人看得眼花缭乱,但是单个SNP功能做不出怎么破?别担心,本文给你新思路。

从GWAS的结果中找到具有潜在功能性的基因一直的遗传学研究的重点。以往的经验告诉人们,离最显著SNP最近的基因的易感性最大,但越来越多的证据表明这种经验并不十分可靠。随着越来越多的SNP在非编码区被发现,并且通过远端或近端调控机制影响特定基因的表达,人们有理由相信那些SNP调控的基因表达改变是影响性状的一个重要机制。因此,来自芝加哥大学的研究者们就开发了一个gene-based关联分析软件——PredicXcan

PrediXcan工作原理

作者认为基因表达水平受到三个因素的调控,其中主要的两个是遗传因素和疾病状态(图1)。 PrediXcan的目的是建立起受遗传调控的基因表达与性状之间的关系。整个工作流程分为两步:(1)估算SNP调控的基因表达水平;(2)建立基因表达水平与性状之间的关联。第一步中,作者借助类似于机器学习的思想,利用GTEx Project, GEUVADIS 和 DGN数据库中基因型数据和基因表达数据做训练集,然后估算用户导入的基因型数据中缺失的表达数据。一旦得到表达数据,就可建立起基因表达与性状之间的关系。(图2)

图1 基因表达受到遗传,表型以及其他因素的调控

图2 PrediXcan工作流程

如何使用PrediXcan
2.1:文件准备

运行PrediXcan需要输入三个文件:转录组预测模型文件,基因型文件和样本信息文件。下面一一介绍。

转录组预测模型文件:该文件不用自己制作,去PredictDB网站下载即可:http://predictdb.org/。大家可以根据自己的需要选择不同的组织数据。
基因型文件:该文件每一行表示一个SNP,包含的信息分别为:chromosome rsid position allele1 allele2 MAF,后面的每一列的内容是每一个样本在该SNP allele2的dosage,最好是每一条染色体分开制作文件。

样本信息文件:直接将PLINK的fam文件导入即可。

2.2:基因表达预测

该步骤需要用到PrediXcan 的“predict”功能,代码如下:

$./PrediXcan.py –predict –dosages genotype/ –dosages_prefix chr –samples samples.txt –weights model/DGN-HapMap-2015/DGN-WB_0.5.db –output_prefix results/DGN-HapMap

这一步中,我们在PrediXcan.py脚本存放的目录运行程序,假设我们的基因型文件的名称前缀是“chr”,样本信息文件的名称为“samples.txt”且存放在基因型文件同一目录下。该步骤会生成一个后缀为“predicted_expression.txt”的文件,存放估算的基因表达水平,可直接用于下一步。

2.3:基因表达与性状的关联分析

该步骤需要制作一个额外的表型文件,前两列分别是FID和IID。从第三列起可以存放表型,数据类型可以是分类变量也可以是连续变量,如果是分类变量,0表示unaffected,1表示affected。默认缺失值是NA。如果有多个表型列,可以用参数—mpheno指定要分析的表型位于那一列,如—mpheno 1则表示将文件中第三列作为要分析的表型。

代码如下:

$./PrediXcan.py –assoc –pheno My_pheno.txt –mpheno 1 –pred_exp results/TW_Brain_Frontal_predicted_expression.txt –logistic –output_prefix results/DGN-HapMap
最后奉上PrediXcan在GitHub上的下载地址https://github.com/hakyimlab/PrediXcan。小伙伴们有没有get新技能?快用不同的分析方法,丰富大家的文章内容吧。赶快拿起自己的GWAS数据操练起来~

猜你喜欢

GWAS + 公共数据库 = Nature ???

Nature-medicine教你用GWAS+RNA-Seq研究精神分裂症分子机制

干货|CircRNA 预测软件之find_circ使用流程

CircRNA 预测软件之CIRCexplorer2使用流程(三)

HISAT2,取代TopHat的宠儿


赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 生信速递:如何用PrediXcan建立o受SNP调控的基因表达和性状的关系
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

meta分析、生信分析

meta、生信交流群综合科研交流群