生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

基因芯片小知识(二)

生信草堂

将会与更多的优秀微信公众号合作,把更优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!

号外,号外,号外

你想和生信分析大神做好朋友么?

你想认识更多爱好生信分析的小伙伴么?

你想让自己的生信分析走上快车道么?

那就赶快加入我们的生信交流微信群吧!

正确加入我们的模式是:

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群

在群里请大家注明自己本名,单位,研究领域

便于小编管理

freescience联盟 

由高校、医院FS公众号和科研技能公众号等百家单位联合创建的科研交流分享平台;联盟的宗旨:“公正至上,自由分享,平等共赢”。欢迎您的关注,让我们共同学习进步。戳这里Freescience联盟公众号原文,请多关注哦~

分类比较分析

分类比较分析主要是比较两组或多组的已知样本类型的芯片实验,来寻找出与条件相关的特异性基因或显著差异表达的基因(differentially expressed genes, DEGs)。

分类比较中有两个因素至关重要:样本配对和对重复实验取均值。如果欲比较的实验样本是配对的,那么必须选择配对t-检验。

举例来说,如果实验是在每个病人的原发性癌症组织和转移后癌症组织上进行的,那么配对t-检验更为合适且能够提高分析的统计学效力。

如果在某些RNA样本进行了多次技术重复,那么该分析必须从那批技术重复中选择一个用来分析或使用均值。

当然对于重复实验芯片取均值最严谨的方法是通过使用散点图观察各技术重复实验间的相关情况,从而剔除质量较差的实验芯片,再而使用均值。

分类比较分析中每组至少两个样本每组至少两个样本,否则无法计算P值。

 

1. 二分类比较分析


t检验可用于两个生物条件下多个样本的差异表达基因的筛选。当t达到根据可信度选择的标准时,比较的两组样本被认为存在差异。实验资料是配对的,那么选择配对t检验。三分类及以上的比较分析就是把F-检验应用与以上所述的二分类比较分析。这种针对一个基因的单变量分析就是经典统计学上的均值差异比较,适用于正态分布,方差齐性的连续性资料。

 

2. 统计学校正


由于芯片包含了成千上万的基因,那么对每个基因采用单变量分析会产生较多的假阳性。

举例来说,假设我们设定0.001为显著性标准。如果芯片包含8000个基因,那么我们得到的差异基因列表中有8个会属于假阳性。如果列表含80个基因,那么其中就有十分之一的基因为假阳性。如果我们获得了一张24个差异基因的列表,那么就会有大约三分之一的基因为假阳性。

如此之多的假阳性基因会给解释和实验验证带来极大的麻烦。但如果显著性标准设置的太低,可能会筛选不到差异基因和产生较多的假阴性错误,即实际差异表达的基因被错误地认为没有差异表达。

所以需要对p值采用多重检验校正来解决这问题。一般有两种方式,一种是单变量置换校正,第二种是多元置换校正。

单变量置换检验在每个基因上单独进行,Benjami&Hochberg方法被用于这种估计。

Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值. 假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。

实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%。设总共有m个候选基因,每个基因对应的p值从小到大排列分别是p(1),p(2),…,p(m),则若想控制FDR不能超过q,则只需找到最大的正整数i,使得 p(i)<= (i*q)/m 。然后,挑选对应p(1),p(2),…,p(i)的基因做为差异表达基因,这样就能从统计学上保证FDR不超过q。

估计的FDR=m*pi/i 其中pi 是第i个基因的单变量置换检验p值,m是所有待检验的基因数。单变量置换检验除了Benjami&Hochberg方法还有其他更为严格的校正方法,例如Bonferroni correction,Bonferroni Step-down (Holm) correction和Westfall and Young。

当每个分类的样本数较小时,多元置换检验比单变量置换检验更有效率,因为对于小样本很难进行足够的随机置换从而给出p值为0.001之类的严格阈值。

该方法提供了在所发现的基因列表(Discovery List)中控制假阳性(False Discoveries=False Postives)基因的个数和占所发现基因比例的能力。例如可以指定在90%的置信度下得到的基因列表中假阳性占5%以下的基因。

多元置换检验的算法与SAM(Statistical Analysis of Microarrays)方法类似,而后者对假阳性个数和比例进行了更严格的概率控制。

Significance Analysis of Microarrays (SAM)是由斯坦福大学Tucher 等人开发出来用于识别基因芯片中显著差异基因的算法工具 (http://www-stat.stanford.edu/~tibs/SAM)。该算法是控制假阳性率的一种方法,FDR在SAM中被定义为假阳性基因个数的中位数除以显著差异基因的个数。

首先计算每个基因的矫正的统计量(对于两类比较使用t检验,多类比较使用F检验),其分母包含一个“标准差修正因子”(Fudge Factor For Standard Deviation)用于稳定基因的特异的标准差估计量。

我们对这些统计量按升序排列(F(1), F(2), …, F(i), …, F(n)),其中n是基因总数。然后我们对分组变量进行随机组合置换,每次计算以上的统计量序列。期望的序列统计量就是每次组合置换的序列统计量的均值。

我们比较真实分组与置换期望的序列统计量,定义F(i*)(Δ)为阈值点,其中i*( Δ) 是真实分组统计量大于期望统计量至少Δ数值的第一个序数i。统计量大于此阈值点的基因被认为是“显著差异基因”。

如果在真实分组认定为“显著”基因在随机置换过程中被评估为假阳性,那么计算整个所有置换中假阳性基因数的中位数。该中位数再乘以一个收缩因子,该收缩因子代表了真实的基因在数据集中的比例。

具体是这样计算的:收缩因子等于真实统计量落入所有基因在置换中的25%~75%区间的个数,再除以基因总数的1/2。如果收缩因子大于1,那么使用1代替。某个Δ值下的FDR就等于假阳性基因个数的中位数乘以收缩因子再除以“显著的”基因数。

在SAM工具中,需设定FDR和列置换的次数,然后会自动搜索Δ的范围并最终给出一个优化Δ。“标准差修正因子”则通过搜索一定范围内的可能值,并最终给出一个最小化的变异系数即修正统计量的中位绝对差值(minimizes the coefficient of variation of the median absolute deviation of the modified F-statistics)。

分类预测分析

预测基因的选择方法

我们通常会设定一个统计显著水平来作为选择预测基因的筛选标准,例如在分类比较分析中选定p小于0.001的显著差异基因作为预测基因。

但分类预测真正的目的并不在于发现差异表达基因,而是寻找特征基因来预测结果,希望得到较少基因来构成分类模型,这样可能会在生物学意义方面更易解释,且在临床上更易应用。

交叉验证是分类预测分析中的基本概念,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类进行训练,再利用验证集来测试训练得到模型(model),以此来作为评价分类模型的性能指标。

例如10折交叉验证(10-fold cross validation),就是将数据集分成十份,轮流将其中9份做训练,1份做验证,10次的结果的均值作为对算法精度的估计。 下期将详细介绍其方法。

由于我们并不知道到底选定一个严格的还是宽松的p值会带来更好的预测结果,所以需要一种在某个显著性水平区间内进行搜索,来确定一个最优的预测基因选择阈值——“可调参数”(Tuning Parameter),使分类模型的交叉验证错判率最小。

我们可以通过这样一个双重循环交叉验证进行:外层循环通过由训练集中分出的一个或多个样本组成的测试集来估计交叉验证错判率,内层循环对“可调参数”进行优化。当然,其中的计算强度相当大。

这种基因选择的方法是基于单个基因在不同分组中差异表达的排名高低。有些分类预测模型提供了多元建模方法来选择基因,但是纳入的标准都是基于基因在单变量检验中的“辨别能力”(Discrimination Ability)。

另外一个选择基因的方法是BoJonassen开发的贪婪配对法方法(Greedy-pair Method)首先根据训练集算出所有基因的单个t值,并进行排序,然后找出当前首位基因gi的配对基因gj,配对标准是:两个基因在对角线判别轴上进行投影时,两组分类的质心距离最大。

这两个基因被选出后,再剩下基因中重复以上过程直到选出基因数达到设定的配对数。该方法以选择配对基因来有效地区分组别,且是一种计算高效的方法。当然必须要设定的基因数(即配对数的两倍)。

还有一种方法叫支持向量机的递归特征消除方法(Support Vector Machine Recursive Feature EliminationSVMRFE)。该方法首先使用支持向量机分类模型根据预测性能对基因来进行排序。

SVM算法是基于基因表达量的加权线性组合来区分组别。选择的线性组合能够最大化区分出难以分类的样本和识别出判别边界或距离。

首先,所有基因的表达值被用于训练SVM分类模型。SVM RFE算法则会去除线性组合中权重绝对值较低的基因,并在剩余基因中继续重建新的SVM分类模型,不断迭代剔除基因直到达到设定保留的基因数目为止。

下期为大家介绍一些分类预测中的标准模型,敬请期待。

FS数据挖掘主编

赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。

查看相关文章

基因芯片小知识(一)

干货|外泌体领域研究及样本处理

名词专题| RNA-seq常见名词解释

最全长链非编码RNA数据库介绍(全)

生物医学大数据解读和分析–使用Cytoscape构建miRNA-mRNA网络

学术手拉手

赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 基因芯片小知识(二)
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

meta分析、生信分析

meta、生信交流群综合科研交流群