生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

基因芯片小知识(一)

生信草堂

将会与更多的优秀微信公众号合作,把更优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!

号外,号外,号外

你想和生信分析大神做好朋友么?

你想认识更多爱好生信分析的小伙伴么?

你想让自己的生信分析走上快车道么?

那就赶快加入我们的生信交流微信群吧!

正确加入我们的模式是:

添加我们的微信bioinformatics88为好友

标注“加入生信草堂交流群

在群里请大家注明自己本名,单位,研究领域

便于小编管理

freescience联盟 

由高校、医院FS公众号和科研技能公众号等百家单位联合创建的科研交流分享平台;联盟的宗旨:“公正至上,自由分享,平等共赢”。欢迎您的关注,让我们共同学习进步。戳这里Freescience联盟公众号原文,请多关注哦~

基础知识

背景介绍

高通量、全基因组的DNA芯片已经成为生物领域十分有用的工具。然而,芯片实验产生的数据量日益增长,由于不同的分析方法,会得出不同结论,因而分析起着关键作用。

基因芯片分析就是为了通过生物信息学方法从这些芯片数据中发现可能对生物效应起作用的关键基因,从中寻找特定模式并对每个基因给予注释,从而挖掘出隐含的生物学过程并抽提出生物学的或功能层面上的意义。

根据芯片的使用目的,一张芯片可能包含数十、数百甚至数十万的不同序列。被排列成矩阵的DNA片段通常称为探针,而样本RNA则被成为靶标。

基本的芯片实验中,样本mRNA首先被反转录成cDNA(在过程中同时被荧光标记),后与芯片上的核酸探针混合,互补杂交的cDNA就结合到芯片上,而未被杂交的样本被洗脱掉。

芯片被一个荧光扫描仪扫描后,芯片上某个位置探针结合上了样本中互补的核酸,就在该位置显出了一个荧光点,此位置提示基因的身份,而荧光强度则提示了原始样本中该mRNA水平的高低。芯片技术不只用于检测基因表达,也可以用于检测单核苷酸多态性等。

在芯片技术中有两种基本方法:单染色技术和双染色技术。单染色技术是将一个样本经一种荧光标记后单独杂交的一张芯片上,是目前使用最多的方法。将一个样本单独与一张芯片杂交,可以方便简单地在多张芯片之间进行比较。产生的芯片数据为单通道信号数据,这种方法产生的数据变异大,需要通过重复实验来减少误差。

双染色技术是把两个样本用不同荧光标记后一起杂交到同一张芯片上。用于检测两种不同条件下基因表达的差异情况,如疾病组织和正常组织(往往多个正常组织DNA混合在一起,作为”pool“样本);处理组与对照组。两个样本(如处理与对照)被两种不同荧光标记。一个样本的cDNA用Cy5(一种显示为红色染料)标记,另一个样本用Cy3(一种显示为绿色的染料)标记。这两种荧光标记的样本混合后与芯片上的探针竞争杂交。

这样产生的芯片数据为双通道信号数据。这种双通道信号数据便于两样本间的直接比较,有助于减少数据变异性,提高组间差异表达分析的准确性,同时减少了芯片的使用量,节约了成本。但由于使用这种技术已经确定好了实验设计,就无法与其他样本进行比较了。

当前,市场上芯片主要来自三家公司:Affymetric公司、Agilent公司和Illumina公司。

基因芯片分析

软件介绍

基因芯片分析一般对硬件要求不高,普通的计算机就能运行,但如果处理较多的数据量时,建议提高内存,一般拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多,但各有优缺点。根据难易程度推荐以下三款软件和工具。

1. GeneSpring 优点:互动式的视窗操作界面,傻瓜式操作,功能强大,拥有超过4400篇的高水平参考文献的引用,表达谱数据分析的金标准。缺点:商业软件收费,操作繁琐,功能拓展性差。如同SPSS一样,适用于零基础。

2. BRB-Array 优点:基于excel的分析工具,自动调用R包,功能强大,拓展性强,操作简单,免费使用。缺点:专业性强,格式要求高,稍有不符就报错。适用于有一定专业基础。

3. R-Bioconductor 优点:R语言,生信必学的分析工具,强大的统计分析和作图工具,集合了几乎所有最新的分析算法和工具包,免费下载使用。缺点:需要有一定计算机编程能力。

数据下载

一般来说要比较和整合不同实验室和不同实验的数据是比较困难的。因此,科学家成立了一个联盟(MGED学会)来规范化芯片数据的输出和注释,促进数据共享和统一数据库的建立。

指定的标准化规则称为MIAME,权威期刊一般只接受遵循MIAME规则的芯片数据论文。NCBI的GEO和EBI的ArrayExpress是目前最大的公开资源数据库,用于存储和发布与MIAME相容的芯片数据。

数据分析

提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交,经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号,由此获得的图像就是基因芯片的原始数据(raw data),也叫探针水平数据。

获取探针水平的数据是芯片数据处理的第一步,然后需要对其进行预处理(pre-processing),以获得基因表达数据(gene expression data)。基因表达数据通常用矩阵形式表示,称为基因表达矩阵。

基因表达矩阵的每一行代表一个基因的表达量,一列代表一个样本的所有基因的表达情况。

一 

 背景(background)处理

背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后,每个杂交点周围区域各像素吸光度的平均值作为背景。

但此法存在芯片不同区域背景扣减不均匀的缺点,同时会使1%~5%的点产生无意义的负值。也可利用芯片最低信号强度的点(代表非特异性的样本与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景。

Brown等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法,使该问题得到较好的解决,并有效地提高了处理数据的质量。背景处理之后,我们可以将芯片数据以矩阵的格式输出。

数据筛选

经过背景校正后的芯片数据中可能会产生负值,显然负值是没有生物学意义的。数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。另外,对于负值和噪声信号,通常的处理方法就是将其去除。

然而,数据的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影响,所以在进行分析前需要数据筛选。数据筛选的步骤是先筛选点样,然后是数据标准化、截断异常值,最后筛选基因。

1 点样筛选

点样筛选指在单独芯片上对点样进行筛选,主要用于质量控制目的,以去除“坏”点样。与基因筛选不同的是,点样筛选并不会去除整个(行)基因,而只是用以缺失值替换原有值。可以根据信号强度(intensity),点样标志(Spot Flag)和点样大小(Spot size)来进行筛选。

信号强度筛选:一个点样可以被直接剔除,也可以通过设定阈值在分析中剔除。阈值一般设定为正值。

点样标志筛选:筛选可以同时使用数值和字符。可以指定一个数值范围,在此范围之外的值被剔除,或指定一个基因列表来表示要剔除的点。

例如Affymetrix芯片专门对每个表达值进行了打分(A,M,P三类),以允许用户剔除标识为“A”(Absent)的表达值,以剔除含有“A”较多比例的“坏”探针。

2 数据标准化

在芯片实验中,各个芯片的绝对光密度值是不一样的,在比较各个芯片结果之前必需将其归一化(normalization,也称作标准化)。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据即双通道数据,也需归一化。

目前有4个常用的标准化方法:中位数标准化(median normalization)、管家基因标准化(housekeeping gene normalization)、Lowess标准化(lowess normalization)和点样组内标准化(print-tip group normalization)。

前二者适用于单/双通道数据,二后两者只能用于双通道数据。对于单通道数据,必须选择一张参照芯片以使其它芯片进行标准化。双通道数据中每张芯片需进行单独的标准化。

参照芯片一般是一张“中位数”芯片作为参照,选择的方法如下:

1) 设N为实验数,i为1到N中的一个数。

2) 对于每张芯片i,计算其对数信号强度的中位数:Mi。

3) 从{M1,….,MN}中获得其中位数M。如果N是偶数,则M为中间两数中较小的那个。

4) 选中的那个Mi即为参照芯片。

中位数标准化(Median Normalization)对于双通道数据来说,这种标准化方法就是将每张芯片上的对数值减去各自芯片上对数比值的中位数,这样该芯片的对数比值中位数就变成了0。

对于单通道数据,首先在待标准化的芯片与参照芯片上的每个对应基因上计算差值,然后在待标准化的芯片上减去该差值的中位数,以使两者间的总差值为0。

管家基因标准化(HouseKeeping Gene Normalization)选择一组表达水平稳定的管家基因。

对于双通道数据而言,该方法通过把待标准化芯片上的所有对数比值减去该芯片管家基因对数比值的中位数来进行。对于单通道数据,则比较待标准化芯片和参照芯片上管家基因的差值,然后把待标准化芯片上的信号强度减去这一系列差值的中位数。

但目前很难找到理想的看家基因,研究表明,所谓“管家基因”在不同实验条件下其表达水平同样发生着变化。

Lowess标准化(Lowess Normalization)双通道数据还可用Lowess标准化方法(Locally Weighted Scatter plot Smooth:局部加权线性回归)。

对于双通道数据,中位数标准化相当于在所有对数比值上减去一个相同的标准化因子即该芯片上对数比值的中位数,但在某些情况下并不适用,例如由于染色偏差会对低信号强度和高信号强度产生偏差。

在Lowess标准化中,会基于一个非线性的平滑函数观察标准化后芯片的M-A散点图来决定是否有必要进行强度依赖性的标准化。如果散点的分布在Y轴的正负区间大概一致,并且随着X值的变化没有呈现出典型的相关性,则无需进行。

该函数是根据重叠分割在不同X轴区域上的散点而构造的线性回归函数连接而成。待标准化的芯片减去该平滑函数值来进行标准化。

点样组内标准化(Print-tip Group / Sub Grid Normalization)全局化的标准化方法由于受空间效应和非均匀点样给信号强度带来的影响会造成系统偏差。点样组内标准化方法就是考虑上所述的系统偏差对其进行调整。

点样组(Print-tip Group)亦可称为网格(Grid)或亚网格(Sub-grid)。点样组标识数据一般放置在每张芯片的表达谱数据后面。中位数点样组内标准化独立地计算每个点样组内的对数比值的中位数,该中位数当然只适用于点样组内的数据。

举例来说,如果一张芯片由16个点样组构成,则会计算16个标准化因子。同理,Lowess点样组内标准化是把之前所述的Lowess标准化方法应用于点样组内。

3 截断(Truncation)异常值

设置信号强度(单通道数据)或强度比值(双通道数据)的最大允许值。任何大于此阈值的数值会被截断成阈值。对于双通道数据则会出现两种情况(如设定截断值为64,则任何大于64或小于1/64的数值都会被截断)。

截断主要用于双通道情况,因为微小的分母容易使对数比值变得异常巨大。

4 基因筛选

不同于点样筛选,基因筛选并不是对每张芯片重复进行,而是在所有芯片上对某个基因制定一个标准,以决定是否保留需要保留这个基因。基因筛选的目的并不在于去除质量较差的点样,而在于筛除那些信息量较少的基因。主要由最小倍数变化筛选(Minimum fold-change filter),对数表达量方差筛选(Log Expression Variation Filter)和空缺百分比筛选(Percent Missing Filter)三种。

最小倍数变化筛选是将差异性较小的基因可去除。此处筛选的标准基于以下条件:满足表达量在所有芯片上表达量中位数相差指定倍数的基因的个数,占总基因个数的比例。小于上述比例的基因则被筛去。这种筛选并非必要,往往是为了应对内存不足的分析条件下,例如内存要求随基因数迅速增长的聚类分析。

对数表达量方差筛选是剔除方差最小的比例基因,即所有基因的方差会被与方差中位数进行比较,差异并不显著的基因会被筛去。同样这种筛选也非必要,往往为了应对内存不足的情况。

空缺百分比筛选是对单个值的点样筛选后缺失值的最大比例设定阈值,以去除那些包含了太多缺失项而被认为不可靠的基因。一般超过50%就删除整行的基因表达值。

FS数据挖掘主编

赵忻艺,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。

猜你喜欢

温故知新—-精品回顾

名词专题| RNA-seq常见名词解释

生信大数据系列–总结篇

转录组分析之名词专题

精品RNA分析软件| kallisto,卡丽丝多

学术手拉手

赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 基因芯片小知识(一)
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

meta分析、生信分析

meta、生信交流群综合科研交流群