当前位置:首页 > BRB-ArrayTools使用手册
重新整理数据。
向导窗口:基因标识
通过各种基因标识列,如Spot Number、Well Number、Clone Number、UniGene Cluster Identifiers、GenBank Accesion Number或Gene Title等与芯片上的点样进行关联。这些标识可以位于表达谱数据旁或者存放在独立的文件中。分析输出中将会有这些标识的超链接。对于Affymetrix数据,用户可以直接通过ArrayTools服务器下载它们的探针组注释。这些注释原本位于NetAffy的站点,经专门格式化后用于ArrayTools。
以下是一个基因标识文件的例子:
注意:如果基因标识位于独立的文件而非表达谱数据文件中,用户必须指定其中哪些基因标识被用来与表达谱文件中的Spot ID(Well ID、Unique ID、Probe Set ID)进行匹配。对于多种芯片使用同一基因标识文件的情况,每种芯片的标识必须位于同一标识文件而非分开的文件中。
向导窗口:实验描述
为了使分析实验来得更加便利,用户有必要在整理数据前准备一份实验描述文件。如果用户没有事先准备,也可以选择让ArrayTools创建一个模板。
以下是一个实验描述文件的例子:
除了第一行之外,其余每行代表数据集中的一个实验。第一列应为各个实验的名称。
注意:对于“独立文件”格式,实验名应为文件名减去“.xls”或“.txt”。对于“合并文件”,
- 17 -
实验名字的排列顺序必须与表达谱数据文件中的一致。
注意:实验描述文件应准确包含那些将要被整理的实验数据(即不能包括额外的实验或缺少了一些)。对于多芯片设计的情况,每行应代表了使用同一样本的一组芯片,而非一行对应一张芯片。
接下的每列包含一个用来标识目的/区分反转染色芯片/用来进行预测分析/标识重复实验/匹配成对实验/或用来指定聚类基因时的绘图顺序的描述变量。用户可按需设置任意多的描述变量,但是各变量间不能含有空列。 如果数据集含有反转染色的实验,则必须勾选确认框,然后指定实验描述文件中哪一列标识了翻转染色芯片。此时,对数比值会以log(green/red)的方式而非原先log(red/green)进行计算。
特殊数据格式
ArrayTools可以整理Affymetrix的两种特殊格式数据,还有来自NCI mAdb数据库的打包数据和GenePix的数据。对于这些格式,ArrayTools提供了快捷的“特殊格式”对话框,允许用户绕过数据输入向导中的某些繁琐细节。
Affymetrix数据可通过MAS4.0/5.0在探针组的水平以tab分隔的文本文件形式输入(即信号强度和探测认定来自于CHP数据),或直接以CEL原始文件的格式导入。所有这些数据都可使用ArrayTools的特殊格式对话框导入。但是CEL格式只能以单一芯片设计的类型进行导入。如果探针组水平的表达谱数据已经过其它软件如:Bioconductor或的dChip处理,则仍然使用数据输入向导进行导入。
使用CHP文本文件格式导入Affymetrix数据
使用菜单栏中的ArrayTools->Import data->Affymetrix GeneChips->Probeset-level data导入经过MAS4.0/5.0处理的数据。该数据须以之前所述的“合并文件”或“独立文件”格式存放。
单一芯片设计
单一芯片设计是指所有芯片具有相同的种类格式,包含同样的探针组。如果数据以“合并文件”方式导入,则必须有一张拥有全部实验数据的“核心表”。该表以Tab分隔的文本文件格式存放。
如果数据以“独立文件”方式导入,那么这些文件应位于一个不含其它内容的专用目录内。这些文件可以在首列之上包含各种各样的混杂内容,但格式必须相同。每个文件对应一张芯片,文件名(去掉“.xls”、“.txt”)后应与工作簿中的实验名一致。 在以下所有的格式中,“Probe Set Name”、“Signal”和“Detection”是MAS5.0数据的必需列,而“Probe Set Name”、“Avg Diff”和“Abs_Call”则是MAS4.0数据的必需列。其它列均可选。
ArrayTools会自动识别MAS4.0/5.0的数据格式。然而,用户若是编辑了数据列和列名则必须按照以下格式,以便ArrayTools识别。如果格式不符,则ArrayTools无法自动解析数据文件。那样的话,用户只能通过使用“合并文件”或“独立文件”对话框(单芯片设计)或“多芯片设计”对话框来整理数据。 “合并文件”中的表达谱数据格式:
1、表达谱数据来自MAS5.0的核心表格:
- 18 -
2、表达谱数据来自MAS4.0表格:
对以上两种格式,工作簿中会以Exp1和Exp2作为实验名的前缀,但请不要使用下列符号 “\\ / : * ? “ < > | .”等在Windows系统中具有特殊意义的符号。“Probe Set Name”列亦可简称为“Probe Name”。对每个实验来说,“detection(Abs_Call)”列应在信号值列(Avg Diff)右侧。
“独立文件”中的表达谱数据格式: 1、表达谱数据来自MAS5.0表格:
2、表达谱数据来自MAS4.0表格:
3、除此之外,来自NCBI接口的数据也可被识别:
4、还有mAdb数据:
基因注释文件:
基因注释文件并非必备。如果用户除了描述列之外还有探针组注释列,请把他们存放为一个单独的Tab分隔的文本文件,并使用以下列标识。对于多芯片设计的情况,请把所有芯片种类的芯片注释放置在同一个文件中。
- 19 -
实验描述文件:
详见“实验描述”一节。略。
多芯片设计
表达谱数据文件: 详见“多芯片设计”一节。略。 基因注释文件: 前已述及,略。
实验描述文件: 详见“实验描述”一节。
整理来自文本文件或二进制CEL文件的Affymetrix数据
对于Affymetrix数据,ArrayTools现在也可以接收CEL文件格式。然而,用户目前只能导入单芯片设计的CEL文件。3.6版本的ArrayTools现在可以使用MAS5.0、RMA、almostRMA和GC-RMA来计算探针组值。这些功能使用Bioconductor的相关包来读取和计算CEL文件。
Bioconductor (http://www.bioconductor.org/)是一项使用R语言进行基因组数据计算的开源&可扩展软件计划。
MAS5.0方法使用Bioconductor“simpleaffy”软件包中的justRMA函数进行计算。该算法详细情况见Affymetrix的“Statistical Algorithes Reference Guide” http://www.affymetrix.com和Hubbell et al. (2002) Robust Estimators for expression analysis. Bioinformatics 18(12) 1585-1592)。
RMA方法使用“affy”软件包进行计算,可归结三步:在PM(Perfect Match)数据上使用背景校正、分位数标准化和使用Tukey的中位数光滑算法进行探针组归纳。参考文献:RA Irizarry, et.al. \of Affymetrix GeneChip probe level data” Nucleic Acids Research, 2003, vol.31, No.4。
如果CEL文件少于100个,ArrayTools会使用RMA方法计算探针组归纳。RMA选项使用所有芯片进行标准化和探针组归纳。对于大于等于100个CEL文件的情况,ArrayTools使用消耗内存更经济的almostRMA方法。该方法随机抽取一个100张芯片的子集来决定适用于整个数据集的分位数标准化和探针效应模型。此外,从子集中获得的模型会被储存在项目文件夹下的子目录“almostRMA”中(参考文献:Darlene Goldstein Bioinformatics 22:2364,2006)。
GC-RMA方法使用Bioconductor的“gcrma”软件包进行计算。gc-rma方法会调整Affymetrix数据中的背景强度值,包括光学噪声和非特异性结合。该函数使用与RMA相同的标准化和归纳方法把调整后的探针值转化为表达量。
要导入Affymetrix数据,首先把CEL文件放置在一个独立的文件夹,并保证其中所有的芯片类型相同。然后,使用菜单栏中的ArrayTools->Import data->Affymetrix
- 20 -
共分享92篇相关文档