基因表达系列分析(Serial Analysis of Gene Expression,SAGE)技术在理论上来说可以检测到一个细胞内所有转录体的表达,而且可以给每一个转录体定量,不管它是低丰度还是高丰度。SAGE和基因芯片技术一样,具有高通量、平行性检测细胞内基因表达谱的特点。但SAGE可在未知任何基因或EST序列的情况下对靶细胞进行研究,这一点是基因芯片技术所不具备的。
第三阶段是标签序列的提取。标签序列的提取工作可以由SAGEnet提供的SAGE提取软件包(目前为SAGE2000版,可以从http://www.sagenet.org/上免费下载)来完成,也可以使用NCBI (National Center for Biotechnology Information,美国国立卫生院国立生物技术信息中心)提供的高度用户化的UNIX操作系统和C程序(网址是http://www.ncbi.nlm.nih.gov/sage)来完成。两者的基本处理过程都是一样的,主要有6个步骤:1、在双标签多聚体序列中定位NlaIII酶切位点(即CATG);2、提取CATG位点之间的20-26个碱基长的双标签序列;3、去除重复出现的双标签序列,包括在反向互补方向上重复的双标签序列;4、截取每个双标签序列最靠近两头末端的10碱基,即为标签序列;5、去除与接头序列相对应的标签(即TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、C、T、G四种碱基以外的碱基)的标签;6、计算每个标签的出现次数,以列表的形式给出一个包含每个标签及其表达丰度的报告。