启动序列(生物化学启动序列)

NGS基础——GTF/GFF文件格式的解读与转换本文有读者留言提取外显子、内含子、启动子、基因组、非编码区、编码区、TSS上游1500、TSS下游500的序列。让我们演示如何提取这些序列。

NGS基金会-参考基因组和基因注释文件提到了如何下载相应的基因组序列和基因注释文件。

如果我们已经拿到了基因组序列文件GRCh38.fa和基因注释文件GRCh38.gtf,也可以从正文后面的链接中获取。

查看下文件内容和格式

序列文件为FASTA格式,查看命令和内容如下(测试文件,只有1条染色体):

#检查前10行,检查每行的前40个字符。# FASTA序列一般比较长,是常用的检查第一部分字符的方式。headgrch 38 . fa | cut-C1-40 >:chr 20 nnn nnn nnn nnn nnn nnn基因注释文件是GTF格式的,并且只有前六列信息可用(第三列包含不同的元素注释)

cut-f 1-6 grch 38 . GTF | head chr 20 ensembl _ Havana基因87250 97094 .chr20 havana转录本87250 97094 .chr20 havana外显子87250 87359 .chr20 havana外显子96005 97094 . chr 20 en ssembl _ Havana转录本87710 96533 .chr20 ensembl_havana外显子87767 .CHR20Ensemble _ Havana外显子96005 96533。哈瓦那CDS 96005 96414。这里使用的是安装和解压工具gff read(https://github.com/gpertea/gffread),安装方法如下(如果不明白,可以参考这个为信仰学习而创建的开源Linux教程的美味软件安装部分):

git clone https://github.com/gpertea/gffreadcd GFFREADMAKE RELEASE提取的转录本序列、CDS和蛋白质序列gffread -h可以参考所有可用的参数,如果有特殊情况需要考虑,需要和其他参数配合使用。

1、获得转录序列

GFREAD GRCH38。GTF-G GRCH38。FA-W GRCH38。成绩单。FA内容如下:

head grch 38 . transcripts . fa & gt;enst 00000608838 acaggaattcatatcagggggtgatcactcagaagaaaaggttgtaagctattgaactgccacaagtgattctttacacaccattctgctgtcattgggtaggtagctttgaaccccaaaaaaatgttgaaaaatgtgagatgacatgagatgatgatgatgatgatgatgatgatgatgatgatgatgatgatattagtacttagattctttttttgaatcatcgaactccgacgaccaccattgtgtgttcactcgag获得CDS序列

#获取CDS序列GFF READ GRCH38。GTF-GGRCH38。FA-XGRCH38。光盘。法。内容如下

head grch 38 . CDs . fa & gt;enst 00000382410 atgaatatcctgattgaccttcatttactgtgggtgtgtgtgtgaaaaggttagctttgaaccccaaaaatgtgttggaataatatgtaggatactgaaaggcagacgagagatgtttagatactgaaaggttac tacttttttgtaggaacaagctatcatgtgccattttatcattttatacattagatgtgacgaccagcatttctgtgatttgtgattagattatgtggactcttttactttactggttccccagenst 00000382398 atgaagcccctactgttcacccttgcagttttttttttgctctggccaatggtccagtaattggtatg 3。获得蛋白质序列

#获得的蛋白质序列GFF读数为GRCH38。GTF-G GRCH38。FA-Y GRCH38。蛋白质。FA如下

head grch 38 . protein . fa & gt;enst 00000382410 nimltfiiicglltrvtkgsfepqkcwknnvghcrrrcldteryillcrnklsccisiiysheytrrpafpvihleditldysdvdsftgspvsmlndlitfdttkfgetmtpetntpettmppseattpettmpstatsetmpppsqtalthn & gt;enst 00000382398 mksllftlavfmllaqlvsgnwyvkkclndvgickkkckckpeemhvkngwamcgkqrdcccvpadrranypvfcvqtkttristvttattttmttasmssmaptpvsptg & gt;enst 00000382388 mglfmiiailfqkptvteqkkcwnyvqghkicrv neverpealengcclnikeleack KITTP prkptallqdyvtienfpslktqst分析此GTF的GTF文件的结构。对于基因元素,基因符号在第14列。

head-n 1 grch 38 . GTF | sed & # 39;s/& # 34;/\ t/g & # 39;| tr & # 39\ t & # 39'\ n & # 39| sed = | sed & # 39n;s/\ n/\ t/& # 39;1 chr 202 ensembl _ Havana 3 gene 4 872505 970946 . 7+8 . 9 gene _ id 10 ensg 0000017859111;基因_版本12 613;gene _ name 14 DEFB12515gene _ source 16 ensembl _ havana17基因_生物型18蛋白_编码19;对于这个GTF,对于转录物元素,基因符号在第18列。

sed-n & # 39;2p & # 39grch 38 . GTF | sed & # 39;s/& # 34;/\ t/g & # 39;| tr & # 39\ t & # 39'\ n & # 39| sed = | sed & # 39n;s/\ n/\ t/& # 39;1 chr202 havana3转录子4 872505 970946 . 7+8 . 9 gene _ id 10 ensg 0000017859111;基因_版本12 613;抄本_ id 14 ENST0000060883815抄本_ 16版117;gene _ name 18 DEFB12519gene _ source 20 ensembl _ havana21基因_生物型22蛋白_编码23;抄本_名称24 defb 125-20225;抄本_来源26 havana27转录本_生物型28加工_转录本29;成绩单_支持_水平30 231;检查信息位于哪一列是检查文件结构和提取相应信息的常用方法,这被简化为一个脚本checkCol.sh

检查文件的指定行(默认为第一行)

check col . sh-f grch 38 . gt f1 chr 202 ensembl _ Havana 3 gene 4 872505 970946 . 7+8 . 9 gene _ id & # 34;ENSG00000178591 & # 34;基因_版本& # 34;6";gene _ name & # 34DEFB125 & # 34;基因_来源& # 34;哈瓦那恩森布尔& # 34;;基因_生物型& # 34;蛋白质编码& # 34;;检查标准输入的第一行。

sed & # 39s/& # 34;/\ t/g & # 39;grch 38 . GTF | check col . sh-f-1 chr 202 ensembl _ Havana 3 gene 4 872505 970946 . 7+8 . 9 gene _ id 10 ensg 0000017859111;基因_版本12 613;gene _ name 14 DEFB12515gene _ source 16 ensembl _ havana17基因_生物型18蛋白_编码19;为了提取基因启动子序列,首先,确定启动子区域,其中转录起始位点上游1000 bp和下游500 bp被定义为启动子区域。

sed & # 39s/& # 34;/\ t/g & # 39;grch 38 . GTF | awk & # 39;BEGIN { OFS = FS = & # 34;\ t & # 34} { if($ 3 = = & # 34;吉恩& # 34;){ if($ 7 = = & # 34;+"){ start = $ 4-1000;end = $ 4+500;} else { if($ 7 = = & # 34;-")start = $ 5-500;end = $ 5+1000;} if(start & lt;0)start = 0;打印,开始,结束,,,$ 7;}}'& gtGRCh38.promoter.bed的启动子区域如下(该bed文件也可用于ChIP-seq型数据分析,以确定峰是否在启动子区域)

head grch 38 . promoter . bed chr 20 86250 87750 defb 125 ensg 00000178591+chr 20 141369 142869 defb 126 ensg 00000125788+chr 20 156470 157970 defb 127 ensg 0000008 8782+chr 20 189181 190681 defb 128 ensg 00000官方提供编译好的二进制文件,可以下载使用。

# -name:输出基因的名称(bed文件的第四列)# -s:兼顾正负链(对于启动子区,是否考虑链的信息关系不太大)。床上工具GET FASTA-name-s-fig rch 38 . fa-bedgrch 38 . promoter . BED >:grch 38 . promoter . fa的序列信息如下:

head grch 38 . promoter . fa | cut-c 1-60 & gt;defb 125::chr 20:86250-87750(+)atatttgaagtgagtaatgattccttctagttttgttctttttttttgcttaggatggctt & gt;defb 126::chr 20:141369-142869(+)aatattcagagaatgccaaaaaagctacaagaacaaaaatagcaggtcagtcgttgcctgg & gt;defb 127::chr 20:156470-157970(+)atatccgtcacctcaacatttatttatttgtgtgggaacattcaaattccttcttcta & gt;defb 128::chr 20:189181-190681(-)aaaaaaaaaaaaaaaaaaaactcaagtctaataagaaccagagagcacctgcctttatgggtctgca & gt;def 129::CHR 20:226258-227758(+)gagtggaaggagggagggagggagagaaaaaaaaataatggacatctaggcttaa如果不想要坐标信息,可以简化序列名称。

cut-d & # 39;:'-f1 grch 38 . promoter . fa & gt;grch 38 . promoter . simple name . fa head grch 38 . promoter . simple name . fa | cut-c 1-60 & gt;defb 125 ataatttgaagtgagggtaatgattccttctagttttgttctttttttgcttaggatggctt & gt;defb 126 aatatttcaagagaatgccaagaagctacaagaacaaatagcaggtcagtcgttgcctgg & gt;defb 127 atatccgtcacctcaacatttatttatttgtgggaacattcaaatctcttcttcta & gt;defb 128 aaaaaaaaaaaaaaaaaactcaagtctaataaccagaacctgcctttatgggtctgca & gt;def 129 gagtgaaggggagggagggagggaggaggaaaaaaaaaaaaaatgcactaggcttaa提取基因序列的操作与提取启动子序列的操作类似。这里注意,GFF文件的序列位置是从1开始的,而bed文件的位置是从0开始的,是前闭后开,所以要对序列的起始位置进行-1操作。

type = & # 34吉恩& # 34;sed & # 39s/& # 34;/\ t/g & # 39;grch 38 . GTF | awk-v type = & # 34;$ { type } & # 34'BEGIN { OFS = FS = & # 34;\ t & # 34} { if $ 3 = = type){ print $ 1,-1,,,& # 34;。",}}'& gtgrch 38 . gene . bed head grch 38 . gene . bed chr 20 87249 97094 defb 125。+chr20 142368 145751 DEFB126。+chr20 157469 159163 DEFB127。+chr20 187852 189681 DEFB1 28。-CHR20 227257 229886 DEFB 129。+CHR20 257735 261096 DEFB 132。+提取基因序列

bed tools getfasta-name-s-fi grch 38 . fa-bed grch 38 . gene . bed & gt;GRCh38.gene.fa#查看序列head grch 38 . gene . fa | cut-C1-60 >:defb 125::chr 20:87249-97094(+)acaggaattcatatcgggtgatcactcagaaaaaggtgaataccggatgttgtaagc & gt;defb 126::chr 20:142368-145751(+)gccatacttcagcagagtttgcaaccttctttctaagtctttatcctcccccaaggc & gt;defb 127::chr 20:157469-159163(+)ctcttgaggaaggtagcataggtgcagttcactggaccaaagctttgtgctgcaccttt & gt;def 128::CHR 20:187852-189681(-)ggcacacagaccagatggaagttgctgctttcttttttgggaatgtaaatat提取的非编码RNA序列在GTF文件中用转录本类型进行注释,包括以下注释类型

nti sense _ rnalicnmirnamisc _ RNA Processed _ pseudo gene Processed _ transcript protein _ codingrnascarnasense _ intronicsense _ overlappingsnornasnrnate transcripte D _ Processed _ pseudo gene transcripted _ Unitary _ pseudo gene transcripted _ Unprocessed _ pseudo gene Unprocessed _ pseudo gene

grep & # 39抄本_生物型& # 34;林肯纳& # 34;'grch 38 . GTF & gt;grch 38 . Linc RNA . gtfgffread grch 38 . Linc RNA . GTF-g grch 38 . fa-w grch 38 . Linc RNA . fa head grch 38 . Linc RNA . fa | cut-c 1-60 & gt;enst 00000608495 gtcgcacgcgcgctggccaaacgggcgcaccagacacttttcagggcgtcccaagacacaaagaagagatccagccagccaagcaactcacacagatacagatacagacagaacaggaacagaattcctgaactcattactccattacttaccattaccgaccgatcaaccaattaaaaaaaagtaatgtgtgtgggagggcggagaggagggggggggggggggggggaggttgaaaaaaaaaatta

type = & # 34外显子& # 34;sed & # 39s/& # 34;/\ t/g & # 39;grch 38 . GTF | awk-v type = & # 34;$ { type } & # 34'BEGIN { OFS = FS = & # 34;\ t & # 34} { if $ 3 = = type){ print $ 1,-1,,,,$ 7 } } & # 39;& gtGRCh38.exon.bed#检查文件内容head grch 38 . exor . bed chr 20 87249 87359 enst 0000608838 DEFB 125+chr 20 96004 97094 enst 000608838 DEFB 125+chr 20 87709 87767 enst 0000382410 DEFB 125+chr 20 96004 97

# -name:输出基因的名称(bed文件的第四列)# -s:兼顾正负链(对于启动子区,是否考虑链的信息关系不太大)。BED工具GET FASTA-name-s-fig rch 38 . fa-bedgrch 38 . exon . BED >:grch 38 . exon . fa #查看序列信息head grch 38 . exon . fa | cut-C1-60 >:enst 00000608838::chr 20:87249-87359(+)acaggaattcatatcggtgatcactcagaaaggtgaataccggatgttgtaagc & gt;enst 00000608838::chr 20:96004-97094(+)gtagctttgaaccaaaaaaatgttggaataatgtagcacattgcagacgatgtt & gt;enst 00000382410::chr 20:87709-87767(+)ATGAATATCCTGATGCTGACCTTCATTATCTGTGGGTTGCTAACTCGGGTGACCAAAG & gt;enst 00000382410::chr 20:96004-96533(+)gtagctttgaccaaatggaagaatatagacattgcaagacgatgtt提取一个内含子序列确定内含子区域。

sed & # 39s/& # 34;/\ t/g & # 39;grch 38 . GTF | awk & # 39;BEGIN { OFS = FS = & # 34;\ t & # 34;oldtr = & # 34";} { if($ 3 = = & # 34;外显子& # 34;){ tr = $ 14如果(oldtr!= tr){ start = $ 5;oldtr = tr} else {print ,start,-1,tr,,$ 7;start = $ 5;} } }'& gtGRCh38.intron.bed#检查文件内容head grch 38 . intron . bed chr 20 87359 96000608838 defb 125+chr 20 87767 96004 enst 0000382410 defb 125+chr 20 142686 145414 enst 0000382398 defb 126+chr 20 142610

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/232667.html

发表回复

登录后才能评论