求教问题图片InterProScan的本地配置问题

关注今日:25 | 主题:112101
微信扫一扫
求助:使用EBI interproscan做蛋白质功能预测,结果却不会分析
页码直达:
这个帖子发布于6年零7天前,其中的信息可能已发生改变或有所发展。
问题已解决悬赏丁当:2
譬如这IPR001223指的是什么,PF00704又指的什么
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
求助啦~~!
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
我也有同样的疑问啊,帮顶
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
IPR001223是蛋白结构域的ID,PF00704如楼上所说是pfam的ID。另外,可以去看看interproscan database的introduction。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
还是很不明白,不知道图是什么意思,紫色、黄色、红色和灰色分别代表什么?结果应该从哪里分析,最后要得出什么样的结果??谢谢指教~!
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
我也遇到了同样的问题,不知道楼主解决了没有?还望楼主及各位前辈高人赐教
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
图中的颜色我刚在一本生物信息学书中看到了,举个例子,那个红色的结构域,就是在SMART网站分析的,看到下面有个小方块SMART也是红色的,这个 interproscan网站就是整合了这么些网站进行一起分析的
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
请问一下是怎么使用EMI 的interproscan的,linux系统可以吗?结果是xml格式的吗?求助!
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园InterProScan-学术百科-知网空间
InterProScan
InterProScan
与"InterProScan"相关的文献前10条
目的在Linux系统下构建基于web页面的生物信息学分析平台。方法以BLAST、InterProScan、Jemboss3个功能模块,分别执行核酸、蛋白质数据库相似性检索、蛋白结
随着后基因组时代的到来,批量的测序,特别是EST的测序,逐渐成为普通实验室的日常工作. 这些新的序列往往需要进行批量的Gene Ontology (GO)的注释及随后的统计分析.
目的:认识细菌黏附素序列保守的特征,更好地理解细菌黏附的机理。方法:利用InterProScan、MEME等分析工具对实验确认的155条细菌黏附素序列进行模体搜索。结果:用Int
【目的】识别细菌外毒素序列中特有模体,进一步理解外毒素的致病机制。【方法】构建非致病性细菌蛋白质数据库,利用InterProScan对数据库中非致病菌蛋白质序列以及收集的经实验确
调用motif数据库、profile数据库和interproscan数据库,对中蜂王浆蛋白MRJP5进行了序列同源性分析和功能位点分析。结果表明:MRJP5是分泌蛋白,理论等电点
【目的】克隆条锈菌诱导的小麦过敏性反应(Hypersensitive induced reaction,HIR)基因TaHIR4,分析其编码蛋白的结构、进化与功能。【方法】采用电
利用旋毛虫新生幼虫期特异性基因N5cDNA作为探针,对旋毛虫新生幼虫cDNA文库进行筛选,并将阳性克隆全部送测序公司测序。对测序结果进行序列分析后,根据信号肽不同分为15种基因。
目的:利用生物信息学方法对香蕉中Maasr1基因的理化性质、结构与功能进行预测,为其基因功能的研究提供线索,为下一步的实验策略提供参考。方法:用Protparam分析Maasr1
[目的]克隆油桐种子FADX基因全长cDNA。对该基因作生物信息学分析,为进一步研究该基因的功能提供参考。[方法]以未成熟的油桐种子为材料,利用改良TRIzoL法提取总RNA,并
目的验证新基因NYGGF4在肥胖患儿脂肪组织中的表达,初步探讨NYGGF4的生物信息学特征。方法采用反转录聚合酶链反应(RT-PCR)技术验证肥胖与健康儿童脂肪组织中NYGGF4
"InterProScan"的相关词
快捷付款方式
订购知网充值卡
<font color="#0-819-9993
<font color="#0-
<font color="#0-【T】每日一生信--interproscan安装及使用(终结版)
本博文已整理到新地址:/interproscan-installation-and-usage/
Interpro是一个数据库,它里面有蛋白功能,蛋白家族等信息。而Interproscan就是可以将你的蛋白序列跟这个这个数据比对,从而给你的序列功能注释。
Interproscan5新增了一些功能
用来预测跨膜和信号肽
可以把结果map到上传的数据上
寻找蛋白可能的生物学代谢途径
新的输出格式XML和GFF3.0
提升了图形界面的
配置要求:至少2
cores and 4 GB of RAM,
这样才能同时分析5
- 10 sequences .
Linux, 32 bit or 64 bit (64 bit recommended).
(default on most Linux distributions)
Oracle's Java JDK/JRE version 6u4 and higher (which also
includes Java 7)
Environment variables set
JAVA_HOME should point to the location of the JVM
$JAVA_HOME/bin should be added to the CLASSPATH
查看我的配置:
sam@sam-Precision-WorkStation-T7500[sam] uname
-a&&&&&&&&&&&&&&&&&&&&
Linux sam-Precision-WorkStation-T.0-42-generic
#65~precise1-Ubuntu SMP Wed Oct 2 20:57:18 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux
其中x86_64代表64
Bit,如果是686代表的是32
sam@sam-Precision-WorkStation-T7500[sam] java -version&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&[
java version "1.7.0_45"
Java(TM) SE Runtime Environment (build
1.7.0_45-b18)
Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed
现在仅仅支持&version1.6
(这里是建议用Oracle&
,如果你的是OpenJDK。可以根据我之前的博客中安装java:
sam@sam-Precision-WorkStation-T7500[sam] perl -version&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&[
This is perl 5, version 14, subversion 2 (v5.14.2) built
for x86_64-linux-gnu-thread-multi
(with 56 registered patches, see perl -V for more
因为之前各种安装软件,所以这些软件我现在都是已经安装好了的。
安装interproscan5
1获得InterProScan
software core(针对我的64位机)
my_interproscan
cd my_interproscan
wget ://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.2-45.0/interproscan-5.2-45.0-64-bit.tar.gz
wget ://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.2-45.0/interproscan-5.2-45.0-64-bit.tar.gz.md5
Recommended checksum to confirm the download was
successful:
interproscan-5.2-45.0-64-bit.tar.gz.md5
# Must return
*interproscan-5.2-45.0-64-bit.tar.gz: OK*#
If not - try downloading the file again as it may be a corrupted
因为文件比较大,所以用md5值检验了下载是否完整。4.8G啊
p = preserve the file permissions
x = extract files from an archive
v = verbosely list the files processed
z = filter the archive through gzip
f = use archive file
下载Panther Models到刚解压缩的文件的子目录/data下面
cd [InterProScan5 home]/data/
ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-8.1.tar.gz.md5
这个文件大小大概为12 GB,下载结束后需要检查一下MD5
md5sum -c panther-data-8.1.tar.gz.md5
出现# This must return *panther-data-8.1.tar.gz:
OK*证明下载的没问题,否则重新下载
tar -pxvzf panther-data-8.1.tar.gz
如果想把这个放在其他的文件的话,可以修改[InterProScan5
home]/interproscan.properties
文件,改下面的东西
panther.models.dir.8.1=PATH_TO/panther/8.1/model
使用Pre-calculated Match Lookup
pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列.
InterProScan 5使用这个服务器能够加速本地服务器的速度。这是这个版本的特低昂要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk
to use it.
如果你的电脑防火墙阻止访问这个网站,你课以下载本地化的InterProScan 5 lookup
service()或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp
或者修改interproscan.properties
在前面加一个#注释掉即可
precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup
如何使用interproscan
&goterms &iprlookup &pa -f xml
可以运行其提供的例子: ./interproscan.sh -i test_proteins.fasta
会得到tsv格式的结果,里面包含了很多数据库Gene3d,
PIRSF,PRINTS,PANTHER,SUPERFAMILY,PFAM,TIGERFAM等比对的结果。
如果运行不了,请参考该网页提供的问题解决方案:
Cd& /interproscan
可以直接在终端输入,你会看到用法信息
单独分析,没有这个的话,所有的结果都将呈现&&
指定数据库,可以不加数据库的版本&
./interproscan.sh -appl PfamA -i
/path/to/sequences.fasta
If you wish to specifically run two or more analyses you
can include multiple -appl arguments:
也可以指定多个数据库
./interproscan.sh -appl PfamA-27.0 -appl PRINTS-42.0 -i
/path/to/sequences.fasta
or you can use a single -appl option with a
comma-separated list of analyses:
或者可以通过,把多个数据放在一起。
./interproscan.sh -appl PfamA,PRINTS -i
/path/to/sequences.fasta
A list of all available analyses is in the section
"Included Analyses"
base output filename指定生成文件路径,跟-o效果一样,如果不加,默认的名字和路径。自动往生成文件名加指定文件后缀。
output directory,
跟-b ,-o互斥,
关闭precalculated match lookup
service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。
输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and
SVG。蛋白默认的格式为
核酸的格式之前为GFF3
和XML,现在都可以了哦。
./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta
-b /path/to/output_file
./interproscan.sh -f XML, HTML -i /path/to/sequences.fasta -b
/path/to/output_file
集中输出格式的区别:
输入的为fasta格式文件。
-goterms开启GO注释,但前面要加上-iprlookup参数
-iprlookup开启interpro注释
最小核酸ORF的大小,如果设置的小的话,花的时间会长。
跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f
开启可能的代谢注释
默认的临时文件在/tmp,这个是可以设置临时文件的位置
输入序列的类型。默认的是蛋白,
可以为dna或者为rna
涉及到的数据库:
可以直接用的。
TIGRFAM-XX.X : TIGRFAMs
基于隐马尔可夫模型的蛋白家族库
ProDom-XXXX.X: ProDom
是由UniProt Knowledge Database自动生成的蛋白域家族。
Panther-X.X : The PANTHER (Protein
ANalysis THrough Evolutionary Relationships)是一个独立的根据功能来分类平台,使用已公布的实验证据和进化关系来预测没有直接实验证据的基因的功能,
SMART-X.X : SMART
可以用来鉴别和分析基于隐马尔可夫模型的域构架&&&&&&&
PrositeProfiles-XX.XX : PROSITE
包含描述蛋白域,家族,功能位点和关系的入口文件,用来&&&&&&&&&
区别这些蛋白的编号。
PrositePatterns-XX.X.XX :同上
SuperFamily-X.XX :
SUPERFAMILY可以给核酸和蛋白做功能和结果注释的数据库。&&&&&&&&&&&&&&&&&
PRINTS-XX.X : A fingerprint是一个保守的模型用来描述蛋白家族。&&&&&&&&&&&&&&&&
Gene3d-X.X.X :通过使用
CATH域结构数据库来对全基因和基因组进行结构分析
PIRSF-X.XX : The PIRSF是用来但做一个指导把UniProtKB序列进行无重叠和深度分类,来反映他们进化关系&&&&&&&&&&&&&&&&&&
PfamA-XX.X :
一大类蛋白家族,每一个代表对序列比对和隐马尔可夫的结果。
HAMAP-XXXXXX.XX : High-quality Automated
and Manual Annotation of Microbial Proteomes高质量自动注释和手工注释微生物的蛋白组
Coils-X.X :对蛋白组卷曲螺旋区域的预测
无效的分析:
SignalP-GRAM_NEGATIVE-X.X : Analysis
SignalP-GRAM_NEGATIVE-X.X is deactivated, because the following
parameters are not set in the interproscan.properties file:
binary.signalp.X.X.path
SignalP-GRAM_POSITIVE-X.X : Analysis
SignalP-GRAM_POSITIVE-X.X is deactivated, because the following
parameters are not set in the interproscan.properties file:
binary.signalp.X.X.path
SignalP-EUK-X.X : Analysis
SignalP-EUK-X.X is deactivated, because the following parameters
are not set in the interproscan.properties file:
binary.signalp.X.X.path
&Phobius-X.XX : Analysis Phobius-X.XX is
deactivated, because the following parameters are not set in the
interproscan.properties file:
binary.phobius.pl.path.X.XX
TMHMM-X.Xc : Analysis TMHMM-X.Xc is deactivated, because
the following parameters are not set in the interproscan.properties
file: binary.tmhmm.path
核酸序列的扫描
&Emboss getorf.是内嵌在interproscan中的基因预测的软件,如果你想本地安装这个软件的话,必须修改interproscan.sh
# set environment variables for getorf
export EMBOSS_ACDROOT=bin/nucleotide
export EMBOSS_DATA=bin/nucleotide
如果输入的是核酸序列,在运行命令的时候需要加入-t这个参数
./interproscan.sh -t n -i
/path/to/nucleic_acid_sequences.fasta
可以将xml转化为其他的格式,注意哦,仅仅是转化xml格式
./interproscan.sh -mode convert -f tsv,gff3,svg -i
/path/to/impact.xml -o /path/to/output_file_basename
参考资料:
ps:没什么要说的,他们这个官网的介绍真新详细,这是目前我唯一从头看到尾的一份说明说,翻译理解水平有限,查证的话可以看官网的说明。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 求教问题图片 的文章

 

随机推荐