我正在研究2600+基因组,希望研究不同群体的基因组、基因和基因间的特征。如果分类组只有很少的代表,就没有问题。在分类组具有多个基因组的情况下,我应该在什么基础上删除相似的基因组,以便从每个分类组中只获得几个代表。我是否应该使用lenght或GC%或其他特征来删除基因组-例如,如果两个基因组的GC%变异小于1%,我将删除它。类似这样的事情。请建议接受的方式,并友好地解释原因以及。
Example:
I have around 60 genomes of Mycobacterium sps
More than 20 are of M. tuberculosis alone which have
尝试使用Seq和SeqIO对象在BioPython中读取包含基因组序列的文件。无法使用“打开”命令。程序应该接受一个命令行参数,其中包含包含输入基因组的FASTA文件的名称。
它生成了文件,但文件中没有任何内容。不知道我错过了什么?
这就是我所拥有的:
from Bio.Seq import Seq
from Bio import SeqIO
from Bio.SeqRecord import SeqRecord
from Bio.Alphabet import I
你好,
我试图编写一个程序,它读取一个包含多个DNA序列的FASTA格式文件,识别一个序列中所有重复的4-mers (即所有多次发生的4-mers ),并打印出重复的4-mer和在其中找到它的序列的头。k-mer只是一个k核苷酸序列(例如“aaca”、“gacg”和“tttt”是4-mers).
这是我的密码:
use strict;
use warnings;
my $count = -1;
my $file = "sequences.fa";
my $seq = '';
my @header = ();
my @sequences = ();
my $li
我正在为遗传算法/神经进化写一个库。目前,该程序使用多态性允许多种类型的基因组。所以我的代码是这样的:
class Genome { // Interface
// Some abstract functions
}
class SpecificGenome : public Genome {
// implementation
public:
int do_something(int x); // Specific behavior, which only this SpecificGenome has
}
class Population {
publi
我有这个基因组( DNAStringSet ),需要将每个基因组作为一个单独的FASTA文件放在一个目录中,但它们仍然是length=1的名称。每个文件的名称被连接在一个向量( StringSets )中,因为它们太多了。我创建了这个循环: n <- seq_len(length(names))
for(i in 1:n){
for(j in seq_len(length(names))){
writeXStringSet(genomes[i],names[j])
}
} 并返回以下内容: Warning message:
In 1:n : numerical expres
我试图在一个类似于这样的文件中替换头部:
中华蜜蜂 NC_037638.1 DH4连锁群LG1 Amel_HAv3.1全基因组猎枪序列
文件(Bee.fasta)有几个头部(每个序列一个),标题如下所示:
蜜蜂 NC_037638.1 DH4连锁群LG1 Amel_HAv3.1全基因组猎枪序列
我想把它们变成这样:
LG1
*LG1 is just an example, depending on the line of the file it can be LG1, LG2, LG3, ...
上面的代码每次迭代只更改第一个标头,而后一个头则保持不变。
(预先谢谢:)
我试图用以下代码替
我是新来的,我有一个组装基因组,我读了字符串集
x <- readDNAStringSet("GCA_000146045.2_R64_genomic.fna", format = "fasta")
然后我得到了这个
A DNAStringSet instance of length 16
width seq enter code here names
[1] 230218 CCACACCACACCC