我正在编写一段简短的代码(我的第一个python代码)来过滤一个大表。
import sys
gwas_annot = open('gwascatalog.txt').read()
gwas_entry_list = gwas_annot.split('\n')[1:-1]
# paste line if has value
for lines in gwas_entry_list:
entry_notes = lines.split('\t')
source_name = entry_notes[7]
if '
我有一个名为gwas.data的data.frame
SNP A1 A2 EFF FRQ
2353 rs10001803 A G -0.06620391 0.06860
2307 rs10002573 T C -0.03969763 0.78100
504 rs10003143 A C 0.03829721 0.53170
1802 rs1001022 T C 0.08159842 0.96174
461 rs10011564 T C 0.04930432 0.27840
2331 rs10013187 A C -0.
我已经在这段代码上工作了几天,在最后一段中遇到了一个问题。目标是让文件打印出“疾病/特征”在文件中出现的次数。使用计数器,问题是代码只是打印出数组的一列中的所有内容,而不是搜索它的次数。我假设这是计数器一半代码的问题。
#!/usr/bin/perl
use strict;
use warnings;
my %TRAIThash;
my $usrin = "Leoprsy";
my %DISEASEslashTRAIT;
open (my $input, "<", "gwas_catalog_v1.0-downloaded_201
我想我在这里发布了同样的问题:R Programming: Condition giving always TRUE,但我不知道如何将答案应用于我的情况。 下面的if语句在major_allele列中搜索REF的匹配项,反之亦然。问题是,它总是计算为true,如带星号的行所示。上面链接的前一个答案指出,ifelse总是生成一个向量,所以我猜它只会查看第一个观察值,计算结果为true,然后在所有行中执行相同的操作。但是,我希望它逐行进行。下面的new_gwas_a1是从所有行的REF列创建的,但对于带星号的行,它应该为false。 for (i in files){
rsid.tmp <
我想添加一列gwas表,它根据基因的起始和结束位置来指示它是基于哪个基因的。如何在dplyr中做到这一点? > gwas
# A tibble: 1,220,764 x 13
CHROM POS ID REF ALT A1 TEST OBS_CT BETA SE T_STAT P ERRCODE
<int> <int> <chr> <chr> <chr> <chr> <chr> <dbl>
我想使用R中的download.file函数从下载所有gz文件
下面是我使用的代码:
url <- "http://ftp.ebi.ac.uk/pub/databases/gwas/summary_statistics/KettunenJ_27005778_GCST003664/"
## query the url to get all the file names ending in '.gz'
zips <- XML::getHTMLLinks(
url,
xpQuery = "//a/@href['.gz'=s
我对python很陌生,并试图改进这个测试df。我能够应用regex函数在一个单元格中找到一个模式,然后给出在单个列级别上有多少个1的数目。下面是将函数单独应用于列的原始和结果df的映像,以及各个列的代码。下面也是测试df的文本版本(在图像中缺少一行以使其更容易共享/图像与测试df不匹配,但结果相似):
import pandas as pd
df = pd.DataFrame([["1 | | Had a Greeter welcome clients 1 | | Take measures to ensure a safe and organized di
对于熟悉PLINK的人,我在R中有一个大的数据框架(570行200000列),我正在尝试为GWAS分析创建一个PED文件。Plink要求每个缺失字符都编码为零。不缺少的值是"A“、"T”、"C“或"G”。
因此,例如,数据结构在数据框架中是这样的。
COL1 COL2
PT1 A T
PT2 T T
PT3 A A
PT4 A T
PT5 0 0
当从mysqli_fetch_array结果获取列并将其存储在变量中时,我在如何访问特定的表单元格方面遇到了这个问题。
$sql5 = "SELECT e.*, @curRow := @curRow + 1 AS row_number FROM employee e JOIN (SELECT @curRow := 0) r WHERE e.team_team_id = '$team_id' AND (position_pos_id = 3 or position_pos_id = 4 or position_pos_id = 5 or position_pos_
我正在测试如何使用一个计数变量在我的SELECT输出中有一个列,专用于简单地列出行号。因此,如果我在查询中输出了3行,那么它们将被编号为{1,2,3}在他们的“排名”列中,正如我所写的……
此外,我只想选择一行,该行的“秩”列为1。下面的SQL语句工作(确保每次设置@rownum=0 ),但是它没有给出适当的输出。所以寻找rank=1,我得到了秩实际上是2的行,如果我寻找rank=2,那么我得到了真正的3,等等。如果我然后搜索rank=0,我不会得到排名是1令人惊讶的地方。所以我迷路了
SET @rownum=0;
SELECT @rownum := @rownum + 1 AS r
我有一个.vcf文件
column1 = chrom
column2 = pos
column3 = ID
column4 = reference
column5 = Alt
column6 = qual
column7 = filter
column8 = info
column9 = format
column 10 - 99 = 100 columns that have a number of either zero or one
我在档案里读到:
#!/usr/bin/env python
import pandas as pd
vcf=open('/Users/cm