(x) { x$getElementText() } ) %>% unlist() %>% trans_journal_names...(x) { x$getElementText() } ) %>% unlist() %>% trans_journal_names...lapply( remDr$findElements("class", "hostUnit"), function(x) { x$getElementText...将搜索过程和整理过程分开的好处在于之后可以任意调整所需要输出的数据格式,不需要再次获取数据本身。..., function(x) { unlist(strsplit(x, ":"))[2] }), lapply(hostunit_list, function(x)
/李白诗集.scel","libai") 安装好后,输入同样的代码,结果如下 ?...4.分词+统计词频 words=unlist(lapply(X=res, FUN=segmentCN))#unlist将list类型的数据,转化为vector#lapply()返回一个长度与X一致的列表...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word))#table统计数据的频数 结果v的部分截图如下,可以看出此时已经统计好词频了...(lapply(X=res, FUN=segmentCN)) #unlist将list类型的数据,转化为vector #lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word)) #table统计数据的频数 # 降序排序 v=rev(sort(v))
/李白诗集.scel","libai") 安装好后,输入同样的代码,结果如下 ?...4.分词+统计词频 words=unlist(lapply(X=res, FUN=segmentCN)) #unlist将list类型的数据,转化为vector #lapply()返回一个长度与X一致的列表...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word)) #table统计数据的频数 结果v的部分截图如下,可以看出此时已经统计好词频了...(lapply(X=res, FUN=segmentCN)) #unlist将list类型的数据,转化为vector #lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word)) #table统计数据的频数 # 降序排序 v=rev(sort(v))
提取某List某指标 方法一: 先编写一个提取list子集的函数: subdatefunction(x){ x$DATE } 复制代码 然后用lapply或者sapply sapply...(需要自己编写循环) 参考于:http://bbs.pinggu.org/thread-3410181-1-1.html 方法三:提取长度大于某程度的list x[lapply(x, length)>...100] 用lapply计算每个x的长度。...—————————— unlist与list的区别 unlist(x)生成一个包含x所有元素的向量。...方法弊端:弊端就是循环语句的弊端,导入的原始数据每个sheet都需要相同的数据结构。
(df$first, function(x){ first[first$ENSEMBL == x,2][1] }) %>% unlist() df$second lapply...(df$second, function(x){ second[second$ENSEMBL == x,2][1] }) %>% unlist() return(df) })...<- names(hs.pairs)[1] htrs lapply(names(hs.pairs), function(x){ df x]] first function(x){ first[first$ENSEMBL == x,2][1] }) %>% unlist() df$second lapply...(df$second, function(x){ second[second$ENSEMBL == x,2][1] }) %>% unlist() return(df) })
=list apply 都需要数据框格式,可以与list合用,返回仍是list list用法 sapply=simplify apply=unlist(lapply) 都需要数据框格式,可以与list合用..., ...) lapply Apply a Function over a List or Vector对列表或者向量使用函数 lapply(X, FUN, ...) sapply Apply a Function...lapply的使用格式为: lapply(X, FUN, ...) lapply的返回值是和一个和X有相同的长度的list对象, 这个list对象中的每个元素是将函数FUN应用到X的每一个元素。...同时,lapply(x,fun),这个x的格式很重要,如果灌入的是list,在使用的时候,其实是先把x[[1]],之后然后放入fun之中。也就是说,先拨开的list,然后再灌入。...例如: a=function(x)[ x=names(x) x[x=="a"] } lapply(y,a) 从这段代码大致可以了解到,lapply精髓在输入与输出。
肺上皮细胞、卵巢癌细胞 COL3A1 COL3A1编码III型胶原蛋白,是细胞外基质的重要组成部分,有助于可伸展结缔组织(如肺、皮肤和血管系统)中纤维化的进展。...= as.numeric(unlist(lapply(tmp1, function(x){strsplit(x,"x")[[1]][1]}))) y = as.numeric(unlist(lapply...= as.numeric(unlist(lapply(tmp1, function(x){strsplit(x,"x")[[1]][1]}))) y = as.numeric(unlist(lapply...= as.numeric(unlist(lapply(tmp1, function(x){strsplit(x,"x")[[1]][1]}))) y = as.numeric(unlist(lapply...= as.numeric(unlist(lapply(tmp1, function(x){strsplit(x,"x")[[1]][1]}))) y = as.numeric(unlist(lapply
library(compiler) calcLD function(x,pa,ht,p){ nx) ht_int lapply(ht,as.integer...) R2 <- list() if(is.list(p)){ biv unlist(lapply(ht,function(x){length(levels(x))}))...==2) if(length(biv) > 0){ pb unlist(lapply(p[biv],function(x){return(x[1])})) pab...unlist(lapply(ht_int[biv],function(y,x,n){sum(x==1 & y==1)/n},x=as.integer(x),n=n)) D <- pab...gt.list[[1]],p[[1]],gt.list[[3]],p[[3]]) gt.list 的格式 p的数据格式 以上是本期推文的内容 一个R语言的零散知识点:pivot_longer()函数把多列的数据转换成长格式
unlist(lapply(1:1000,function(z) predict(logit\[z\],nnd))} 我们现在对任何新的观察都有一个预测 vv = outer(vu,vu,(function...部分保持不变。...而对于汇总部分,只需取预测概率的平均值即可 p = function(x){ unlist(lapply(1:1000,function(z) predict(L_tree\[z\],newdata...for(s in 1:1000){ idx = sample(1:n, size=n, replace=TRUE) L_tree\[s\] = rpart(y~x1+x2, } unlist...(lapply(1:1000,function(z) predict(L_tree\[\[z\]\]) outer(vu,vu,Vectorize(function(x,y) mean(p(c(x,y)
下载GenomeStudio导出的数据 GenomeStudio是处理illumina原始芯片的软件,在数据库中提供了该批数据的导出结果 该文件的内容如下 每一行为一个探针,每个样本用两列表示,第一列是...进行pvalue 的校正 计算荧光信号强度与检测p值的相关性,代码如下 > x unlist(lapply(1:sample_cnt, function(t){ + res x[[t * 2 - 1]], x[[t * 2]], method...为了使整体保持一致,将占比较少的正相关样本的p值,改为1-P, 代码如下 > # 校正p值 > for(t in which(spearman_cor > 0.9)) { + x[[t * 2]...] x[[t * 2]] + } > # 校正后重新查看相关系数的分布 > spearman_cor unlist(lapply(1:sample_cnt, function(t){
(data_item){ # 该函数用于apply执行 # 输入的数据为仅含原始数据第1列和第10列的dataframe # 用apply函数执行后输出的数据为每个基因外显子的坐标, # 一个基因的所有外显子以逗号分隔组成一个...string,所有基因的string组成一个vector # 用apply函数执行后,最后格式为c('111-112, 115-135, 125-138', '254-258',...)...exon function(exon){ # 输入的数据为lapply(c('111-112','115...exon 的输出结果为列表}get_length function(exon){ # 输入的数据为lapply...exon_i lapply(get_exon(gene_i), get_length) mat unlist(exon_i), ncol=3, byrow = T) #mat
在上期推送中,我带领大家制作了表型文件和.map文件,今天我们学习一下如何制作.ped文件,关于.ped文件的信息请参见往期内容GWAS实战之制作PLINK格式的文件(上)。...<- markerID # 给新数据添加列名 mygeno <- as.data.frame(mygeno) mygeno[1:5,1:5] ##这里新建一个列表,用于存储基因型数据,便于后续使用lapply...(genoList,function(x){unlist(strsplit(x,""))[seq(1,2*dim(mygeno)[1],2)]}) # 循环切割基因型数据 A1 unlist(A1),byrow=F, ncol=ncol(mygeno))) # 将切割好的第一个等位基因变成数据框(要按列排) A2 lapply(genoList,function...(x){unlist(strsplit(x,""))[seq(2,2*dim(mygeno)[1],2)]}) # 同上 A2 unlist(A2),byrow
使用Seurat的v5来读取多个10x的单细胞转录组矩阵 使用Seurat的v5来读取多个不是10x标准文件的单细胞项目 不同格式单细胞多数据读取方法 读取数据进行分析之前,我们需要安装加载需要的R包,...如果是10X标准格式的多个数据,那我们使用Read10X()函数将多个数据读取进来,再创建seurat对象即可 ##10X标准格式 #单个样品的数据V4和V5读取进来没有太大差异 #置顶 samples...head(sce.all@meta.data) h5格式 h5格式其实也有对应的函数Read10X_h5()可以直接读取,但是Read10X_h5使用循环读取多个数据文件,会返回一个list,需要手动整合一下.../GSE159115_RAW/' samples=list.files( dir ) samples #读取h5格式文件 sceList = lapply(samples,function(pro)...参考推文:使用Seurat的v5来读取多个不是10x标准文件的单细胞项目 txt.gz格式 dir='.
问题背景 《王的盛宴》上映后,网络评论呈现两极化趋势,而负责该片宣传方则认为这其中暗藏“水军”搅局,为了挽回口碑,雇佣水军在豆瓣刷分。双方水军对战如何,只有获取到原始数据才能一探究竟。...f_cut function(x) { library(Rwordseg) unlist(strsplit(segmentCN(x, nature = T), ” “)) } word_cut...function(x, n = 1) { x x) x[nchar(x) > n] } comment.words lapply(...# 去掉words词汇量为0的文本 cw.len unlist(lapply(words, length)) #8354 short2 0, ] rating...(gp_words, function(x) { names(x) <- NULL x }) gp_words_s lapply(gp_words_s, unique
(lapply(allbatch, function(x){ cgCells = allCells[meta$batch == x] cg=sample(cgCells,300,replace...作为输入,runPrimus需要原始计数矩阵(matrix)、指定样本标签的邻接矩阵和每个细胞的大小系数。...1,0.8 的结果 也很高了 Z = sapply(seq.int(ncol(Ct)), function(i) primus_centroid(A = fit$X %*% D[, i, drop...(lapply(allbatch, function(x){ cgCells = allCells[meta$batch == x] cg=sample(cgCells,100,replace...(seq.int(5),function(x) { set.seed(x*1234) lapply(seq.int(20),function(x){ runPrimus(
:预测结果是TRUE | FALSE 的二分类方法:1.构造数据集 2.glm函数建模 3.predict预测#首先有原始数据mydata#mydata中作为因子的变量要使用factor函数转化为因子...mylogit mydata, family = "binomial")summary(mylogit)#mylogit即是成功建立的模型...[order(dat[,1],dat[,2]),] #得到先按照dat的第一列,再按照dat的第二轮进行排序的数据框求集合的交、并、补A的并集...org unlist...(lapply(gs[[1]]$GENE,function(x) strsplit(x,';')[[1]][1]))genes[1:length(genes)%%2 ==0]9.
请问用tcga做wgcna分析,原始数据输入tpm和fpkm格式都行吗? 如果下的raw_count有r包转换吗?...,只需要基因的表达量是适合计算相关性的即可,如果是 原始 counts值,可以直接转为 log(cpm+1) 的格式 ,更为重要的其实是挑选多少个基因进入后续的wgcna流程。...以及我们的基因被WGCNA算法分成了不同模块后,哪些是有生物学意义的,跟表型相关性。 接着什么样的程序一定要tpm和fpkm格式呢?...g_l = lapply(split(t1,t1$geneid),function(x){ # x=split(t1,t1$geneid)[[1]] head(x) tmp=apply...(x,1,function(y){ y[2]:y[3] }) length(unique(unlist(tmp))) # sum(x[,4]) }) head
紫外线照射皮肤的单细胞 RNA 序列分析揭示了与光照相关的炎症和维生素 D 的保护作用 。 本研究通过单细胞测序对紫外线照射后的小鼠皮肤进行了研究。...观察到紫外线照射后的小鼠皮肤主要诱发成纤维细胞炎症,并显示出不同的基因表达。...height = h) }) lapply(markers_list, function(x){ # x=markers_list[1] genes_to_check = lapply...genes_to_check = lapply(genes_to_check, function(x) x[!...(genes_to_check)))[table(unlist(genes_to_check))>1] genes_to_check = lapply(genes_to_check, function
看过我TCGA肿瘤数据库知识图谱的小伙伴都只是如何在任意癌症查询指定感兴趣基因的表达量,并且对样本进行分组比较,网站是:https://xenabrowser.net/heatmap/ 悄咪咪的上线了TCGA...第1步:计算各组内样本均值 lapply(split(df,df$sample_type),function(x) mean(x$CUL5)) 第2步:计算所有样本均值 mean(df$CUL5 ) 第...3步:计算各组内部误差平方和 tmp=lapply(split(df,df$sample_type),function(x) sum((x$CUL5-mean(x$CUL5))^2) ) sse = sum...(unlist(tmp)) 第4步:计算各组间误差平方和 tmp=lapply(split(df,df$sample_type),function(x) nrow(x)*(mean(x$CUL5) -...mean(df$CUL5 ))^2 ) ssb = sum(unlist(tmp)) 第5步:计算各组内部均方误 mse=sse/(nrow(df)-length(unique(df$sample_type
OK,自己想要的最终命名格式为:把每个文件之前加上年份区间,而且保证每个文件的对应年份准确无 误,这样子: ? 把文件下载网站中的注释文件复制下载下来,其长这样: ?...tmp,] tmp$`Data File` unlist(lapply(str_split(tmp$`Data File`,' '), function(x)x[[1]][1])) ##把文件夹下以...XPT后缀的文件全部读取进来 xpt <- as.data.frame(list.files('.','.XPT')) colnames(xpt) <- 'names' 处理后tmp文件就长这样了: ?...xpt读进来处理后成这样: ? 好办,通过xpt[,2]和tmp[,'Data File']列进行匹配,以确定自己是否全部文件已经下载完成。...mainNames unlist(lapply(str_split(xpt[,1],'\\.'), function(x)x[1])) xpt