如何在unlist(lapply(mydata，function(x) {x$getElementText()}))后保持取值的原始格式 - 腾讯云开发者社区

文章/答案/技术大牛

发布

如何查找符合标准的投稿目标

(x) { x$getElementText() } ) %>% unlist() %>% trans_journal_names...(x) { x$getElementText() } ) %>% unlist() %>% trans_journal_names...lapply( remDr$findElements("class", "hostUnit"), function(x) { x$getElementText...将搜索过程和整理过程分开的好处在于之后可以任意调整所需要输出的数据格式，不需要再次获取数据本身。..., function(x) { unlist(strsplit(x, "："))[2] }), lapply(hostunit_list, function(x)

1.3K2 0

用R进行文本分析初探——以《红楼梦》为例

/李白诗集.scel","libai") 安装好后，输入同样的代码，结果如下 ?...4.分词+统计词频 words=unlist(lapply(X=res, FUN=segmentCN))#unlist将list类型的数据，转化为vector#lapply()返回一个长度与X一致的列表...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word))#table统计数据的频数结果v的部分截图如下，可以看出此时已经统计好词频了...(lapply(X=res, FUN=segmentCN)) #unlist将list类型的数据，转化为vector #lapply()返回一个长度与X一致的列表，每个元素为FUN计算出的结果，且分别对应到...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word)) #table统计数据的频数 # 降序排序 v=rev(sort(v))

2.1K5 0

您找到你想要的搜索结果了吗？

是的

没有找到

用R进行文本分析初探——包含导入词库和和导入李白语句

/李白诗集.scel","libai") 安装好后，输入同样的代码，结果如下 ?...4.分词+统计词频 words=unlist(lapply(X=res, FUN=segmentCN)) #unlist将list类型的数据，转化为vector #lapply()返回一个长度与X一致的列表...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word)) #table统计数据的频数结果v的部分截图如下，可以看出此时已经统计好词频了...(lapply(X=res, FUN=segmentCN)) #unlist将list类型的数据，转化为vector #lapply()返回一个长度与X一致的列表，每个元素为FUN计算出的结果，且分别对应到...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word)) #table统计数据的频数 # 降序排序 v=rev(sort(v))

2.7K5 0

R语言︱list用法、批量读取、写出数据时的用法

提取某List某指标方法一：先编写一个提取list子集的函数： subdatefunction(x){ x$DATE } 复制代码然后用lapply或者sapply sapply...（需要自己编写循环）参考于：http://bbs.pinggu.org/thread-3410181-1-1.html 方法三：提取长度大于某程度的list x[lapply(x, length)>...100] 用lapply计算每个x的长度。...—————————— unlist与list的区别 unlist(x)生成一个包含x所有元素的向量。...方法弊端：弊端就是循环语句的弊端，导入的原始数据每个sheet都需要相同的数据结构。

18.4K5 2

单细胞数据分析中scran包进行细胞周期分析时细胞周期marker基因的转换

(df$first, function(x){ first[first$ENSEMBL == x,2][1] }) %>% unlist() df$second lapply...(df$second, function(x){ second[second$ENSEMBL == x,2][1] }) %>% unlist() return(df) })...<- names(hs.pairs)[1] htrs lapply(names(hs.pairs), function(x){ df x]] first function(x){ first[first$ENSEMBL == x,2][1] }) %>% unlist() df$second lapply...(df$second, function(x){ second[second$ENSEMBL == x,2][1] }) %>% unlist() return(df) })

1.2K3 0

R语言︱数据分组统计函数族——apply族用法与心得

=list apply 都需要数据框格式，可以与list合用，返回仍是list list用法 sapply=simplify apply=unlist(lapply) 都需要数据框格式，可以与list合用..., ...) lapply Apply a Function over a List or Vector对列表或者向量使用函数 lapply(X, FUN, ...) sapply Apply a Function...lapply的使用格式为： lapply(X, FUN, ...) lapply的返回值是和一个和X有相同的长度的list对象，这个list对象中的每个元素是将函数FUN应用到X的每一个元素。...同时，lapply（x,fun），这个x的格式很重要，如果灌入的是list，在使用的时候，其实是先把x[[1]]，之后然后放入fun之中。也就是说，先拨开的list，然后再灌入。...例如： a=function(x)[ x=names(x) x[x=="a"] } lapply(y,a) 从这段代码大致可以了解到，lapply精髓在输入与输出。

4.1K3 0

IF10+空转文献复现（二）：空转聚类结果与空转切片结合

2531 1

R语言利用vcf文件计算等位基因频率和连锁不平衡（LD）R方

library(compiler) calcLD function(x,pa,ht,p){ nx) ht_int lapply(ht,as.integer...) R2 <- list() if(is.list(p)){ biv unlist(lapply(ht,function(x){length(levels(x))}))...==2) if(length(biv) > 0){ pb unlist(lapply(p[biv],function(x){return(x[1])})) pab...unlist(lapply(ht_int[biv],function(y,x,n){sum(x==1 & y==1)/n},x=as.integer(x),n=n)) D <- pab...gt.list[[1]],p[[1]],gt.list[[3]],p[[3]]) gt.list 的格式 p的数据格式以上是本期推文的内容一个R语言的零散知识点：pivot_longer()函数把多列的数据转换成长格式

8860 0

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

unlist(lapply(1:1000,function(z) predict(logit\[z\],nnd))} 我们现在对任何新的观察都有一个预测 vv = outer(vu,vu,(function...部分保持不变。...而对于汇总部分，只需取预测概率的平均值即可 p = function(x){ unlist(lapply(1:1000,function(z) predict(L_tree\[z\],newdata...for(s in 1:1000){ idx = sample(1:n, size=n, replace=TRUE) L_tree\[s\] = rpart(y~x1+x2, } unlist...(lapply(1:1000,function(z) predict(L_tree\[\[z\]\]) outer(vu,vu,Vectorize(function(x,y) mean(p(c(x,y)

3432 0

手把手教你处理illumina beadchip芯片数据

下载GenomeStudio导出的数据 GenomeStudio是处理illumina原始芯片的软件，在数据库中提供了该批数据的导出结果该文件的内容如下每一行为一个探针，每个样本用两列表示，第一列是...进行pvalue 的校正计算荧光信号强度与检测p值的相关性，代码如下 > x unlist(lapply(1:sample_cnt, function(t){ + res x[[t * 2 - 1]], x[[t * 2]], method...为了使整体保持一致，将占比较少的正相关样本的p值，改为1-P, 代码如下 > # 校正p值 > for(t in which(spearman_cor > 0.9)) { + x[[t * 2]...] x[[t * 2]] + } > # 校正后重新查看相关系数的分布 > spearman_cor unlist(lapply(1:sample_cnt, function(t){

1.9K3 0

生信编程直播课程优秀学员作业展示1

(data_item){ # 该函数用于apply执行 # 输入的数据为仅含原始数据第1列和第10列的dataframe # 用apply函数执行后输出的数据为每个基因外显子的坐标， # 一个基因的所有外显子以逗号分隔组成一个...string，所有基因的string组成一个vector # 用apply函数执行后，最后格式为c('111-112, 115-135, 125-138', '254-258',...)...exon function(exon){ # 输入的数据为lapply(c('111-112','115...exon 的输出结果为列表}get_length function(exon){ # 输入的数据为lapply...exon_i lapply(get_exon(gene_i), get_length) mat unlist(exon_i), ncol=3, byrow = T) #mat

1.2K6 0

GWAS实战教程之制作PLINK格式的文件（下）

在上期推送中，我带领大家制作了表型文件和.map文件，今天我们学习一下如何制作.ped文件，关于.ped文件的信息请参见往期内容GWAS实战之制作PLINK格式的文件（上）。...<- markerID # 给新数据添加列名 mygeno <- as.data.frame(mygeno) mygeno[1:5,1:5] ##这里新建一个列表，用于存储基因型数据，便于后续使用lapply...(genoList,function(x){unlist(strsplit(x,""))[seq(1,2*dim(mygeno)[1],2)]}) # 循环切割基因型数据 A1 unlist(A1),byrow=F, ncol=ncol(mygeno))) # 将切割好的第一个等位基因变成数据框（要按列排） A2 lapply(genoList,function...(x){unlist(strsplit(x,""))[seq(2,2*dim(mygeno)[1],2)]}) # 同上 A2 unlist(A2),byrow

1K1 0

V5版seurat读取不同格式单细胞数据

使用Seurat的v5来读取多个10x的单细胞转录组矩阵使用Seurat的v5来读取多个不是10x标准文件的单细胞项目不同格式单细胞多数据读取方法读取数据进行分析之前，我们需要安装加载需要的R包，...如果是10X标准格式的多个数据，那我们使用Read10X()函数将多个数据读取进来，再创建seurat对象即可 ##10X标准格式 #单个样品的数据V4和V5读取进来没有太大差异 #置顶 samples...head(sce.all@meta.data) h5格式 h5格式其实也有对应的函数Read10X_h5()可以直接读取，但是Read10X_h5使用循环读取多个数据文件，会返回一个list，需要手动整合一下.../GSE159115_RAW/' samples=list.files( dir ) samples #读取h5格式文件 sceList = lapply(samples,function(pro)...参考推文：使用Seurat的v5来读取多个不是10x标准文件的单细胞项目 txt.gz格式 dir='.

6.4K2 4

【R干货】电影《王的盛宴》豆瓣短评浅析（含全部实现程序）

问题背景《王的盛宴》上映后，网络评论呈现两极化趋势,而负责该片宣传方则认为这其中暗藏“水军”搅局，为了挽回口碑，雇佣水军在豆瓣刷分。双方水军对战如何，只有获取到原始数据才能一探究竟。...f_cut function(x) { library(Rwordseg) unlist(strsplit(segmentCN(x, nature = T), ” “)) } word_cut...function(x, n = 1) { x x) x[nchar(x) > n] } comment.words lapply(...# 去掉words词汇量为0的文本 cw.len unlist(lapply(words, length)) #8354 short2 0, ] rating...(gp_words, function(x) { names(x) <- NULL x }) gp_words_s lapply(gp_words_s, unique

1.2K5 0

PRIMUS，一个专门针对肿瘤单细胞转录组数据整合的算法

(lapply(allbatch, function(x){ cgCells = allCells[meta$batch == x] cg=sample(cgCells,300,replace...作为输入，runPrimus需要原始计数矩阵（matrix）、指定样本标签的邻接矩阵和每个细胞的大小系数。...1，0.8 的结果也很高了 Z = sapply(seq.int(ncol(Ct)), function(i) primus_centroid(A = fit$X %*% D[, i, drop...(lapply(allbatch, function(x){ cgCells = allCells[meta$batch == x] cg=sample(cgCells,100,replace...(seq.int(5),function(x) { set.seed(x*1234) lapply(seq.int(20),function(x){ runPrimus(

9031 0

生信技能树 R习题 1-10

：预测结果是TRUE | FALSE 的二分类方法：1.构造数据集 2.glm函数建模 3.predict预测#首先有原始数据mydata#mydata中作为因子的变量要使用factor函数转化为因子...mylogit mydata, family = "binomial")summary(mylogit)#mylogit即是成功建立的模型...[order(dat[,1],dat[,2]),] #得到先按照dat的第一列，再按照dat的第二轮进行排序的数据框求集合的交、并、补A的并集...org unlist...(lapply(gs[[1]]$GENE,function(x) strsplit(x,';')[[1]][1]))genes[1:length(genes)%%2 ==0]9.

2571 0

关键问题答疑：WGCNA的输入矩阵到底是什么格式

请问用tcga做wgcna分析，原始数据输入tpm和fpkm格式都行吗？如果下的raw_count有r包转换吗？...，只需要基因的表达量是适合计算相关性的即可，如果是原始 counts值，可以直接转为 log(cpm+1) 的格式，更为重要的其实是挑选多少个基因进入后续的wgcna流程。...以及我们的基因被WGCNA算法分成了不同模块后，哪些是有生物学意义的，跟表型相关性。接着什么样的程序一定要tpm和fpkm格式呢？...g_l = lapply(split(t1,t1$geneid),function(x){ # x=split(t1,t1$geneid)[[1]] head(x) tmp=apply...(x,1,function(y){ y[2]:y[3] }) length(unique(unlist(tmp))) # sum(x[,4]) }) head

3.9K4 1

用V5版本Seurat做单细胞数据文献复现

紫外线照射皮肤的单细胞 RNA 序列分析揭示了与光照相关的炎症和维生素 D 的保护作用。本研究通过单细胞测序对紫外线照射后的小鼠皮肤进行了研究。...观察到紫外线照射后的小鼠皮肤主要诱发成纤维细胞炎症，并显示出不同的基因表达。...height = h) }) lapply(markers_list, function(x){ # x=markers_list[1] genes_to_check = lapply...genes_to_check = lapply(genes_to_check, function(x) x[!...(genes_to_check)))[table(unlist(genes_to_check))>1] genes_to_check = lapply(genes_to_check, function

4.1K1 1

十步搞定单因素方差分析

看过我TCGA肿瘤数据库知识图谱的小伙伴都只是如何在任意癌症查询指定感兴趣基因的表达量，并且对样本进行分组比较，网站是：https://xenabrowser.net/heatmap/ 悄咪咪的上线了TCGA...第1步：计算各组内样本均值 lapply(split(df,df$sample_type),function(x) mean(x$CUL5)) 第2步：计算所有样本均值 mean(df$CUL5 ) 第...3步：计算各组内部误差平方和 tmp=lapply(split(df,df$sample_type),function(x) sum((x$CUL5-mean(x$CUL5))^2) ) sse = sum...(unlist(tmp)) 第4步：计算各组间误差平方和 tmp=lapply(split(df,df$sample_type),function(x) nrow(x)*(mean(x$CUL5) -...mean(df$CUL5 ))^2 ) ssb = sum(unlist(tmp)) 第5步：计算各组内部均方误 mse=sse/(nrow(df)-length(unique(df$sample_type

1.2K5 0

如何批量给自己的文件重命名

OK，自己想要的最终命名格式为：把每个文件之前加上年份区间，而且保证每个文件的对应年份准确无误，这样子： ? 把文件下载网站中的注释文件复制下载下来，其长这样： ?...tmp,] tmp$`Data File` unlist(lapply(str_split(tmp$`Data File`,' '), function(x)x[[1]][1])) ##把文件夹下以...XPT后缀的文件全部读取进来 xpt <- as.data.frame(list.files('.','.XPT')) colnames(xpt) <- 'names' 处理后tmp文件就长这样了： ?...xpt读进来处理后成这样： ? 好办，通过xpt[,2]和tmp[,'Data File']列进行匹配，以确定自己是否全部文件已经下载完成。...mainNames unlist(lapply(str_split(xpt[,1],'\\.'), function(x)x[1])) xpt

2.2K2 0

点击加载更多

如何查找符合标准的投稿目标

用R进行文本分析初探——以《红楼梦》为例

用R进行文本分析初探——包含导入词库和和导入李白语句

R语言︱list用法、批量读取、写出数据时的用法

单细胞数据分析中scran包进行细胞周期分析时细胞周期marker基因的转换

R语言︱数据分组统计函数族——apply族用法与心得

IF10+空转文献复现（二）：空转聚类结果与空转切片结合

R语言利用vcf文件计算等位基因频率和连锁不平衡（LD）R方

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

手把手教你处理illumina beadchip芯片数据

生信编程直播课程优秀学员作业展示1

GWAS实战教程之制作PLINK格式的文件（下）

V5版seurat读取不同格式单细胞数据

【R干货】电影《王的盛宴》豆瓣短评浅析（含全部实现程序）

PRIMUS，一个专门针对肿瘤单细胞转录组数据整合的算法

生信技能树 R习题 1-10

关键问题答疑：WGCNA的输入矩阵到底是什么格式

用V5版本Seurat做单细胞数据文献复现

十步搞定单因素方差分析

如何批量给自己的文件重命名

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐