首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    用R进行文本分析初探——包含导入词库和和导入李白语句

    /李白诗集.scel","libai") 安装好后,输入同样的代码,结果如下 ?...4.分词+统计词频 words=unlist(lapply(X=res, FUN=segmentCN)) #unlist将list类型的数据,转化为vector #lapply()返回一个长度与X一致的列表...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word)) #table统计数据的频数 结果v的部分截图如下,可以看出此时已经统计好词频了...(lapply(X=res, FUN=segmentCN)) #unlist将list类型的数据,转化为vector #lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到...word=lapply(X=words, FUN=strsplit, " ") v=table(unlist(word)) #table统计数据的频数 # 降序排序 v=rev(sort(v))

    2.7K50

    R语言︱数据分组统计函数族——apply族用法与心得

    =list apply 都需要数据框格式,可以与list合用,返回仍是list list用法 sapply=simplify apply=unlist(lapply) 都需要数据框格式,可以与list合用..., ...) lapply Apply a Function over a List or Vector对列表或者向量使用函数 lapply(X, FUN, ...) sapply Apply a Function...lapply的使用格式为: lapply(X, FUN, ...) lapply的返回值是和一个和X有相同的长度的list对象, 这个list对象中的每个元素是将函数FUN应用到X的每一个元素。...同时,lapply(x,fun),这个x的格式很重要,如果灌入的是list,在使用的时候,其实是先把x[[1]],之后然后放入fun之中。也就是说,先拨开的list,然后再灌入。...例如: a=function(x)[ x=names(x) x[x=="a"] } lapply(y,a) 从这段代码大致可以了解到,lapply精髓在输入与输出。

    4.1K30

    V5版seurat读取不同格式单细胞数据

    使用Seurat的v5来读取多个10x的单细胞转录组矩阵 使用Seurat的v5来读取多个不是10x标准文件的单细胞项目 不同格式单细胞多数据读取方法 读取数据进行分析之前,我们需要安装加载需要的R包,...如果是10X标准格式的多个数据,那我们使用Read10X()函数将多个数据读取进来,再创建seurat对象即可 ##10X标准格式 #单个样品的数据V4和V5读取进来没有太大差异 #置顶 samples...head(sce.all@meta.data) h5格式 h5格式其实也有对应的函数Read10X_h5()可以直接读取,但是Read10X_h5使用循环读取多个数据文件,会返回一个list,需要手动整合一下.../GSE159115_RAW/' samples=list.files( dir ) samples #读取h5格式文件 sceList = lapply(samples,function(pro)...参考推文:使用Seurat的v5来读取多个不是10x标准文件的单细胞项目 txt.gz格式 dir='.

    6.4K24

    十步搞定单因素方差分析

    看过我TCGA肿瘤数据库知识图谱的小伙伴都只是如何在任意癌症查询指定感兴趣基因的表达量,并且对样本进行分组比较,网站是:https://xenabrowser.net/heatmap/ 悄咪咪的上线了TCGA...第1步:计算各组内样本均值 lapply(split(df,df$sample_type),function(x) mean(x$CUL5)) 第2步:计算所有样本均值 mean(df$CUL5 ) 第...3步:计算各组内部误差平方和 tmp=lapply(split(df,df$sample_type),function(x) sum((x$CUL5-mean(x$CUL5))^2) ) sse = sum...(unlist(tmp)) 第4步:计算各组间误差平方和 tmp=lapply(split(df,df$sample_type),function(x) nrow(x)*(mean(x$CUL5) -...mean(df$CUL5 ))^2 ) ssb = sum(unlist(tmp)) 第5步:计算各组内部均方误 mse=sse/(nrow(df)-length(unique(df$sample_type

    1.2K50
    领券