Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何从xml文件创建R语言数据框dataframe

如何从xml文件创建R语言数据框dataframe

原创
作者头像
拓端
修改于 2020-10-26 03:21:38
修改于 2020-10-26 03:21:38
3.4K00
代码可运行
举报
文章被收录于专栏:拓端tecdat拓端tecdat
运行总次数:0
代码可运行

原文链接:http://tecdat.cn/?p=16788

问题重现 

软件:R语言

环境:windows

问题描述:我有一个XML文档文件。文件的一部分如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<?xml version="1.0" encoding="UTF-8"?><List><SubCategory><ID>BO</ID><Name>Bookcases</Name></SubCategory><SubCategory><ID>CH</ID><Name>Chairs</Name></SubCategory><SubCategory><ID>LA</ID><Name>Labels</Name></SubCategory><SubCategory><ID>TA</ID><Name>Tables</Name></SubCategory><SubCategory><ID>ST</ID><Name>Storage</Name></SubCategory><SubCategory><ID>FU</ID><Name>Furnishings</Name></SubCategory><SubCategory><ID>AR</ID><Name>Art</Name></SubCategory><SubCategory><ID>PH</ID><Name>Phones</Name></SubCategory><SubCategory><ID>BI</ID><Name>Binders</Name></SubCategory><SubCategory><ID>AP</ID><Name>Appliances</Name></SubCategory><SubCategory><ID>PA</ID><Name>Paper</Name></SubCategory><SubCategory><ID>AC</ID><Name>Accessories</Name></SubCategory><SubCategory><ID>EN</ID><Name>Envelopes</Name></SubCategory><SubCategory><ID>FA</ID><Name>Fasteners</Name></SubCategory><SubCategory><ID>SU</ID><Name>Supplies</Name></SubCategory><SubCategory><ID>MA</ID><Name>Machines</Name></SubCategory><SubCategory><ID>CO</ID><Name>Copiers</Name></SubCategory></List>

从这个XML文件中,我想创建一个具有ID,name 列的R数据框。请注意,name和ID应包含变量的所有级别。

解决方案

假设这是正确的taxlots.shp.xml文件:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<?xml version="1.0" encoding="UTF-8"?><List><SubCategory><ID>BO</ID><Name>Bookcases</Name></SubCategory><SubCategory><ID>CH</ID><Name>Chairs</Name></SubCategory><SubCategory><ID>LA</ID><Name>Labels</Name></SubCategory><SubCategory><ID>TA</ID><Name>Tables</Name></SubCategory><SubCategory><ID>ST</ID><Name>Storage</Name></SubCategory><SubCategory><ID>FU</ID><Name>Furnishings</Name></SubCategory><SubCategory><ID>AR</ID><Name>Art</Name></SubCategory><SubCategory><ID>PH</ID><Name>Phones</Name></SubCategory><SubCategory><ID>BI</ID><Name>Binders</Name></SubCategory><SubCategory><ID>AP</ID><Name>Appliances</Name></SubCategory><SubCategory><ID>PA</ID><Name>Paper</Name></SubCategory><SubCategory><ID>AC</ID><Name>Accessories</Name></SubCategory><SubCategory><ID>EN</ID><Name>Envelopes</Name></SubCategory><SubCategory><ID>FA</ID><Name>Fasteners</Name></SubCategory><SubCategory><ID>SU</ID><Name>Supplies</Name></SubCategory><SubCategory><ID>MA</ID><Name>Machines</Name></SubCategory><SubCategory><ID>CO</ID><Name>Copiers</Name></SubCategory></List>

XML格式的数据很少以允许该xmlToDataFrame功能正常工作的方式进行组织。最好提取列表中的所有内容,然后将列表绑定到数据框中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
data <- xmlParse("ProductSubcategory.xml")xml_data <- xmlToList(data)dataDictionary <- xmlToDataFrame(getNodeSet(data,"//SubCategory"))  

最受欢迎的见解

1.如何解决线性混合模型中畸形拟合(SINGULAR FIT)的问题

2.在UBUNTU虚拟机上安装R软件包

3.WINDOWS中用命令行执行R语言命令

4.R语言GGSURVPLOT绘制生存曲线报错 : OBJECT OF TYPE ‘SYMBOL‘ IS NOT SUBSETTABLE

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
在R语言中的 ATACseq 数据分析全流程实战(七):Motif分析
本帖子学习资源:https://rockefelleruniversity.github.io/RU_ATACseq/
生信技能树
2025/05/02
590
在R语言中的 ATACseq 数据分析全流程实战(七):Motif分析
R语言网络爬虫之Pubmed API的使用
查询文献你懂的,我认为Pubmed首选。当oncotarget杂志不再被Pubmed检索的收获,多少博士内心发慌,多少专家内心悔恨自己掏出的稿费。当然,用好Pubmed不能仅限于利用网页界面去检索那么几个关键词,AND 或者 OR。今天我来给大家介绍一下Pubmed API是如何在R语言中运用自如的。
一粒沙
2019/07/31
6.5K20
R语言网络爬虫之Pubmed API的使用
R语言入门 Chapter04 | 数据框
这篇文章讲述的是R语言中关于数据框的相关知识。希望这篇R语言文章对您有所帮助!如果您有想学习的知识或建议,可以给作者留言~
不温卜火
2020/10/28
4780
R语言入门 Chapter04 | 数据框
网页爬虫-R语言实现基本函数
#*************网页爬虫-R语言实现,函数库文件*******# #****作者:H***************************************# #****版本:v0.1*******************************************# #****时间:2017*************************************# library(XML); #****函数:(crawler1) #****概要:网络抓取的主要函数1,可以抓取n个网
学到老
2018/03/16
8420
R语言生存曲线的可视化(超详细)
关于Cox模型诊断和汇总在之前的推文中已经进行过详细的讲解:R语言生存分析:Cox回归
医学和生信笔记
2023/02/14
2.9K0
R语言生存曲线的可视化(超详细)
数据流编程教程:R语言与DataFrame
DataFrame DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 一. DataFrame数据流编程 二. 数据读取 readr/httr/DBI 1
小莹莹
2018/04/23
4K0
数据流编程教程:R语言与DataFrame
R语言 | 第一部分:数据预处理
1.创建数据集/矩阵【data.frame数据框、matrix矩阵、array数组】
拴小林
2020/07/10
9620
国家语言,语言代码,locale id对应表
国家语言,语言代码,locale id对应表。比如 en_US对应的id为1033, 中文的locale=zh_CN,id=2052. LocaleLanguage codeLCID stringLCID DecimalLCID HexadecimalCodepage Afrikaans af af 1078 436 1252 Albanian sq sq 1052 1250 Amharic am am 1118 Arabic - Algeria ar ar-dz 5121
Ryan-Miao
2018/03/14
9.5K0
口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)
    不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可以使用科大讯飞语音合成进行平替,但我们只想要最好的那一个,本次我们使用免费的开源库edge-tts来实现文本转语音操作,薅微软edge的羊毛。
用户9127725
2023/03/09
4.6K0
口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)
R语言数据清洗实战——高效list解析方案
list是R语言中包容性最强的数据对象,几乎可以容乃所有的其他数据类型。 但是包容性最强也也意味着他对于内部子对象的类型限制最少,甚至内部可以存在递归结构,这样给我们提取数据带来了很大的困难。 如果你对R语言的list结构非常熟悉,又熟练控制流等函数的操作,自然可以通过构建循环来完成目标数据的提取。但是在数据量大、结构及其复杂的情形下,自建循环无论是性能还是代码量上都很不经济。 好在确实有开发者在针对list数据结构进行操作上的优化,任坤老师的大作——rlist就是一个强大的list解析神器,它可以让我们像
数据小磨坊
2018/04/11
2.6K0
R语言数据清洗实战——高效list解析方案
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51055518
悟乙己
2019/05/27
1.3K0
R语言里面双层list变成长形数据框
韦恩图固然是一种展现方式,可以看到3个样品各自的上下调基因的overlap情况,基本上呢,随机生成的数值它们的overlap不咋地!
生信技能树
2020/11/11
6790
R语言里面双层list变成长形数据框
EMLOG标签汇总[按首字母索引]
在写EMLOG版本的Begin主题是做了一个单独的标签页面,按照首字母排列,目前好像没有看见,我也是从独狼那里弄过来的,以下是代码,有需要的朋友可以拿去玩玩。
用户8099761
2023/05/10
6490
R语言用贝叶斯层次模型进行空间数据分析|附代码数据
在本文中,我将重点介绍使用集成嵌套 拉普拉斯近似方法的贝叶斯推理。可以估计贝叶斯 层次模型的后边缘分布。鉴于模型类型非常广泛,我们将重点关注用于分析晶格数据的空间模型
拓端
2023/01/03
4570
凡是Excel能实现的数据操作,理论上R语言也可以
两个月前的一个学徒作业:绘图本身很简单但是获取数据很难,完成率超级低,仅仅接到了不到十个邮件,而且有3个人做的是错的!!超级尴尬,其中有一个错误很明显,就是自以为是的排序,然后比对肿瘤组织和配对的正常组织的表达量,其实呢,排序错误会导致配对失败。
生信技能树
2020/11/11
7950
凡是Excel能实现的数据操作,理论上R语言也可以
R语言入门(一)之数据处理
写在前面:公众号又被我搁置好久,闲来无事,写写近期学的R语言吧,主要分为两个部分写,一主要为数据处理,二为ggplot作图。这两个部分将生信分析的绝大多数常用命令都讲到了,作为R语言入门是够用的,但是学海无涯,以此只是作为一个引子,想要进步还是要自己多学多练,举一反三才行。
生信real
2020/08/26
10.3K0
R语言入门(一)之数据处理
R语言数据清洗实战——世界濒危遗产地数据爬取案例
最近重复新翻阅R语言领域唯一一本关于网络数据采集的参考书——《基于R语言的自动数据收集》,开篇就是一个数据爬取的案例。 尽管之前已经粗略的看过一遍,但是仍感书中诸多细节不甚理解,还有平时过于眼高手低,第一遍看的时候只是动眼却不动手,案例几乎很少做过,准备刷第二遍,案例也打算仔仔细细的过一遍,做的时候才发现作者书中代码有些部分已经无法运行,还是需要自己去一点儿一点儿倒腾。 library("XML") library("stringr") library("RCurl") library("dplyr") l
数据小磨坊
2018/04/11
2K0
R语言数据清洗实战——世界濒危遗产地数据爬取案例
R语言从小木虫网页批量提取考研调剂信息
使用Rcurl包可以方便的向服务器发出请求,捕获URI,get 和 post 表单。比R socktet连接要提供更高水平的交互,并且支持 FTP/FTPS/TFTP,SSL/HTTPS,telnet 和cookies等。本文用到的函数是basicTextGatherer和getURL。想详细了解这个包的可以点击参考资料的链接。
用户1680321
2022/03/10
7510
R语言从小木虫网页批量提取考研调剂信息
使用R语言读取PUBMED存入MYSQL数据库
最近,在科研狗网站看到了一个有趣的项目,使用R语言读取pubmed存入mysql数据库,之前报名没有报上,还是决心要跟着做一下,无奈R语言水平比较渣渣,只能复制别人的代码来用,悲剧的是,原代码复制过来还是报错,来一个小目标,把这段代码运行起来。花了两三天的功夫,终于实现了目标。
用户1075469
2020/03/03
3.6K0
ACL 2018 计算语言学协会接受论文列表
ACL 2018, the 56th Annual Meeting of the Association for Computational Linguistics将于2018年7月15日至20日在澳
WZEARW
2018/06/05
1.6K0
推荐阅读
相关推荐
在R语言中的 ATACseq 数据分析全流程实战(七):Motif分析
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验