我在MS Word中有数据的抄本,想要读入一个名为R的统计程序中。问题是这些文件包含特殊字符(不是纯文本)。我处理它们的过程是在MS Word中将它们细分出来/另存为txt文档/读取到MS Excel (使用导入向导为人员和对话创建一个列)/Convert到.csv/读取到R。这个过程有效,但很耗时。我发现了如何将带有特殊字符的文本直接读入R (R通常需要纯文本),但这要求文档是excel文档。这是可取的,因为如果我可以将特殊字符读入R中,那么一次提取所有特殊字符是相当简单的。出现这个问题是因为我不能直接将MS Word文档导入Excel。我必须首先将其保存为文本文件(我不介意这样做),然后读取它。这会将特殊字符转换为方框和问号。我需要在不破坏特殊字符(“,”,-,‘,’,…)的情况下,将MS Word文档作为包含2列(人员,对话)的数据框架等)。
我可以通过替换Word来实现这一点,但同样,如果我能把它放到Excel中,那么在R中做这件事会容易得多。
这是我的数据的MS Word文档示例(制表符分隔的列)
https://dl.dropbox.com/u/61803503/TEST.doc
在Win 7机器上运行Excel和Word 2010版。
发布于 2012-08-22 15:38:15
方法之一:在Word中使用“编辑”->“复制”,在Excel中使用“编辑”->“粘贴”。如果这样做,应该保留一个简单的表格结构,并保留Unicode字符。对于非Unicode的东西,比如Wingdings,就不那么确定了。我也没有尝试过VBA。
https://stackoverflow.com/questions/12038461
复制相似问题