我正在尝试构建一个显示在指定目录中文件中的所有单词的列表,然后将这个列表保存到一个文件中。当我试图打印出列表中的任何位置时,它似乎是正常的(它是人类可读的),但是在我将它写到一个文件之后,我只看到字节数。这是我的代码:
import os
directoryList = ['/Users/Kuba/Desktop/Articles/1', '/Users/Kuba/Desktop/Articles/2', '/Users/Kuba/Desktop/Articles/4']
bigBagOfWords = []
for directory in
虽然题目是个问题,但简短的回答显然是否定的。我试过了。真正的问题是为什么?字符串是一些非ascii字符,如中文,XXX是字符串的当前编码。
>>> u'中文' == '中文'.decode('gbk')
False
//The first one is u'\xd6\xd0\xce\xc4' while the second one u'\u4e2d\u6587'
这个例子在上面。我使用的是中文简化的窗口。默认编码是gbk,python也是如此。我得到了两个unicode对象不相等。
更新
a =
如何使用C#读取中文文本文件,当前代码无法显示正确的字符:
try
{
using (StreamReader sr = new StreamReader(path,System.Text.Encoding.UTF8))
{
// This is an arbitrary size for this example.
string c = null;
while (sr.Peek() >= 0)
{
c = null;
c = sr.ReadLine(