我用刮刮法从网站上提取数据。我使用MysqlDB将数据保存到mysql数据库中。该脚本适用于英语网站,但当我在瑞典网站上试用该脚本时,我得到:
self.db.query(insertion_query)
exceptions.UnicodeEncodeError: 'ascii' codec can't encode character u'\xe4' in position 156:
ordinal not in range(128)
我已经在每个文件的顶部放置了下面一行,以表明国际字符的使用:#-编码: utf-8
但我还是犯了个错误。
我是Python新手,有这个复杂的函数需要构建,但不知道如何构建 我有一个文本的数据帧 RepID RepText
---------------------------
1 Math Math Math English Physics Sport Sport English English English English
2 Sport English English English Math Math Physics Physics Physics Computer Computer Computer Computer
3 C
我所处的情况是,我得到了一个字符串,需要确定该字符串的语言是西班牙语还是英语。我计划解析停用的单词-西班牙语(‘`de,es,si,y’)和英语('of',' is ',' If ','and')?如果西班牙语出现的次数多于英语出现的次数,那么,我认为页面是西班牙语。
有没有可用的Ruby代码片段来做这件事?如果不是,什么是字符串解析或正则表达式的好方法来完成此操作?