对于一个项目,我希望能够创建一个包含某些特定符号字符串的tweet数据集。因为我还想追溯到尽可能远的时间,所以我尝试使用这里提到的GetOldTweets脚本( https://github.com/Jefferson-Henrique/GetOldTweets-python ):https://stackoverflow.com/a/35077920/5858873。
问题是,它不能提取包含符号的tweet作为输入。事实上,人们甚至不能直接在Twitter上搜索由所需符号组成的任何tweet。
为了更清楚地解释该问题,请考虑以下示例案例。我想l提取包含字符串‘!’的所有tweet在过去的两年里。
做这件事的最好方法是什么(如果这是可行的)?
发布于 2017-11-29 20:51:40
您可以根据自己的需求创建自己的正则表达式
然后点击twitter数据来提取特定的推文。
发布于 2017-11-29 22:25:05
我发现了这个有趣的资源:https://webapps.stackexchange.com/questions/92196/search-for-tweets-with-special-characters
它基本上是说,某些字符不能被搜索,因为推特已经阻止了他们的使用。
我相信你应该做的就是在一个特定的作用域的范围内通过 tweets进行搜索,然后在每条的正文消息上使用string find。然后,当您到达某个运行时或找到特定数量的tweet时,您将停止。
发布于 2017-12-01 16:02:09
您可以使用各种条件(在字典中搜索单词、位置搜索、流行的Twitter帐户等)从Twitter API下载和存储数据。当然,这不是全部数据,但您将拥有其中的一部分。
然后在本地搜索这些推文。
这些字符在url中也是有效的,所以在搜索之前去掉url。
另外,别忘了检查存储你从Twitter获取的数据是否合法。
https://stackoverflow.com/questions/47424751
复制相似问题