绿色—一般成员,入群也不长,发言不多,可以猜测这类成员是一般活跃成员
绝大部分成员在群里一年只冒泡1到4天
如图,这是采集了一年中某一个群的数据,fenbie 统计了成员在群里的冒泡天数,惊奇的发现,只冒泡一天的人占比高达...我们初步的可以确定我们需要的信息有,时间,成员,地区,谈话文本.也就是谁,在什么时候,说了什么.因为是谈话形式,所以有一个次序的概念,当然,次序可以在时间属性里表现出来.
2.清理数据
我们观察可以看见数据是非结构化的...得到如下情况,
可以观察到,基本上是日期,时间,成员,谈话内容.发现这个规律我们可以很容易的写一个循环就获取出来,但是在弄的过程中,会有一些异常情况,这个也是在清理过程中发现的,
因为行数太多,人眼无法全部扫描一遍...接下来我们便数据的正确性一致性完整性进行探索,当然代码没有写出来,这是在分析过程中做的额外 的事,确保数据的完整性之后,进行简单的统计分析.
3.探索性分析
群成员活跃情况,
群活跃时间分布,
群成员地区分布...我也可分析最活跃成员排名,给与奖励等等,当然 QQ群已经有这个功能就是看等级.所以这里不列出.接下来便是获得成员的信息,其实最主要是QQ号.但由于此群成员名字命名有一定要求,所以也可以得到部分地区信息.