自从 2023 年推特被火星人马斯克先生收购并进行全面商业化之后,推特 API 的费用就水涨船高了。
注,推特已于 2023.7.24 日改名为 X ,并启用“X”标志,告别原有的小蓝鸟形象。
目前推特开发者官网有下面几个版本的 API 服务:
翻译成中文,意即:
获取推特开发者账户的难度暂且按下不表,单就目前这个价格,就让不少科研人员、数据爱好者等望而却步。
2023 年被公认为 ChatGPT 大模型元年,这一年在推特上关于 ChatGPT 的讨论推文数笔者初步估计应该在千万量级。
笔者采集了 2023.01.01 至 2023.02.01 这个时间段有关 ChatGPT 的所有原创推文(不包含回复),合计 445238 条。
df = pd.read_csv('./chatgpt_tweets_202301_445238条.csv')
print(df.shape)
# (445238, 47)
每一条数据都包含推文 ID、发布时间、正文、发布来源、语言、推文查看数(阅读量)、回复数(评论数)、转推数、喜欢数、引用数等推文字段和作者 ID、用户名、注册时间、关注数、粉丝数、发布推文数是否蓝 V 认证等用户字段,合计 47 个字段信息。
print(df.columns)
"""
Index(['tweet_create_time', 'publish_time', 'tweet_id', 'content', 'source',
'hashtags', 'urls', 'user_mentions', 'view_count', 'reply_count',
'retweet_count', 'favorite_count', 'quote_count', 'bookmark_count',
'lang', 'geo', 'coordinates', 'place', 'photo_entity', 'video_url',
'reply_to_user_id', 'reply_to_user_link', 'reply_to_tweet_id',
'reply_to_screen_name', 'reply_to_tweet_link', 'user_id', 'user_name',
'screen_name', 'user_link', 'tweet_link', 'location', 'description',
'user_url', 'url_entities', 'followers_count', 'fast_followers_count',
'normal_followers_count', 'friends_count', 'user_created_at',
'blue_verified', 'verified', 'favourites_count', 'statuses_count',
'media_count', 'listed_count', 'user_lang', 'pinned_tweet_ids'],
dtype='object')
"""
推文来自于 242288 个作者,其中 12% 是蓝 V。
part_df = df.drop_duplicates(subset=['user_id'], keep='last')
print(part_df.shape[0], 'authors')
# 242288 authors
这 44w 条推文所属语言达 67 种之多,
print(len(df['lang'].unique()))
# 67
其中 en
(英文)、ja
(日文)、es
(西班牙语)、fr
(法语) 和 pt
(葡萄牙语)五种语言的推文最多,均超过了 10000 条,出乎笔者意料的是日文推特数居然高居第 2 位,zh
(中文)推特数排在第 13 位。
各语言推文数
一共 40 余字段,可分析的信息不少,不一一列举