这些数据格式中的每一个都有列名,它们要么将单词'gold‘与其他单词(例如,df.columns:'gold_data’、'dataset_gold‘、...etc’结合在一起,要么将‘标记’与其他单词'new_labeled_dataset':['hello','there is no food in the fridge','this weather amazing']})
我试图根据
我有一个Pandas DataFrame,它是通过读取带有表格的PDF表格创建的。PDF的解析并不完美,因此我最后在结果的DataFrame中将几个表列擦成了一个列。问题是PDF中的表列之一是文本,因此有时有一个词,有时有两个单词组成该列。Col_1 Col_21 Hello world Q R B我想