我正在尝试构建一个回归模型,其中一个特性包含文本数据。我在考虑使用scikit-learn的sklearn.feature_extraction.text.TfidfVectorizer。然而,问题是实际字符串包含的单词非常少。平均1.8。这是一个样本:1 car stereo3 refrigeratorTfidfVectorizer或者,这种稀疏的结果矩阵不会对
我想知道这个词在用户要求的句子中的位置。(我使用python)例如,如果我有一个句子:"Hello world how are you doing today world?"如果用户想知道单词'world'在这个句子中的位置,它会打印"The word world is in position 1 and 8"。我知道enumerate方法,但无法让它与输入或</em