我认为应该有一个算法来解决这个问题--可能是在生物信息学这样的领域(这个问题让我想起了一点序列比对),所以我希望有人能帮我解决这个问题。
问题如下:假设我将一些数据归入两个不同的类X和Y。结果可能类似于:..XXX Y XXX。进一步假设我们有一些关于这些类的领域知识,并且知道一行中的实例数量极不可能少于一定数量(即一个序列中的X或Y不太可能少于4X或Y-最好我可以对每个类使用不同的阈值,但这不是必须的)。因此,如果我们使用这个领域知识,“很明显”,我们希望将中间的单个Y替换为X。
因此,该算法应该获取分类实例的序列和类的阈值(如果它简化了问题,则所有类的阈值都为1),并尝试找到满足属性的序列