CN119003835A

CN119003835A - 一种基于kmp算法的高效二元字符串匹配方法

Info

Publication number: CN119003835A
Application number: CN202411105936.0A
Authority: CN
Inventors: 许川佩; 王淇源; 冯倜龙; 周蒴诚; 危远荣
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2024-08-13
Filing date: 2024-08-13
Publication date: 2024-11-22

Abstract

发明提供的是一种基于KMP算法的高效二元字符串匹配方法。其步骤是：将模式串最后一位字符与文本串对应位置处开始进行匹配，若字符匹配失败采用坏字符规则移动，修改相同标志T。若字符匹配成功，判断相同标志T，如果标志T为true，则采用间隔距离移动，并修改T。如果T为false，模式串前缀与文本串前缀从后向前进行匹配，若前缀匹配成功，则找到字符串。若前缀匹配不成功，在模式串j处匹配失败，判断间隔距离是否为0，若为0则移动距离为模式串的长度。若不位0则取匹配个数与next序列第j位的差值和间隔距离确定移动距离，同时修改T再进行下一轮匹配。本发明通过采用反向计算next序列的方式。具体而言，从模式串的最后一位开始，逐步向前计算每个字符的next值，以及引入相同标志T和间隔距离，从而提高匹配效率。该方法适用于快速处理和分析含有二元数据的文本和序列，可广泛用于数据压缩、基因序列分析、网络安全和通信系统中的模式匹配等领域。

Description

一种基于KMP算法的高效二元字符串匹配方法

技术领域

本申请涉及数据处理领域，尤其涉及一种基于KMP算法的高效二元字符串匹配方法。

背景技术

在数据处理领域，字符串匹配是一个基础性的问题，其核心任务是识别和定位文本串中与模式串匹配的子串。最常见的应用场景是关键词匹配，即在一个长度为n的文本串T中，找出所有与长度为m的模式串P完全匹配的子串的起始位置。

传统的BF(Brute Force)算法是最简单的字符匹配算法。该算法从文本串的第一个字符开始，与模式串逐个字符进行匹配。如果字符匹配成功，则继续比较后续字符；一旦发现字符不匹配，文本串指针回退至上一个位置，从文本串的第二个字符开始重新与模式串的第一个字符进行匹配。这种逐一匹配的方法，时间复杂度在最坏情况下为O(m*n)，其中n和m分别表示文本串和模式串的长度，导致匹配效率较低。

KMP(Knuth-Morris-Pratt)算法提出了一种改进策略。KMP算法通过构建模式串的部分匹配信息表(即next数组)，在匹配过程中如果出现字符不匹配，可以利用next数组预先计算的信息，将模式串向右滑动尽可能多的位置，从而避免重复的字符比较。例如，当文本串T中的字符T[i]与模式串P中的字符P[j]匹配失败时，若j＝0，则模式串向右移动一位；若1≤j<m，则模式串向右移动j-next(j)位。然而，KMP算法的缺点在于它需要预处理模式串以生成next数组，增加了算法的复杂度。此外，在某些情况下，KMP算法可能不如其他字符串匹配算法高效，特别是在字符集较小或模式串较短的情况下。

BM(Boyer-Moore)算法则结合了坏字符规则和好后缀规则，通过最大化模式串的右移距离，进一步提升匹配效率。坏字符规则是指在匹配过程中，如果文本串的字符T[i]与模式串的字符P[j]不匹配，则根据字符T[i]在模式串中的位置，决定模式串的移动距离；好后缀规则则利用已匹配成功的后缀信息，调整模式串的位置。然而，BM算法的缺点在于它的效率在最坏情况下可能退化为BF算法，尤其在处理某些特定的文本和模式串时，其性能可能不如其他算法稳定。

在进行搜索操作时，常常会遇到一种情况，一部分前缀与模式串匹配，但后缀却不匹配，或者后缀匹配而前缀不匹配，导致进行了大量无效的比较。因此，迫切需要一种时间复杂度较低的字符串匹配算法，以解决现有算法在字符匹配过程中时间复杂度高、效率低的问题。

发明内容

本发明的目的在于提供一种基于KMP算法的高效二元字符串匹配方法，通过将模式串末位字符与文本串相应位置进行匹配，若匹配失败，采用坏字符规则移动，并修改相同标志T。若匹配成功，判断T。判断成功时采用间隔距离移动，判断失败时采用模式串前缀从后向前与文本串比较；配失败时判断间隔距离。取匹配个数与next序列第j位的差值和间隔距离确定移动距离，并修改T。降低字符匹配时间复杂度，提高匹配效率。

本申请的技术方案是一种基于KMP算法的高效二元字符串匹配方法，主要包括以下步骤：

将模式串末位字符与文本串相应位置处进行匹配：

若字符匹配失败，采用坏字符规则进行移动并修改相同标志T；

若字符匹配成功，判断T：

若T为true，则采用间隔距离进行移动并修改T；

若T为false，则采用模式串前缀从后向前与文本串匹配：

匹配成功，则字符串找到。

匹配失败，在j处匹配失败，判断间隔距离长度，若为0则直接移动距离为模式串的长度；

若间隔距离不为0，则采用KMP算法反向计算得到的next序列，计算取匹配个数与next序列第j位的差值和间隔距离确定移动距离。

本发明具有以下有益效果：

发明通过将模式串最后一个字符与文本串相应位置处进行匹配，匹配成功且T为true则移动距离为模式串的长度；匹配成功、T为false且模式串前缀从后向前与文本串匹配失败时，当间隔距离为0时移动距离为模式串长度；间隔距离不为0时取反向计算得到的next序列使用KMP算法计算移动距离与间隔距离的最大值，实现了最大距离移动，减少比对次数，进而降低了字符匹配时间复杂度，提高匹配效率。

附图说明

图1为本发明的一种基于KMP算法的高效二元字符串匹配方法的流程图。

具体实施方式

下面结合具体的实施例来进一步阐述本发明。

请参阅图1所示，本发明为一种基于KMP算法的高效二元字符串匹配方法，包括如下步骤：

步骤1：反向计算next序列，描述如下：

从模式串的倒数第二个字符开始，逐字符向前遍历。对于每个字符，比较该字符及其前面的字符与模式串末尾部分的匹配长度，直到匹配失败为止。将匹配的字符数记录在next序列中，最后返回该序列。

步骤2：从右向左计算字符间隔距离，实现如下：

通过计算模式串中最后一个字符与其在模式串中最后一次出现位置之间的距离来实现字符串匹配优化。首先获取模式串的长度，并存储最后一个字符。从模式串的倒数第二个字符开始，向左遍历。如果遇到与最后一个字符相同的字符，则计算并返回这两个字符之间的距离；如果没有找到相同的字符，则返回0。

步骤3：将模式串的末位字符与文本串中对应位置上的字符进行匹配。

步骤4：若字符匹配失败，根据坏字符规则移动。若移动距离等于1，则将相同标志T设为true，否则设为false。T的初始值为false。

步骤5：若字符匹配成功，且T为true时，移动距离为间隔距离，若间隔距离为1，修改T为true；反之修改T为false。

步骤6：判断是否扫描结束，是则返回-1，否则进行下一轮比较。

步骤7：若字符匹配成功，且T为false时，采用模式串前缀从后向前与文本串比较。

步骤8：若匹配成功，则找到字符串，返回匹配成功索引位置。

步骤9：若匹配失败，且间隔距离为0时直接移动模式串的长度的距离，距离等于1时修改T为true，不为1时修改T为false。

步骤10：若间隔距离不为0，则取匹配个数与next第j位的差值和间隔距离的最大值为移动距离，若移动距离为1，修改T为true，反之修改T为false。

步骤11：判断移动距离是否出界，是则返回-1；否则进行下一轮比较。

Claims

1.一种基于KMP算法的高效二元字符串匹配方法，其特征包括以下步骤：

步骤1：将模式串最后一个字符与文本串对应位置处进行匹配；

步骤2：若字符匹配失败：采用坏字符规则移动并修改相同标志T；

步骤3：若字符匹配成功时，判断相同标志T：

若T为true，则采样间隔距离进行移动；

若T为false，则采用模式串前缀从后向前与文本串比较，若匹配成功，则字符串找到；若匹配失败，当间隔距离长度为0时，则移动距离为模式串的长度；当间隔距离不为0时则根据KMP算法中反向计算得到next序列，取匹配个数与next第j位的差值和间隔距离确定移动距离；

步骤4：修改T，若移动距离大于1时T为true，反之为false。

2.根据权利要求1所述的一种基于KMP算法的高效二元字符串匹配方法，其特征在于，在步骤2增加了相同标志T用于步骤3中比较前一个匹配字符是否与现在的匹配字符是否相等，相等则直接移动间隔距离；步骤3中引入了间隔距离，间隔距离用于记录模式串中从最后一个字符开始向前数，与最后一个字符相同的字符之间的距离，这里使用间隔距离来确定移动距离。

3.根据权利要求1所述的一种基于KMP算法的高效二元字符串匹配方法，其特征在于，步骤3中与传统KMP算法中next数组不同，本文采用反向计算next序列的方式，具体而言，从模式串的最后一位开始，逐步向前计算每个字符的next值，这里与间隔距离确定移动距离。

4.根据权利要求1所述的KMP算法的高效二元字符串匹配方法，其特征包括：在进行文本扫描时分为相应位置字符匹配和前缀匹配两大部分步骤如下：

首先在相应位置对模式串最后一位字符进行比较：

若匹配失败，则采用坏字符表值进行移动，修改相同标志T；

若匹配成功，判断相同标志T是否是true：

若T是true，则采样间隔距离进行移动，修改T；

若T是false，则采用模式串前缀从后向前与文本串比较：

若匹配成功，则字符串找到；若匹配失败，判断间隔距离是否为0，为0则直接移动距离为模式串长度，不为0则取匹配个数与next第j位的差值和间隔距离确定移动距离，并修改T。