论文网
English Papers
万事OK网
发表论文
 
 首页 > IT文章 > 程序设计 >
字符串搜索算法

[科技论文网] http://www.scipapers.com    2007-12-01  

    字符串搜索算法


    1. 前言

     
    字符串搜索是一个基本的操作,C库函数中也提供了strstr()函数进行字符串搜索,应该是属于线性搜索。此外,为提高搜索速度,人们又发展出一些快速搜索算法,如boyer-moore算法等,其与线性搜索的区别是当发现模式不匹配时,不是象线性搜索那样只移动一个字节,而是尽可能多地移动多个字节长度,以提高搜索速度。
     
    2. 线性搜索
     
    下面是我自己写的一个线性搜索算法的例子,比较简单,就不用说明了,text是数据,pattern是要搜索的模式。
     
    unsigned char * linear_strstr(const unsigned char *text, const unsigned char *pattern)
    {
     int len=strlen(pattern);
     
     while(*text){
      if(strncmp(text, pattern, len)==0) return text;
      text++;
     }
     return NULL;
    }
     
    3. 快速搜索
     
    下面是类似bm算法的一个实现,此类快速搜索都需要建立一个步长索引表,因为数据以字节为单位,每个字节为0~255的数,因此索引表长度为256,在表中记录要每个字节(0~255)的移动步长,各种快速搜索算法要确定的就是这个索引表的值,然后在匹配不成功时确定取索引表中哪个值。
     
    对于BM算法,索引表中的值取该值在搜索模式中相对于结尾符'0'的位置,如果该值不在搜索模式中,取搜索模式长度加1。对每次匹配操作,数据被匹配模式分成三部分,数据左部,已经匹配检查过的部分;数据中部,正在匹配部分,长度等于模式长度;数据右部,还没有与模式进行匹配的部分。当匹配失败时,移动步长取数据右部第一个字符对应的步长值,以下是代码实现:
     
    int shift[256];
    void pre_proecss(const unsigned char *pattern)
    {
     int i, plen;
     plen=strlen(pattern);
     for(i=0; i<plen; i++)
      shift[i]=plen+1;
     for(i=0; i<plen; i++)
      shift[*(pattern+i)]=plen-i;
    }
    unsigned char *bm_strstr(const unsigned char *text, const unsigned char *pattern)
    {
     int i, step;
     int plen, tlen;
     
     pre_proecss(pattern);
     plen=strlen(pattern);
     tlen=strlen(text);
     while(tlen >= plen && *text){
      for(i=0; i<plen; i++)
       if(*(text+i) != *(pattern+i))
        break;
      if(i >= plen)
        return text;
      step=shift[*(text+plen)];
      text += step;
      tlen -=step;
      continue;
     }
     return NULL;
    }
     
    如果可能预先取得数据长度的话,尽量将数据长度作为参数传递到搜索函数而不是在函数中再计算数据长度,这样有助于提高搜索速度。
     
    4. 结论
     
    快速搜索和线性搜索比起来每次移动的步长可以比较多,但需要付出不少代价:第一,数据长度是必须知道的,防止移动过界,计算数据长度需要花费不少时间;第二,需要一个索引表进行计算,如果在内核实现时得考虑多CPU处理的问题(这在linux内核netfilter的字符串匹配代码中有体现)。在实际测试中,如果模式字符串长度比较小,数据长度未知时,快速搜索算法速度实际比线性搜索还慢。快速搜索只适用于数据长度已知,匹配模式也比较长的场合。
     
    代码稍加修改就可以处理大小写无关的字符串查找。

        来源:

声明:本文由网友推荐或作者提交,版权归原作者所有,刊登此文仅为传播知识,展示研究成果,提高文章引用率。未经原作者授权,禁止用于任何形式的商业行为。科技论文网倡导尊重知识、尊重劳动、保护原创、知识共享。由于部分论文文章来于网络,文章作者不祥,请相关的原创作者与我们联系,以便加上您的署名。

  
字符串搜索算法
下面没有链接了     图论的基本算法
最新论文
·[程序设计]字符串搜索算法
·[程序设计]图论的基本算法
·[程序设计] 抛玻璃算法
·[程序设计]汉诺塔C源码
·[程序设计]后缀树-SuffixTree概念
·[程序设计]素数算法
·[程序设计]马踏棋盘算法分析
·[程序设计]字典树实现源代码
·[程序设计]Java和C#的Hash算法
·[程序设计]hash表及如何选择hash函数
 
 

搜索论文

Google
论文分类

论文网 论文发表网 论文 免费论文网 找论文网 毕业论文 中国论文网 英语论文 百度论文 聘教网 易搜
 免费发布论文    中国论文网 2008版权所有  业务联系:pinjiao@126.com