敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。在实现敏感词过滤的算法中,我们必须要减少运算,而 DFA 在 DFA 算法中几乎没有什么计算,有的只是状态的转换。所以想更高效的进行敏感词的过滤,需要使用 DFA 算法。
/** * Notes: [DoFilterWords 过滤字符中敏感词] * @param $list 过滤词一维数组 ['小明', '小红', '大白', '小白', '小黑', 'me', 'you']; * @param $string 输入文字 likeyou小白喜欢小黑爱着的大黄 * @return string 过滤后文字 like**喜欢*爱着的大黄 */ function DoFilterWords($list, $string, $symbol = '*') { $count = 0; // 违规词的个数 $sensitiveWord = ''; // 违规词 $stringAfter = $string; // 替换后的内容 $pattern = "/".implode("|",$list)."/i"; // 定义正则表达式 if(preg_match_all($pattern, $string, $matches)) { // 匹配到了结果 $patternList = $matches[0]; // 匹配到的数组 $count = count($patternList); $sensitiveWord = implode(',', $patternList); // 敏感词数组转字符串 //把匹配到的数组进行合并,替换使用 $replaceArray = array_combine($patternList,array_fill(0, count($patternList), $symbol)); $stringAfter = strtr($string, $replaceArray); //结果替换 } return $stringAfter; }
附敏感词库下载 百度网盘 提取码:yjfs
仅限用于合法的、积极向上的敏感词过滤使用,严禁用于从事违反法律法规、危害国家、危害人民、不道德的活动!!!
发表评论