正則表達式和文本挖掘(Text Mining)

在進行文本挖掘時,TSQL中的通配符(Wildchar)顯得功能不足,這時,使用“CLR+正則表達式”是非常不錯的選擇,正則表達式看似非常復雜,但,萬變不離其宗,熟練掌握正則表達式的元數(shù)據(jù),就能熟練和靈活使用正則表達式完成復雜的Text Mining工作。 

一,正則表達式的特殊字符

1,常用元字符

用以匹配特定的字符(字母,數(shù)字,符號),注意字母是區(qū)分大小寫的:

  • . :匹配除換行符以外的任意字符
  • \w :匹配字母或數(shù)字或下劃線或漢字
  • \s :匹配任意的空白符
  • \d :匹配數(shù)字
  • \b :匹配單詞的開始或結束
  • ^ :匹配字符串的開始
  • $ :匹配字符串的結束
  • \k :引用分組名,例如:\k<group_name>,表示引用名字為group_name的分組
  • \group_number:group_number是分組的組號,1,2,3等,表示通過組號引用分組

2,重復字符或分組

指定前面一個字符或分組重復的次數(shù):

  • * :重復零次或更多次
  • + :重復一次或更多次
  • ? :重復零次或一次
  • {n} :重復n次
  • {n,}

    網友評論