网络编程
位置:首页>> 网络编程>> Python编程>> python 文本单词提取和词频统计的实例

python 文本单词提取和词频统计的实例

作者:超级杰哥  发布时间:2022-10-25 04:53:03 

标签:python,文本,单词,词频

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:


class DocProcess(object):

@classmethod
def strip_html(cls, text):
 """
  Delete html tags in text.
  text is String
 """
 new_text = " "
 is_html = False
 for character in text:
  if character == "<":
   is_html = True
  elif character == ">":
   is_html = False
   new_text += " "
  elif is_html is False:
   new_text += character
 return new_text

@classmethod
def separate_words(cls, text, min_lenth=3):
 """
  Separate text into words in list.
 """
 splitter = re.compile("\\W+")
 return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

@classmethod
def get_words_frequency(cls, words_list):
 """
  Get frequency of words in words_list.
  return a dict.
 """
 num_words = {}
 for word in words_list:
  num_words[word] = num_words.get(word, 0) + 1
 return num_words

来源:https://blog.csdn.net/autoliuweijie/article/details/50687419

0
投稿

猜你喜欢

手机版 网络编程 asp之家 www.aspxhome.com