GO语言利用K近邻算法实现小说鉴黄
作者:hebedich 发布时间:2023-06-21 17:15:25
标签:GO语言,K近邻算法
Usuage:
go run kNN.go --file="data.txt"
关键是向量点的选择和阈值的判定
样本数据来自国家新闻出版总署发布通知公布的《40部 * * 网络小说名单》
package main
import (
"bufio"
"flag"
"fmt"
"io"
"log"
"math"
"os"
"path"
"path/filepath"
)
var debug bool = false
var data_dir string = "./moyan" //文件存放目录
var limen float64 = 0.1159203888322267 //阈值
const (
MIN_HANZI rune = 0x3400
MAX_HANZI rune = 0x9fbb
)
var labels []rune = []rune{
0x817f, 0x80f8, 0x4e73, 0x81c0,
0x5c41, 0x80a1, 0x88f8, 0x6deb,
}
func errHandle(err error) {
if err != nil {
log.Fatal(err)
}
}
func load(name string) (m map[rune]int, err error) {
f, err := os.Open(name)
if err != nil {
return nil, err
}
defer f.Close()
buf := bufio.NewReader(f)
m = make(map[rune]int)
var r rune
for {
r, _, err = buf.ReadRune()
if err != nil {
if err == io.EOF {
break
}
return nil, err
}
if r >= MIN_HANZI && r <= MAX_HANZI {
m[r] += 1
}
}
return m, nil
}
func classify(m map[rune]int) (idv []float64, dis float64) {
len_m := len(m)
for i, v := range labels {
if debug {
fmt.Println(i, m[v], string(v), float64(m[v])/float64(len_m))
}
idv = append(idv, float64(m[v])/float64(len_m))
}
for _, v := range idv {
dis += math.Pow(v, 2)
}
dis = math.Sqrt(dis)
return
}
func check(fp string, dis float64) {
switch {
case dis >= limen:
fmt.Println(fp, dis, "涉黄")
case dis == 1.0:
fmt.Println(fp, dis, "你在作弊吗")
case dis == 0:
fmt.Println(fp, dis, "检查一下文件字符编码是不是utf8格式吧")
default:
fmt.Println(fp, dis, "正常")
}
}
func walkFunc(fp string, info os.FileInfo, err error) error {
if path.Ext(fp) == ".txt" {
m, err := load(fp)
errHandle(err)
_, dis := classify(m)
check(fp, dis)
}
return err
}
var file string
func init() {
_, err := os.Stat(data_dir)
if err != nil {
err = os.Mkdir(data_dir, os.ModePerm)
errHandle(err)
}
flag.StringVar(&file, "file", "", "file read in,if you don't give the file read in,"+
"it will create a data dictionary,just pust your files in it")
}
func main() {
flag.Parse()
if file == "" {
filepath.Walk(data_dir, walkFunc)
return
}
m, err := load(file)
errHandle(err)
_, dis := classify(m)
check(file, dis)
}
以上所述就是本文的全部内容了,希望大家能够喜欢。


猜你喜欢
- 首先安装需要的模块pip install aliyun-python-sdk-corepip install aliyun-python-s
- selenium执行js优点:直接调用浏览器的环境障碍:绕过selenium监测原理:# 执行js代码bro.execute_script(
- 在日常工作编程中存在着各种随机事件,同样在编程中生成随机数字的时候也是一样,随机有多随机呢?在涉及信息安全的情况下,它是最重要的问题之一。每
- 本文实例讲述了Python查找数组中数值和下标相等的元素。分享给大家供大家参考,具体如下:题目描述:假设一个单调递增的数组中的每个元素都是整
- 本文所依赖的环境为:进程和线程的概念进程概念我们想运行一个程序,首先会将该程序从存储介质上通过IO总线加载进内存中,而后再通过cpu进行调度
- 本教程旨在介绍如何使用七牛的Python SDK来快速地进行文件上传,下载,处理,管理等工作。安装首先,要使用Python的SDK必须要先安
- 本文研究的主要是django在接受post请求时显示403forbidden时的处理方法,具体代码如下。最近在做一个项目需要用到Django
- 本文实例讲述了Python封装原理与实现方法。分享给大家供大家参考,具体如下:【封装】 隐藏对象的属性和实现细节,仅对外提供公共访
- 近期,有小伙伴问我关于怎么使用python进行散点图的绘制,这个东西很简单,但是怎么讲相关性的值标注在图形上略显麻烦,因此,在这里记录一下,
- 最近的一个页面中碰到的,本来想用 border 来模拟设计图的虚线效果,但是很明显 border 效果不如设计图来的好看。顺便研究了下 da
- 安装完Python,在命令行输入“python”之后,如果成功,会得到类似于下面的窗口:可以看到,结尾有3个>符号(>>&
- DQLDQL:data Query language 数据查询语言格式:select[distinct] 字段1,字段2 from 表名 w
- 1 丰富的二维动画/图形和视音频表现 Rich 2D animation/graphics with audio and video这点毋庸
- 前言在JavaScript中,数据类型分为两大类,一种是基础数据类型,另一种则是复杂数据类型,又叫引用数据类型基础数据类型:数字Number
- MySQL默认编码是latin1,因业务需要把它转到UTF8。1、导出数据导出表结构 mysqldump -d dataname >
- 1.对数据库常用命令1.连接数据库mysql -u用户名 -p密码2.显示已有数据库show databases;3.创建数据库create
- 先说一下背景和要求背景:由于业务或是其他不描述的原因的问题导致原有存储的数据发生变动,与现有数据有差别,但还是能勉强看明白数据内容。要求:实
- 网上也有很多封装好的JS动画库,但大多因为功能过于完善,而至于代码量大动辄过千行,不宜在小项目中使用。这里自己封装了一个很轻量的动画库,主要
- 基本简介dot函数为numpy库下的一个函数,主要用于矩阵的乘法运算,其中包括:向量内积、多维矩阵乘法和矩阵与向量的乘法。1. 向量内积向量
- 尽管有很多规范URL的标准,例如RFC 3987,但实际应用中却非常混乱。本文主要介绍浏览器发送URL到服务器的一些特性,作为开发和应用的参