标签 - python

? 机器学习 ? ? python ? ? 分类算法 ? ? Logistic 回归 ?    2017-05-04 13:40:00    771    0    0

Logistic回归算法 本文介绍机器学习中的Logistic回归算法,我们使用这个算法来给数据进行分类。Logistic回归算法同样是需要通过样本空间学习的监督学习算法,并且适用于数值型和标称型数据,例如,我们需要根据输入数据的特征值(数值型)的大小来判断数据是某种分类或者不是某种分类。 一、样本数据 在我们的例子中,我们有这样一些样本数据: - 样本数据有3个特征值:

? python ? ? 机器学习 ? ? 分类算法 ? ? 朴素贝叶斯 ?    2017-05-04 13:35:31    343    0    0

朴素贝叶斯分类方法

详情地址

前言

朴素贝叶斯分类算法是机器学习领域最基本的几种算法之一。但是对于作者这样没有什么数据基础的老码农来说,理解起来确实有一些困难。所以撰写此文帮助自己理解算法,同时也希望对同样在机器学习起跑线上的同仁有所帮助。

开篇我们就不对所涉及的技术要求做说明了,假设您具备高中数学的基础,或者像作者一样,还能回忆起一些数学基础知识,对python语言基础有一定的了解,那么您在阅读本文时就不会有任何困难。

另外,本文参考了《机器学习实战》中第四章《基于概率论的分类方法:朴素贝叶斯》中的内容。这里向作者致以崇高的敬意。

本文作者关于机器学习也是刚开始入门,所以相关领域的大牛们可以忽略本文。如果文中理解有误,还请大家斧正。作者邮箱:holynull@126.com

问题

这里我们使用一个例子来一步一步分析,并用python来实现分类算法。

我们假设在某网站的评论区中,我们需要实现对用户的评论进行分类。简单来说,一类为合法的评论,一类为存在不文明用语的评论。我们的问题是,现在管理员工作压力很大,每天要处理数以千计或者数以万计的评论分类,那么我们如何来帮助他们呢?

第一个想到的方法肯定是让机器能够通过评论的内容,自动对评论进行分类。听起来很美,但是实现起来貌似没那么简单。那么接下来,我们来看一下这个最好的但貌似并不简单的想法怎么来实现呢?

解决方法

第一步 样本数据

我们将管理员之前的分类数据提取出来。然后再将我们关心的数据清洗出来,做为我们研究解决方案的样本数据。我们可以将每一条评论中的单词全部提取出来,用来观察这些单词的组合和分类的关系,我们创建一个数组postingList如下:

  1. postingList = [
  2. ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
  3. ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
  4. ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'