机器学习分析方法有哪些

时间：2022-05-20 22:16:54 其他范文收藏本文下载本文

【导语】以下是小编帮大家整理的机器学习分析方法有哪些（共9篇），仅供参考，大家一起来看看吧。

机器学习分析方法有哪些

篇1：机器学习分析方法有哪些

特征就是分类对象所展现的部分特点，是实现分类的依据。我们经常会做出分类的行为，那我们依据些什么进行分类呢?

举个例子，如果我看到一个年轻人，穿着新的正装，提着崭新的公文包，快步行走，那我就会觉得他是一个刚入职的职场新人。在这里面，“崭新”，“正装”，“公文包”，“快步行走”都是这个人所展现出的特点，也是我用来判断这个人属于哪一类的依据。这些特点和依据就是特征。可能有些特征对我判断更有用，有些对我判断没什么用，有些可能会让我判断错误，但这些都是我分类的依据。

我们没办法发现一个人的所有特点，所以我们没办法客观的选择所有特点，我们只能主观的选择一部分特点来作为我分类的依据。这也是特征选择的特点，需要人为的进行一定选择。

而在情感分类中，一般从“词”这个层次来选择特征。

比如这句话“手机非常好用!”，我给了它一个类标签“Positive”。里面有四个词(把感叹号也算上)，“手机”，“非常”，“好用”，“!”。我可以认为这4个词都对分类产生了影响，都是分类的依据。也就是无论什么地方出现了这四个词的其中之一，文本都可以被分类为“积极”。这个是把所有词都作为分类特征。

同样的，对这句话，我也可以选择它的双词搭配(Bigrams)作为特征。比如“手机非常”，“非常好用”，“好用 !”这三个搭配作为分类的特征。以此类推，三词搭配(Trigrams)，四词搭配都是可以被作为特征的。

篇2：机器学习分析方法有哪些

特征降维说白了就是减少特征的数量。这有两个意义，一个是特征数量减少了之后可以加快算法计算的速度(数量少了当然计算就快了)，另一个是如果用一定的方法选择信息量丰富的特征，可以减少噪音，有效提高分类的准确率。

所谓信息量丰富，可以看回上面这个例子“手机非常好用!”，很明显，其实不需要把“手机”，“非常”，“好用”，“!”这4个都当做特征，因为“好用”这么一个词，或者“非常好用”这么一个双词搭配就已经决定了这个句子是“积极”的。这就是说，“好用”这个词的信息量非常丰富。

那要用什么方法来减少特征数量呢?答案是通过一定的统计方法找到信息量丰富的特征。

统计方法包括：词频(Term Frequency)、文档频率(Document Frequency)、互信息(Pointwise Mutual Information)、信息熵(Information Entropy)、卡方统计(Chi-Square)等等。

在情感分类中，用词频选择特征，也就是选在语料库中出现频率高的词。比如我可以选择语料库中词频最高的个词作为特征。用文档频率选特征，是选在语料库的不同文档中出现频率最高的词。而其它三个，太高端冷艳，表示理解得还不清楚，暂且不表。。。

不过意思都是一样的，都是要通过某个统计方法选择信息量丰富的特征。特征可以是词，可以是词组合。

机器学习分析方法四、把语料文本变成使用特征表示

在使用分类算法进行分类之前，第一步是要把所有原始的语料文本转化为特征表示的形式。

还是以上面那句话做例子，“手机非常好用!”

如果在NLTK 中，如果选择所有词作为特征，其形式是这样的：[ {“手机”: True, “非常”: True, “好用”: True, “!”: True} , positive]

如果选择双词作为特征，其形式是这样的：[ {“手机非常”: True, “非常好用”: True, “好用 !”: True} , positive ]

如果选择信息量丰富的词作为特征，其形式是这样的：[ {“好用”: True} , positive ]

(NLTK需要使用字典和数组两个数据类型，True 表示对应的元素是特征。至于为什么要用True 这样的方式，我也不知道。。。反正见到的例子都是这样的。。。有空再研究看是不是可以不这样的吧)

无论使用什么特征选择方法，其形式都是一样的。都是[ {“特征1”: True, “特征2”: True, “特征N”: True, }, 类标签 ]

机器学习分析方法五、把用特征表示之后的文本分成开发集和测试集，把开发集分成训练集和开发测试集

机器学习分类必须有数据给分类算法训练，这样才能得到一个(基于训练数据的)分类器。

有了分类器之后，就需要检测这个分类器的准确度。

根据《Python 自然语言处理》的方法，数据可以分为开发集合测试集。开发集专门用于不断调整和发现最佳的分类算法和特征维度(数量)，测试集应该一直保持“不被污染”。在开发集开发完毕之后，再使用测试集检验由开发集确定的最佳算法和特征维度的效果。具体如图：

图2：开发集和测试集(摘自《Natural Language Processing with Python》)

一般来说，训练集的数量应该远大于测试集，这样分类算法才能找出里面的规律，构建出高效的分类器。

用回前面的例子。假设条已经标注了积极和消极的评论数据，开发集可以是随机的1600条，测试集是剩余的随机400条。然后开发集中，训练集可以是随机的1400条，开发测试集是200条。

机器学习分析方法六、用不同的分类算法给训练集构建分类器，用开发测试集检验分类器的准确度

这个时候终于可以使用各种高端冷艳的机器学习算法啦!

我们的目标是：找到最佳的机器学习算法。

可以使用朴素贝叶斯(NaiveBayes)，决策树(Decision Tree)等NLTK 自带的机器学习方法。也可以更进一步，使用NLTK 的scikit-learn 接口，这样就可以调用scikit-learn 里面的所有，对，是所有机器学习算法了。我已经忍不住的泪流满面。

其实方法很容易。只要以下五步。

1. 仅仅使用开发集(Development Set)。

2. 用分类算法训练里面的训练集(Training Set)，得出分类器。

3. 用分类器给开发测试集分类(Dev-Test Set)，得出分类结果。

4. 对比分类器给出的分类结果和人工标注的正确结果，给出分类器的准确度。

5. 使用另一个分类算法，重复以上三步。

在检验完所有算法的分类准确度之后，就可以选出最好的一个分类算法了。

在选出最好的分类算法之后，就可以测试不同的特征维度对分类准确度的影响了。一般来说，特征太少则不足以反映分类的所有特点，使得分类准确率低;特征太多则会引入噪音，干扰分类，也会降低分类准确度。所以，需要不断的测试特征的数量，这样才可以得到最佳的分类效果。

机器学习分析方法七、选择出开发集中最佳的分类算法和特征维度，使用测试集检验得出情感分类的准确度

在终于得到最佳分类算法和特征维度(数量)之后，就可以动用测试集。

直接用最优的分类算法对测试集进行分类，得出分类结果。对比分类器的分类结果和人工标注的正确结果，给出分类器的最终准确度。

用Python 进行机器学习及情感分析，需要用到两个主要的程序包：nltk 和 scikit-learn

nltk 主要负责处理特征提取(双词或多词搭配需要使用nltk 来做)和特征选择(需要nltk 提供的统计方法)。

篇3：机器学习的方法是什么

机器学习方法一、从心开始

在先前的Thinking Big Data? Think Bold Questions Instead一文中我指出，在大数据时代，我鼓励人们从一个问题开始学习而不是从一个工具开始。这个道理同样适用于AI/机器学习领域。在我们如今生活的年代，让人兴奋的是我们可以提出真正无所畏惧的问题。因为我们已经不再受到硬件或软件的限制。

首先花时间彻底弄清楚你正在解决的问题的类型。使用“五个为什么”(问为什么?五次)的方法来追朔问题的根源。根据我的经验，我发现了一些常规形式：

Top Line(收入)：哪一个是我们最好/最有利可图的产品、客户、期望等，采取什么行动可以获取最大利益?这是一个扩展的经典市场细分和商业智能报告。使用大数据和人工智能领域的新工具，我们可以分析海量的数据和组，或者做出高精度和细微差别的预测。

Bottom Line (成本代价):在我们的操作过程中，效率低下的地方有哪些，如何优化才能降低成本?这也是一个扩展的传统报表技术。

消费者经验：促使消费者最佳/积极消费经历的因素是什么，要怎么做才可以提升它?除了上面提到的方法和工具，推荐引擎(类似于Amazon和Netflix)在这个领域里也扮演了重要的角色。面向客服服务的自动助手也成为可能。

知识发现/决策支持：我们从已知的信息中能够挖掘到什么新知识，并且应该如何使用它来做出决策呢?这是我个人最喜欢的一个方向，我职业生涯的大部分时间都在做这个。决策支持工具已经出现了一段时间，但技术的进步持续地提高了计算机的处理分析能力，让我们从处理分析能力的限制里解脱出来，不用担心处理能力的不足，从而专注发现。

智能机器/软件：其他领域都集中于使企业或消费者变得更好，然而这一领域专注于创造智能机器来处理世界上特定的问题：从导航真实世界到数据的实时分析和反应。机会仍然存在，即使你不是一个核心软体开发公司。如果你在这个领域有商业理念，你可以永远与那些能给你的生活带来愿景的人合作。

如果这些问题带领你去寻找一个非技术性解决方案，那么请不要惊讶。有时候，最好的解决方案并不是实现一个软件，而是从人以及处理方法上做改进。

比如，我曾被带去帮助一个出版社组织去评估新的分析工具。在挖掘详细信息之后，我发现他们面临的真实问题是“创新者的窘境”。任何一种新技术都可能腐蚀他们已存的商业模式，除非他们先解决自己市场上的混乱。我对此给出了一些适度的技术改进方法，但我还是鼓励他们把大部分精力集中在解决商业模式的问题上。

你可能也会发现，很多传统的商业智能工具都是有必要的，或许你有一个不需要人工智能的大数据规模问题。请牢牢记住，成功往往是问正确的问题，而不是挑选闪亮的新玩具。

机器学习方法二、识别机器学习类别

尽管供应商和算法多的让人有些眼花缭乱，但事实上机器学习方法只有那么几类。首先，从你需要解决的问题开始识别方法，然后你就可以缩小供应商和支持此方法的最佳工具。这看起来可能很明显，但我都不知道有多少次看到一些公司在理解需求或方法之前就开始使用特定的工具了(Hadoop，还有其它的吗?)。

最常见的方法如下：

Feature Extraction(特征提取)：这种方法需要一个类似文本、图像、视频、音频的原始输入，然后提取可以在随后的机器学习算法中使用的相关“特征”和模式。这与其自身并不是息息相关，但却是一个重要的预处理步骤。

Clustering(聚类)：此方法也称作“unsupervised learning(无监督学习)”，它基于相似性原理将原始数据或特征和组对象组放到一起。唯一真正的要求就是对象需要一种比较相似性的手段，例如，比较它们相似或不同的方法。

Classification(分类)：此方法也称作“supervised learning(监督学习)”，分类需要原始数据或特征，以及一个用户定义的类别，然后开发规则将这些对象归入到这些类别中。这种规则接着可以用来预测新的、没有类别的对象。这种技术也有助于标记内容，例如，图片、视频和产品。

Prediction(预测)：此方法根据已知的数据来确定关系，并制定规则，然后预测未来的事件，例如，一个客户的离开(“客户流失”)或一个人会不会买这件商品(“推荐引擎”)。预测的过程真的很有趣，做预测的一个最佳理由就是：谁不想预测未来呢?

该列表看似很短，然而很多公司在实践中都曾在其中绊倒过，简而言之就这几个。即使更先进的解决方案，如谷歌的无人驾驶汽车使用的也是这些基本的构建模块：特征提取(将其三维空间降解为一系列机器可读的对象)，分类(这些物体看起来像一辆车，那些对象看起来像行人)，预测(如果是红灯，我前面的车将会停止)。

这些模块的选择(无论是单独使用还是组合)，取决于你需要解决的问题，并且你可以以你的方式更好地完成一个成功的机器学习项目。

机器学习方法三、选择适合你风险承受能力的技术

一旦你了解了你需要的机器学习的算法类型，最后一步就是评估和选择符合你特定需求的技术。你可能会倾向于使用最富有特色的方法，但这可能会导致组织风险承受能力的不匹配。我看到一些大的、成熟的组织从一些灵活的小公司中选择软件，类似于小公司和IBM这样的大公司。每一次，都在合同的墨水还没干涸之前就出现了问题。

所以，你最好和一个与你的整体策略、理念和风险承受能力在一个等级的供应商合作。领域的变化非常快，一个纯技术的决定是相当短见的。你要有一个能以类似的速度成长和适应的伙伴，这样就不存在任何期望的不匹配。除了技术，还需根据以下几个方面进行评估：

公司成长战略

领导团队

咨询方式(传统的瀑布型，敏捷开发型等)

技术风格(专有的重型研发，集成等)

找到那些与你的企业精神相匹配的公司，如此你才会为你踏上这个旅程找到一个好的合作伙伴。你也可以使用这种评估，故意地移除这些公司。如果你是一个需要更多创新的大型公司，你可以选择一个更富有活力和进取心的供应商，仅仅只是为了将新的思想和精力注入到一个不景气的企业。只是要确保时刻睁开你的双眼，关注着发生的一切。

最后一点看法

在机器学习的嗡嗡声下，伴随的是解决复杂业务问题或改革新产品的真正机会。但在该领域所有的噪音和咆哮下，你需要保持冷静的头脑并以一种理性的方法来研究项目：以全面综合的方式确定项目的需要，选择合适的方法，并评估供应商。做到了这些，你将会领先于你的大部分竞争对手，并成为此领域的佼佼者。

篇4：学习机器作文

父母生下我们，难道只是让我们做学习的机器吗？

现在的家长普遍都有望子成龙、望女成凤的心愿，希望自己的子女在充满残酷竞争的社会里取得成功。而能够成功的总是少数人，因此很多学校、家长在用少数人的成功模式去教育所有的孩子，没有人会希望自己的孩子将来没出息。

我妈何尝不是这样的人呢？这个暑假，光培训班就报了一大堆，每天从早上八点学到晚上七点。按照她的想法，提前学习下学期的内容，能起到打好基础的作用。总之，她就是希望我能取得好的成绩。（我能理解她的想法。）

普天下的家长又何不是这样想的呢？但孩子也是人，不是学习的机器，所以，专门逼迫孩子学习是不可取的，我只是希望家长们能正确理解这一观点。

小明以前的成绩不好，但其爸妈对他的要求却非常严格，只要他考的好，80分以上，多少分给多少钱，若是以下……用80分减去得的分数再除以五（取整数），是多少就打多少下，小明怕爸妈，所以，便私底下与同学“合作”，果然小明的成绩突飞猛进，但他爸妈却不知情，以为是他们教育有方。小明分些钱给帮助过他的“哥们”。余下的钱就与那些所谓的好朋友一起上网游戏，打架……老师很奇怪，便在考试时专门注意他，果然，发现了他与同学作弊，将情况汇报给家长，后果嘛！自己想，我不忍心将那种皮开肉绽的场面描写出来。

不过有很多家长认为，不打能成器吗？我反问一句：“难道你们认为，一手拿着棍子，另一只手拿着钱，就能将孩子培养成才吗？

小刚的爸爸很尊重小刚，从不打骂他，孩子喜欢玩电脑，行，给他买，当然是在学习好的情况下，孩子喜欢画画，行，让他画。高考之后，小刚也不负众望，以647分高分，考上了北京人民大学。您说棍棒底下能出才子吗？

家长们，我们不是“学习的机器”，所以务必不要逼迫我们去学习。逼迫去学，脑神经是死的，而若激起孩子对学习的兴趣，脑神经才是活的。

把“要我学”转变成“我要学”才是最明智的选择。

篇5：学习机器作文

我只是家长的一个学习机器，我一点也不快乐。

我是家长口中别人的孩子，基本上每次都能考到高分，偶尔也有两三次没考好。但父母还是不满意，在她们眼中，我永远都没别人家的孩子好。只看得到我的成绩，永远都看不到我的`努力。我对她来说就是一个学习的机器，我都快崩溃了，每天都要戴上面具和她们做交流，每天晚上枕头都是湿的，晚上8点上床，凌晨1、2点才能睡着。

有时候，做好了，换来的只有一句表扬；有一点没做好，等来的就只能是打骂。

大人说东，我们绝不能往西，不然的话就是不尊重长辈，不听话。

虽然我知道你们这是为了我好，为了不让我在以后的社会中淘汰，但你们可以换一种方式吗？你可以对我好一点吗？我们学生真的也很累，每天写作业写到八九点，考试一旦没考好就会遭到你们的责骂，每天辛辛苦苦写作业，换来的只有一顿责骂吗？

只能按照你们的要求做，哈哈哈哈哈哈，学生？我们还是人吗？中国学生到底犯什么罪了？作业是外国人发明的，可是还是中国学生写的最多。每天写作业，上课，写作业，上课，累成狗！家长们呢？无动于衷！“你们就是该学习的年龄”，我们受到的嘲讽是家长们永远不能想象的！我只是希望你对我们好一点！别再把我们当成你们的学习机器了！

好不容易到了双休日，终于可以休息的时候，却听见这声音：“作业写完了吗？还不快去写！”难道我们只能做你的学习机器吗？我也有自己想做的事情，只希望你能理解我的苦。

请别再把我当做你们的学习机器了！

篇6：学习机器作文

在满教室的惊奇蔓延的红色“大无畏”学习思想中，那学习机器却在下一代的惊愕中成为了看上去光鲜亮丽的教育失败品……

毋庸置疑的，他们光荣地完成了光辉的初中三年，发的光是金子在阳光下散发的耀眼光以环绕光晕，何等的夺目！“市状元”同等吸引人，多少人的目标或是多少家长的强求，却不知，一个“市状元”，也许让她失去了更多。

而她得到了什么？一个“市状元”，一个好高中，一群“忠实粉丝”。也许多年之后是状元的名号，只会留在档案，一个就读的好高中决定不了人生，成为过去。那群“忠实粉丝”终将散去，有的人成了新状元，那群人转向新状元。人走茶凉，无论人气多高，最终也会散去。

她也有可能会有辉煌的人生，这我不反对；但有的市状元，却碌碌无为。

她的理科很好，数学挺不错，她数学老师也因此扬名立万，接受了不少采访。也因状元的光太耀眼，沾染了光彩罢了，我现在的老师也是那个老师，高兴地，高调宣传，卖力的很，我仿佛“三生有幸”地分到那老师的班上，他讲：“那个状元，乐于学习，甚至到了不让做题非要做的境界。”

一句话，可把我大720班的许多同学目瞪口呆，一些人的惊讶也成了佩服、膜拜。毕竟，“状元”不是所有人都能拿到的，佩服也正常，但不谈事件的真实性，光这个语言就足以令人质疑，“爱学习者寡矣”，以那宣传来说，这人的大无畏学习精神异常珍贵，我们也无从得知事情真相。

这愕然的学习方法我也不知效果如何，改天可以试一下，那老师接着说：“我的上一届学生就希望拖堂，下课了也要做题。”我不敢想象这样的场面，也难以想象，在我脑海里出现的只有学生的叹气，也从中不难知道以后的作业会有多少。

这大无畏学习法还是发扬光大，他们少了对活动的盼望，对于广阔世界的杯葛。

何等的释怀？

万事人之本性，人们追求快乐，我也在伤怀中叹息了。

篇7：机器学习就业前景

目前机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型，按照Jordan的说法是机器学习属于频率主义，而图模型属于贝叶斯主义)，对于每一个做统计机器学习的研究者来说，他们大致可以分为两类：一类做统计学习理论相关工作，如泛化界、约简或一致性;一类做优化算法，如支持向量机、Boosting等。作为一个纯统计机器学习的学者来说，我想这两块内容都得了解。优化算法的门槛低点，可能比较容易上手，了解他们并不太难，比如支持向量机本质上是求解一个RKHS上的二次优化问题，Boosting是函数空间上的梯度下降优化问题。统计学习理论的门槛高点，需要的基础数学知识多点，离计算机出生的人比较远，因而常常使人望而生畏。最近本人对统计学习理论这块做了些整理，发现其实这块东西并非如想象的那么难，他们的本质无非是概率集中不等式在机器学习上的应用，下面以泛化界为例讲一下自己对那块内容的理解。

Talagrand说过: “A random variable that depends (in a ”smooth way“) on the influence of many independent variables(But not too much on any of them) is essentially constant”. 中文上的意思是，依赖于许多独立随机变量的随机变量本质上是个常量，举个例子，经验风险就是一个依赖于一个随机训练样本集合的随机变量，因而经验风险本质上应该是个常量。正因为如此，这个随机变量离开它均值的概率就以指数形势衰减，因此这就是泛化界中常见的如下论述：“以1-sigma的概率，作如下论断”的由来。目前使用的各种泛化界分析工具本质上正是基于这个原理，下面介绍下目前主流的三种泛化界分析方法，VC维，R复杂度和稳定性分析。

为了叙述清楚，如一个游戏开始之前需要设置游戏规则一样，这里简单介绍一下机器学习问题设置。统计机器学习研究的问题一般是，给定一堆带标签的训练样本集合，需要从训练集合中学习出一个预测器来，对新的样本进行预测，使得预测结果尽可能的接近它的真实标签。相应的，对统计机器学习理论分析，我们需要做如下一些假设：假设训练样本集合是从一个未知但固定的分布中独立同分布的抽取出来，学习的目标是根据这样一个样本集合，从一个事先给定的分类器集合中挑选出一个分类器，使得分类器的对从同一个分布中随机抽取的样本在给定的一个损失评价下的风险最小。一个需要特别注意的是，在统计学习泛化界分析时，分类器的风险常常被认为是随机样本集上的一个随机变量，这样的随机风险集合(以分类器为索引)在统计上被叫做经验过程。

VC维可能是影响最深也是最早提出来的泛化界分析方法， V是统计机器学习理论的垫基者Vapnic的名称的缩写，这从名称上就验证了VC维在统计机器学习理论的影响力。这块的分析得先从Hoeffding不等式说起，Hoeffding不等式本质说明一组独立随机变量的均值离开它的期望的可能性以指数形式衰减。因此，对于任一给定的分类器F(F与训练样本集合无关), F与每个随机样本结合形成了一个F作用在该随机变量上的新的随机变量(取值0，1，即分对与分错)，这个随机变量的期望刚好是F的期望风险，N个这样随机变量的均值刚好是F的经验风险，因此，我们获得了F在N个训练样本集合上的经验风险偏离F期望风险的可能性的概率描述，为叙述方便，以下简称经验风险偏离F期望风险为偏离情况。然而，这样的概率描述只能针对一个F，它所起作用的那部分训练样本集合上也直接与F相关，而我们的学习是从事先给定的函数空间中选择一个F，因此我们并不能保证Hoeffding不等式作用的那个F就是我们选择出来的F，即使假设我们没看到训练样本集合之前，我们已经知道选择哪个F，我们在推导该F与最优F(函数空间里期望风险最小的F)之间关系时，也需要一个不随样本集合变化的概率描述。因此，我们需要一个对函数空间中的所有F一致成立的偏离情况的可能性的概率描述，这就是泛化界里常说的uniform。当函数空间的势是个有限值时，这种情况比较容易处理，分别对每个F运用Hoeffinding不等式，所有的偏离可能性的和就是存在一个F，它的偏离情况超过一个给定值的概率的上界。反过来说，即是假设空间里的任何函数都以至少一定的概率，偏离情况小于一个给定值。当函数空间的势不是一个有限值时，上面的处理就遇到了问题，因为无穷个偏离可能性的和是个无穷大的数，这样的上界就是个无意义的事。为了处理这种情况，我们的先驱者注意到了以下两个情况：1)假设空间的中所有函数偏离情况的上确界是所有函数偏离情况的上界;2)在任何有限的样本上(比如N)，尽管函数空间的势是无穷的，但是它们作用在有限个样本的分类情况却是有限的(上界是2^N)。如果我们能够找到偏离情况的上确界的概率的一个上界，并且这个上界能够以有限个样本上的某种概率表达出来，我们就能解决问题。具体的做法是，可以证明偏离情况的上确界的概率的一个上界是两个同样大小的从同一分布中抽取的训练样本集合经验风险之差的概率的上确界。然后对后者就可以使用有限假设空间下的Hoeffinding不等式，得出后者偏离情况的概率描述。为了得到比较精确的界的描述，必须刻画函数集合在有限样本上的分类情况，这个分类情况对应的术语叫生长函数，它表示N个样本被函数空间的函数们分成不同情况的最大值。为了计算生长函数，VC维被定义出来，它描述了函数集合分类样本的能力，具体表现为函数集合能够任意分类的最大样本个数。由生长函数和VC维定义马上知道，当样本的个数N小于等于VC维时，生长函数的值等于2^N, 否则生长函数的值小于2^N。这也说明了，一个有限VC维空间的生长函数并非指数增长，从而避免了界的无意义性。Vapnik老前辈已经为我们推导出了生长函数与VC维的关系不等式，将他们之间的关系降到了多项式，因而我们的界从O(1)->O(sqrt(logn/n))。后人在此基础上又提出了一些改进，主要集中在如何让不等式的界更紧，比如比生长函数小的VC熵，对函数能力的更有效描述的覆盖数，还有对Hoeffding不等式的改进版本Bernstein不等式等。VC维这套理论的建立为统计机器学习的理论铺下了坚实的理论基础，从此机器学习变得有理可依，也许这就是机器学习从人工智能中分离出来的一个重要因素之一，然而由于VC维的难以计算，还是给具体应用带来了不便(目前常用的一个事实是，d维超平面集合的VC维是d+1)。

R复杂度的提出，动机之一就是克服VC维的的不容易计算。另外一个原因是某些算法在无穷维空间里也获得了很好的经验性能，然而却不能用VC维解释。比如RKHS中的函数都是无穷维的，在此空间得出的用VC维表达的界是平凡的，无法对实际算法设计提供指导。与VC维类似，R复杂度也是对一个函数集合能力的描述，它描述了函数集合拟合噪声的能力，能力越强，R复杂度越大。R复杂度有两种：一种是期望R复杂度，一种是经验R复杂度，期望R复杂度与经验R复杂度本质上也是经验量与期望量之间的关系，因而也可以用概率集中不等式描述其中的关系，经验R复杂度因为是给定了N个样本的情况，因而更容易计算。与VC维的分析类似，R复杂度的分析也是专注于偏离情况的上确界，与VC维不同的是，这儿使用了一个比Hoeffinding更强大的不等式McDiarmid集中不等式，由Mcdiarmid不等式我们可以得出，偏离情况与期望偏离情况之间的差的概率描述。其中期望偏离情况的分析比较复杂，通过一些列分析可以得出期望偏离情况的一个上界，刚好是函数集的R复杂度，由此我们得到了与VC维类似的一个泛化风险界，其中生长函数被替换成了R复杂度。R复杂度的计算比VC维容易，常常可以根据一些不等式如Cauchy-Schwarz或Jensen不等式求出，另外机器学习大牛们还提供了一些组合函数的与个体函数之间R复杂度的关系的计算公式，因此对于实际应用更有指导意义，比如我们可以从中推导出著名的Margin界。

VC维和R复杂度存在的一个问题是，它们关心的都是整个函数空间的拟合能力，而对算法如何搜索函数空间无关，实际上我们并不需要一个对整个函数空间都成立的界，我们关心的只是我们的算法可能搜索到的函数的泛化能力，此外，描述一个函数空间能力大小的事也不是一件容易的事情。因此，我们需要一个能够仅仅对我们算法搜索出来的解的泛化能力分析的概率表达式子。因此与前面两种分析方法不一样的是，稳定性分析关心的是算法搜索出来的解的偏离情况的概率描述。稳定性描述的是当训练样本集合中的训练样本发生变动时(常常研究一个变动)，算法输出的分类器是如何变化的，用的最多是算法的一致稳定性，它表示，当训练集合中的一个样本被替换或者删掉时，分类器的输出的函数在定义域上变动的最大值，这个最大值称为稳定数，即对应于两个函数之差的无穷范数。有了这个工具后，我们对算法输出的函数的偏移情况与期望偏移情况使用McDiarmid集中不等式，就可以得出偏移情况的一个上界，在对期望偏移情况分析，可以得出期望偏移情况的一个用算法稳定数表示的上界，因此我们得到了一个用稳定数表达的算法输出的函数期望风险的上界。由于我们需要得到一个有意义的上界，因此稳定数至少应该长得像1/N。接下来稳定性分析关心的是，如何计算有效的稳定数的问题，大牛们已经提供了一套在正则化RKHS空间下的算法稳定性的计算公式，可以发现这个空间下的算法的确满足1/N的形式。

统计机器学习推动了机器学习的发展，统计学习理论的建立为统计机器学习奠定了坚实的基础，随着统计机器学习理论的发展，相信不久将来更紧的更容易指导实践的界会被提出来。想做这块研究的人需要一定的数学基础，然而，做出来的东西确很少有实际价值，因此需要慎重对待。好了，改天有空再写写自己对一致性或约简的一些体会。

[机器学习就业前景]

篇8：数据挖掘机器学习总结

1 决策树算法

机器学习中，决策树是一个预测模型；它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象，每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出；若需要多个输出，可以建立独立的决策树以处理不同输出。

从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

决策树学习也是数据挖掘中一个普通的方法。在这里，每个决策树都表述了一种树型结构，它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。

1.1 决策树的工作原理

决策树一般都是自上而下的来生成的。

选择分割的方法有多种，但是目的都是一致的，即对目标类尝试进行最佳的分割。

从根节点到叶子节点都有一条路径，这条路径就是一条“规则”。

决策树可以是二叉的，也可以是多叉的。

对每个节点的衡量：

1) 通过该节点的记录数；

2) 如果是叶子节点的话，分类的路径；

3) 对叶子节点正确分类的比例。

有些规则的效果可以比其他的一些规则要好。

1.2 ID3算法

1.2.1 概念提取算法CLS

1) 初始化参数C={E}，E包括所有的例子，为根；

2) 如果C中的任一元素e同属于同一个决策类则创建一个叶子节点YES终止；否则依启发式标准，选择特征Fi={V1, V2, V3,……, Vn}并创建判定节点，划分C为互不相交的N个集合C1，C2，C3，……，Cn；

3) 对任一个Ci递归。

1.2.2 ID3算法

1) 随机选择C的一个子集W (窗口)；

2) 调用CLS生成W的分类树DT(强调的启发式标准在后)；

3) 顺序扫描C搜集DT的意外(即由DT无法确定的例子)；

4) 组合W与已发现的意外，形成新的W；

5) 重复2)到4)，直到无例外为止。

启发式标准：

只跟本身与其子树有关，采取信息理论用熵来量度。

熵是选择事件时选择自由度的量度，其计算方法为：P=freq(Cj,S)/|S|；INFO(S)=-SUM(P*LOG(P))；SUM()函数是求j从1到n的和。Gain(X)=Info(X)-Infox(X)；Infox(X)=SUM( (|Ti|/|T|)*Info(X)；

为保证生成的决策树最小，ID3算法在生成子树时，选取使生成的子树的熵(即Gain(S))最小的特征来生成子树。

ID3算法对数据的要求：

1) 所有属性必须为离散量；

2) 所有的训练例的所有属性必须有一个明确的值；

3) 相同的因素必须得到相同的结论且训练例必须唯一。

1.3 C4.5算法

由于ID3算法在实际应用中存在一些问题，于是Quilan提出了C4.5算法，严格上说C4.5只能是ID3的一个改进算法。

C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

C4.5算法有如下优点：

产生的分类规则易于理解，准确率较高。

C4.5算法有如下缺点：

在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

分类决策树算法：

C4.5算法是机器学习算法中的一种分类决策树算法，其核心算法是ID3算法。

分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。

决策树的各部分是：

根：学习的事例集；

枝：分类的判定条件；

叶：分好的各个类。

1.3.1 C4.5对ID3算法的改进

1) 熵的改进，加上了子树的信息。

Split_Infox(X)= -SUM( (|T|/|Ti|)*LOG(|Ti|/|T|))；

Gain ratio(X)= Gain(X)/Split_Infox(X);

2) 在输入数据上的改进

① 因素属性的值可以是连续量，C4.5对其排序并分成不同的集合后按照ID3算法当作离散量进行处理，但结论属性的值必须是离散值。

② 训练例的因素属性值可以是不确定的，以?表示，但结论必须是确定的。

3) 对已生成的决策树进行裁剪，减小生成树的规模。

2 The k-means algorithm（k平均算法）

k-means algorithm是一个聚类算法，把n个对象根据它们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

假设有k个群组Si, i=1,2,...,k。μi是群组Si内所有元素xj的重心，或叫中心点。

k平均聚类发明于1956年，该算法最常见的形式是采用被称为劳埃德算法(Lloyd algorithm)的迭代式改进探索法。劳埃德算法首先把输入点分成k个初始化分组，可以是随机的或者使用一些启发式数据。然后计算每组的中心点，根据中心点的位臵把对象分到离它最近的中心，重新确定分组。继续重复不断地计算中心并重新分组，直到收敛，即对象不再改变分组（中心点位臵不再改变）。

劳埃德算法和k平均通常是紧密联系的，但是在实际应用中，劳埃德算法是解决k平均问题的启发式法则，对于某些起始点和重心的组合，劳埃德算法可能实际上收敛于错误的结果。（上面函数中存在的不同的最优解）

虽然存在变异，但是劳埃德算法仍旧保持流行，因为它在实际中收敛非常快。实际上，观察发现迭代次数远远少于点的数量。然而最近，David Arthur和Sergei Vassilvitskii提出存在特定的点集使得k平均算法花费超多项式时间达到收敛。

近似的k平均算法已经被设计用于原始数据子集的计算。

从算法的表现上来说，它并不保证一定得到全局最优解，最终解的质量很大程度上取决于初始化的分组。由于该算法的速度很快，因此常用的一种方法是多次运行k平均算法，选择最优解。

k平均算法的一个缺点是，分组的数目k是一个输入参数，不合适的k可能返回较差的结果。另外，算法还假设均方误差是计算群组分散度的最佳参数。

3 SVM（支持向量机）

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。

支持向量机属于一般化线性分类器。它们也可以被认为是提克洛夫规范化（Tikhonov Regularization）方法的一个特例。这种分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。

在统计计算中，最大期望（EM）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），也就是将隐藏变量像能够观测到的一样包含在内从而计算最大似然的期望值；另外一步是最大化（M），也就是最大化在 E 步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个 E 步计算，这个过程不断交替进行。

Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起，然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去，这种分类器被称为支持向量机(Support Vector Machine，简称SVM)。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法，但是进展很快，已经被广泛应用在各个领域之中。

SVM的主要思想可以概括为两点：(1) 它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能；(2) 它基于结构风险最小化理论之上在特征空间中建构最优分割超平面，使得学习器得到全局最优化，并且在整个样本空间的期望风险以某个概率满足一定上界。

在学习这种方法时，首先要弄清楚这种方法考虑问题的特点，这就要从线性可分的最简单情况讨论起，在没有弄懂其原理之前，不要急于学习线性不可分等较复杂的情况，支持向量机在设计时，需要用到条件极值问题的求解，因此需用拉格朗日乘子理论，但对多数人来说，以前学到的或常用的是约束条件为等式表示的方式，但在此要用到以不等式作为必须满足的条件，此时只要了解拉格朗日理论的有关结论就行。

支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

有很多个分类器(超平面）可以把数据分开，但是只有一个能够达到最大分割。

我们通常希望分类的过程是一个机器学习的过程。这些数据点并不需要是中的点，而可以是任意(统计学符号)中或者 (计算机科学符号) 的点。我们希望能够把这些点通过一个n-1维的超平面分开，通常这个被称为线性分类器。有很多分类器都符合这个要求，但是我们还希望找到分类最佳的平面，即使得属于两个不同类的数据点间隔最大的那个面，该面亦称为最大间隔超平面。如果我们能够找到这个面，那么这个分类器就称为最大间隔分类器。

设样本属于两个类，用该样本训练SVM得到的最大间隔超平面。在超平面上的样本点也称为支持向量。

[

数据挖掘机器学习总结

]