Category: 统计学习

SVM

统计学习方法SVM支持向量机大家耳熟能详，应该没人反对向量机吧线性可分支持向量机（硬）本节讨论线性可分数据集的情形感知机数据集$\set{(x_i,y_i)},y_i\in \set{-1,1}$是线性可分的，指存在一个平面：$$w^\ast \cdot x+b^\ast =0$$能将标签是$-1$和$1$的数据点划分开当$x$从该平面的一侧变到另一侧时，$w^\ast \c...

2024-06-19 统计学习

Adaboost

统计学习方法Adaboost简介这不是一个具体的算法，而是一个进化方法。基于某一个已经有的算法，Adaboost能让它变强弱分类器：就是一个分类算法，只不过它比较菜，菜到什么程度呢？菜到就比依概率随机分类要强那么一点，比如一个正确率55%的二分类算法 Adaboost的思想是什么呢？和听写一个道理，初始，字都不会写，第一次错了很多，订正的时候把写错的字罚抄10遍，第二次听写时，你着重关注了...

2024-06-18 统计学习

Decision Tree

统计学习方法决策树简介决策树由结点和有向边组成，最末端的叶结点表示一个类非末端的结点就是一个决策点，类似于switch case语句，经过该决策点后数据就做了一次划分。整棵树，就是一些case语句的合体我们要通过一些数据，学出一颗棵很聪明的树，能对新来的数据进行分类，企图让树拥有决策的智慧十年树木，百年树人目标：我们需要的是一个与训练数据矛盾较小的树，而不是一个完美划分的树，如果目标是...

2024-06-17 统计学习

MCMC

统计学习方法MCMCMonte Carlo就是“用随机抽样进行模拟数值计算”，均匀撒点求面积、用样本均值计算总体均值，都算Monte Carlo方法，毕竟，Monte Carlo是赌城的名字而非科学家的名字注意：此处需要概率分布是已知的！你的目标就是求某一概率密度分布$p(x)$下的某个统计量，当然需要事先知道该概率分布$p(x)$ 一个潜在的问题是，你想用“样本”去近似算统计值（依靠大数...

2024-06-10 统计学习

PCA

统计学习方法PCA声明：以下默认“主成分”均指总体主成分，而不是样本主成分你是什么成分？统计学中，处理的都是一堆随机变量，要从这些随机的东西中看出点什么，就是要把杂乱的关系“解耦”清楚。就像物理中的复杂的多粒子体系，如何处理比较好呢？方法是把它们解耦为好几个模态，每一个模态都是一个简谐振动，这样就分析出了这个体系的几根骨架。提取主成分的思想也是一样：对原本互相相关的几个随机变量进行（正交...

2024-06-01 统计学习

Entropy

统计学习方法熵信息熵定义对于一个随机变量$X$而言，其可能取值为$x_1,x_2,x_n\dots$，其取到的概率分别为$p_1,p_2,\dots p_n$那么定义其熵为（此处的$\log$底数是2）：$$H(X):=-\sum_{i=1}^n p_i\log p_i$$其含义是什么呢？把这个随机变量想成一个“数据”序列，例如$x_4 x_8 x_3 x_9 x_5 x...

2024-04-04 统计学习