1. 主页 > 网络营销 >

AI产品经理必修——揭开算法的面纱(EM算法)

只要有一些练习数据,再界说一个最大化函数,回收EM算法,操作计较机颠末若干次迭代,就可以获得所要的模子。这实在是太美好了,这也许是我们的造物主决心布置的。所以我把它称作为上帝的算法。——吴军

AI产物司理必修——揭开算法的面纱(EM算法)

01 极大似然道理

要当即EM算法,我们先来相识一个经典的道理——极大似然道理(也叫最大似然道理)。

AI产物司理必修——揭开算法的面纱(EM算法)

看完这个示例,想必你对极大似然已经有了劈头的认识,没错,满意某个条件,使得事件产生的大概性最大。上面这个例子,就是,满意小球从乙箱中取出,使得球是黑球的概率最大。

我们再来看一个经典的示例:

问题:假设我们需要观测我们学校的男生和女生的身高漫衍。

步调1:在校园里随便地活捉了100个男生和100个女生,共200人。

步调2:你开始喊:“男的左边,女的右边,其他的站中间!”。

步调3:统计别离获得100个男生的身高和100个女生的身高。

求解:假设他们的身高是听从高斯漫衍的。可是这个漫衍的均值u和方差∂2我们不知道,这两个参数就是我们要预计的。记作θ=[u, ∂]T。

用适才的语境来表明,就是,满意这个分部的均值u和方差∂2,使得我们的视察数据(100个男生身高和100个女生的身高)呈现的大概性最大。

总结一下,最大似然预计的目标就是:操作已知的样本功效,反推最有大概(最或许率)导致这样功效的参数值。极大似然预计提供了一种给定调查数据来评估模子参数的要领,即:“模子已定,参数未知”。通过若干次试验,调查其功效,操作试验功效获得某个参数值可以或许使样本呈现的概率为最大,则称为极大似然预计。

02 EM算法(期望最大值算法)

回到例子自己,假如没有“男的左边,女的右边,其他的站中间!”这个步调,此刻这200小我私家已经混到一起了。这个时候,对付每一个样本可能你抽取到的人,就有两个对象需要预计的了:

这小我私家是男生照旧女生?

男生和女生对应的身高的高斯漫衍的参数是几多?

那这个问题EM算法是怎么办理的呢?我们先来看谜底。

步调1:我们先随便猜一下男生(身高)的正态漫衍的参数:如均值和方差是几多。譬喻男生的均值是1米7,方差是0.1米(虽然了,刚开始必定没那么准)。女生的正态漫衍参数同理。

步调2:计较出每小我私家更大概属于第一个照旧第二个正态漫衍中的。譬喻,这小我私家的身高是1米8,那很明明,他最大大概属于男生的谁人漫衍)。这个是属于Expectation一步。

步调3:有了每小我私家的归属,我们已经或许地按上面的要领将这200小我私家分为男生和女生两部门了。

此刻看出来了吗?我们已经别离获得了100个男生的身高和100个女生的身高。是不是回到了最大似然预计问题?

步调4:按照最大似然预计,通过这些被或许分为男生的n小我私家来从头预计第一个漫衍的参数,女生的谁人漫衍同样要领从头预计,也就是从头求解这个漫衍的均值u和方差∂2。这个是Maximization

假定计较功效当前男生的均值是1米74,方差是0.08。

看出来了吗?这和我们最初随便猜的谁人参数纷歧致呀!

步调5:从头猜。假定我们第二次揣摩时取其中间值,譬喻男生的均值是1米72,方差是0.09。继承步调1——步调2——步调3——步调4……如此来去,直到收敛,参数根基不再产生变革为止。

我们再用一个简朴的例子来总结这EM算法的精华:

小时候,老妈给一大袋糖果给你,叫你和你姐姐平分,然后你懒得去点糖果的个数,所以你也就不知道每小我私家到底该分几多个。咱们一般怎么做呢?先把一袋糖果目测的分为两袋,然后把两袋糖果拿在阁下手,看哪个重,假如右手重,那很明明右手这代糖果多了,然后你再在右手这袋糖果中抓一把放到左手这袋,然后再感觉下哪个重,然后再从重的那袋抓一小把放进轻的那一袋,继承下去,直到你感受两袋糖果差不多相等了为止。

EM算法就是这样,假设我们想预计知道A和B两个参数,在开始状态下二者都是未知的,但假如知道了A的信息就可以获得B的信息,反过来知道了B也就获得了A。可以思量首先赋予A某种初值,以此获得B的预计值,然后从B的当前值出发,从头预计A的取值,这个进程一直一连到收敛为止。

此刻,我们来总结一下:

EM(Expectation Maximization)算法包罗了两个进程和一个方针函数:

本文由摸索网(http://www.lnmosuo.com)发布,不代表摸索网立场,转载联系作者并注明出处:

联系我们

工作日:9:30-18:30,节假日休息