零经验转型策略产品，你需要掌握这些知识点（2）

作为一名没有“搜索/推荐策略”经验的产品经理来说，想要转型策略产品有可能吗？转型路上都要学习什么知识与技能呢？笔者将结合自己成功转型策略产品经理的经验，为你分析需要掌握的知识点。

一、推荐策略和算法

当我们有了标签体系，采集到了用户的数据，我们要从这些数据中“读”出有用信息从而为用户打上标签，这里会涉及到数据挖掘，自然语言处理，语义理解，机器学习等技术。

1. 分词方法

比如一个用户看了一篇新闻发表了一个评论，我们想要了解他说了什么，提取出对我们有用的信息。

这里就涉及到了分词技术，比如“如果真是计算机就好了”这句话。

说几种比较简单的分词方法，比如按照字典分词，字典通常采用前缀树或者后缀树的数据结构存储，进行正向最大匹配。

以上面的为例“如”后跟“果”，“如果”是一个词语，再看第三个字“如果真”不是一个词，继续向下，发现都不是一个词组，那么就在“如果”这里进行切分。“计算”是一个词，继续向下“计算机”也是一个词语，“计算机就”不是一个词语，再往下发现到最后依然组不成词组，那么在“计算机”这里切分。

以上句子存在的交集型歧义也需要解决，“如果”和“果真”都是词语，语义理解时计算机语言读懂句子用到的是“如果”而不是“果真”。

这里还有一种分词方法是基于统计的分词方法，即我们常说的贝叶斯分词，即通过大量语料积累进行机器学习，统计出一个字后面跟另一个字的概率，从而进行分词。

2. 语义理解

语义理解中还要进行情感的理解，以及逻辑推理。情感理解，举个例子，如果是在OTA上定了一个旅店，住了一晚然后给出了评价，比较明显的情感评价是“环境太好了”“热水器真糟糕”。

不易发现的情感如“提供了早餐”，其实我们可以看出提供早餐是用户的褒义评价，但可能一般的算法读不出来。

再比如如果网购的地址填写的是学生宿舍，那么算法也需要大量学习，进行推理，从收货地址是学生宿舍推理出用户是学生，这就像百度的知识图谱。

3. 用户画像

接下来我想聊一下用户画像的几个分类，比如基本信息，如姓名，性别，年龄，生日，星座，设备号，职业，学历，手机号，邮箱等。这类特征是可以长时间不进行更新的，比较固定。

但对于这个新闻app有个问题，比如对于社交软件，用户乐于填写个人信息，但对于新闻app，可能100人，有30个人填写了信息，另外70个人不去填写。

这里我们为了给这70个用户打标签，就需要用这30个人做为样本集，进行学习。

比如通过学习，了解男性用户和女性用户的特点有什么不同，比如男性用户早晨更喜欢看时事新闻，晚上喜欢看玄幻小说，女性用户早上喜欢看娱乐热点，晚上喜欢看言情小说。通过得出的这些特征，进行“标签扩散”，为那70个未填写性别信息的用户打上性别标签。

接下来我们说一下兴趣爱好和行为特征，这类标签是经常变化的，具有时期时效性。

比如我们为了知道一个用户对哪类新闻感兴趣，设计了一个打分加权模型，每点一个分类的新闻就加一分，线性增长。

比如用户30天点了156次军事新闻，就156分，点了45次历史文章历史就是45分，我们可以看出用户最喜欢看的是军事，其次是历史。于是我们主要给他推荐军事，其次是历史。

但这里有个问题，如果某一天开始，用户开始对娱乐新闻感兴趣了，即他目前更想看的是娱乐新闻，但因为历史数据积累军事新闻权重太高，短期内算法无法推送娱乐新闻给他，那么线性打分模型是不合适的。

我想这里可以采用指数模型，比如对某个类别的兴趣权重满分是10分，前9次每次1分，第10次开始每次在之前基础上，加9*10的-（n-9）次方，第10次就是9.9，第11次点击军事就是9.99，以此类推，让权重不断逼近10。

当然我们还要通过其他特征调整权重，比如打开频率，如三天看1次军事的，还是一小时看3次军事的。这样当用户开始对新的类别感兴趣的时候，可以更快的得到推荐。

4. 常用算法

这里我们来说一下推荐算法。首先我们会把用户和新闻分别标签化，来讲一下协同。

比如甲用户喜欢军事和娱乐，乙用户喜欢科技和文学。甲乙用户标签化后相似度很高，达到了一定阈值，那么我们可以认为乙用户喜欢的分类，甲用户可能也喜欢，于是我们把科技和文学推荐给了甲用户。这是基于用户的协同。

如果甲喜欢a文章，a和b文章标签化后相似度很高，那么我们猜测甲也会喜欢b文章。

本文由摸索网（http://www.lnmosuo.com）发布，不代表摸索网立场，转载联系作者并注明出处：