机器学习算法之决策树

2019-05-25

预测喜欢的电影

小明的观影记录

序号 片名
1 疯狂动物城
2 美国队长2
3 龙珠Z:复活的弗利萨
4 速度与激情8
5 战狼2
6 赛尔号大电影6:圣者无敌

近期上映的电影列表

星际特工、叶问、疯狂动物城、美国队长2、龙珠Z:复活的弗利萨、速度与激情8、战狼2、赛尔号大电影6:圣者无敌

分类

按类型分:

类型 片名 是否都看过或都没看过
动作 速度与激情8、战狼2、叶问
科幻 星际特工、美国队长2
动漫 疯狂动物城、龙珠Z:复活的弗利萨、赛尔号大电影6:圣者无敌

按票房分:

票房 片名 是否都看过或都没看过
高(>2亿美金) 速度与激情8、战狼2
叶问

按产地分:

产地 片名 是否都看过或都没看过
美国 美国队长2
法国 星际特工

如此安排分类条件是否合理?如何使用算法来优化分类?

熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。 信息熵是一个系统混乱程度的度量,信息熵越大,系统越混乱;信息熵越小,系统越有序。如八宝粥和小米粥。

计算公式:假如一个随机变量X的取值为$X={x_1,x_2,…,x_n}$,每一种取到的概率分别是${p_1,p_2,…,p_n}$,那么X的熵定义(单位:bit)为:$H(X)=-\sum_{i=1}^{n}p_ilog_2p_i$。