1. 主页 > 网络营销 >

数据分析:员工离职预测分析

数据阐明:员工去职预测阐明

一、概述

项目数据来历:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574

数据阐明东西:本次案在例中,我所需要做的即是通过已有的信息举办预测员工将来的动向,即判定该员工将来是否会去职。个中练习数据主要包罗1100笔记录,31个字段。此次数据阐明所用到的东西有:excel,tableau

二、数据阐明根基步调

(1)明晰业务需求;

(2)数据收罗 ;

(3)数据处理惩罚

(4)数据摸索阐明(数据的描写性阐明);

(5)综合数据阐明;

1. 明晰业务需求

面临公司留不住人,人员活动大等问题,本文对取自于“阿里天池”关于职工数据集的数据举办阐明,挖掘出哪些数据对付去职率有孝敬,预测哪些人最后会活动。

2. 数据收罗

项目数据集取自“阿里天池”,相关网址链接请参看概述。个中练习数据主要包罗1100笔记录,31个字段。主要字段说明如下:

(1)Age:员工年数(1暗示已经去职,2暗示未去职,这是方针预测值)

(2)Attrition:员工是否已经去职(Non-Travel暗示不出差,Travel_Rarely暗示不常常出差,Travel_Frequently暗示常常出差)

(3)BusinessTravel:商务差旅频率(Sales暗示销售部,Research & Development暗示研发部,Human Resources暗示人力资源部)

(4)Department:员工地址部分(Sales暗示销售部,Research & Development暗示研发部,Human Resources暗示人力资源部)

(5)DistanceFromHome:公司跟家庭住址的间隔,(从1到29,1暗示最近,29暗示最远)

(6)Education:员工的教诲水平(从1到5,5暗示教诲水平最高)

(7)EducationField:员工所进修的专业规模(Life Sciences暗示生命科学,Medical暗示医疗,Marketing暗示市场营销,Technical Degree暗示技能学位,Human Resources暗示人力资源,Other暗示其他)

(8)EmployeeNumber:员工号码;

(9)EnvironmentSatisfaction:员工对付事情情况的满足水平(从1到4,1的满足水平最低,4的满足水平最高)

(10)Gender:员工性别(Male暗示男性,Female暗示女性);

(11)JobInvolvement:员工事情投入度(从1到4,1为投入度最低,4为投入度最高)

(12)JobLevel:职业级别(从1到5,1为最初级别,5为第一流别)

(13)JobRole:事情脚色 (Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician尝试室技能员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是司理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源)

(14)JobSatisfaction:事情满足度(从1到4,1代表满足水平最低,4代表满足水平最高)

(15)MaritalStatus:员工婚姻状况(Single代表只身,Married代表已婚,Divorced代表仳离)

(16)MonthlyIncome:员工月收入(范畴在1009到19999之间)

(17)NumCompaniesWorked:员工曾经事情过的公司数

(18)Over18:年数是否高出18岁

(19)OverTime:是否加班(Yes暗示加班,No暗示不加班)

(20)PercentSalaryHike:人为提高的百分比

(21)PerformanceRating:绩效评估

(22)RelationshipSatisfaction:干系满足度(从1到4,1暗示满足度最低,4暗示满足度最高)

(23)StandardHours:尺度工时

(24)StockOptionLevel:股票期权程度

(25)TotalWorkingYears:总工龄

(26)TrainingTimesLastYear:上一年的培训时长(从0到6,0暗示没有培训,6暗示培训时间最长)

(27)WorkLifeBalance:事情与糊口均衡水平(从1到4,1暗示均衡水平最低,4暗示均衡水平最高)

(28)YearsAtCompany:在今朝公司事情年纪

(29)YearsInCurrentRole:在今朝事情职责的事情年纪

(30)YearsSinceLastPromotion:间隔上次升职时长

(31)YearsWithCurrManager:跟今朝的打点者共事年纪

3. 数据清洗

我们利用的数据是excel文件名目,个中自变量30个,因变量为1个(是否去职)。

数据集字符型字段有7个(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)数值型字段有24个。

个中将单一变量删除(年满18岁、尺度工时、员工编号为常量),部门数值变量<=3的字段也删除,此类数据对付阐明预测不具有代表性。

同时调查数据,针对字段值不满一年的数据均用0取代,没有缺失值, 因此不消处理惩罚缺失值.

对付记录来说, 其没有独一标识的字段, 因此会存在反复记录, 这里采纳“反复值处理惩罚”和“数据一致化”处理惩罚;

通过tableau作图调查各自变量对是否去职影响水平巨细,

图一:删除单一变量&常量

4. 数据领略

我们利用的数据是EXCEL数据文件名目,个中自变量30个,因变量为是否去职。下表对所有变量举办了说明,以便更好的领略数据。

数据阐明:员工去职预测阐明

5. 数据摸索性阐明

(1)人力资源总体环境

去职人员178人,占比16.18%;在职人员922人,占比83.82%

数据阐明:员工去职预测阐明


(2)职工年数,性别与是否去职的干系

由下图可以看出,去职人员偏年青化,峰值呈此刻28-32岁,个中男性去职人数大于女性人数。

数据阐明:员工去职预测阐明


(3)职工婚况,离家间隔与是否去职的干系

本文由摸索网(http://www.lnmosuo.com)发布,不代表摸索网立场,转载联系作者并注明出处:

联系我们

工作日:9:30-18:30,节假日休息