300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > python数据分析与挖掘实战---航空公司客户价值分析

python数据分析与挖掘实战---航空公司客户价值分析

时间:2020-10-13 01:33:35

相关推荐

python数据分析与挖掘实战---航空公司客户价值分析

航空公司客户价值分析

一、背景与挖掘目标

**** 客户关系管理是企业的核心问题,关键在于客户的分类:区别无价值客户,高价值客户,针对不同客户群体有的放矢投放具体服务方案,实现企业利润最大化的目标。

各大航空公司采取优惠措施喜迎更多客户,国内航司面对客户流失和资源未完全利用等危机,因此建立一个客户价值评估模型来实现对客户的分类。

二、分析方法与过程

本次的分析目的在于客户价值识别,客户价值识别最常用的模型是 RFM模型:R(最近消费时间间隔)F(消费频率)M(消费金额)。 ****

飞机票价取决于飞行距离和仓位等级,消费同等金额票价的旅客对航司的价值不一定相同:购买短程头等舱的旅客和购买长途经济舱的旅客,明显前者对航司的贡献更大。所以对

M(消费金额)建模时要进行修改:用里程数平均值M和仓位折扣系数平均值C来代替消费的金额。

同时,考虑旅客中,加入会员的时间越长,客户的潜在价值一般越高,所以定义一个客户关系长度 L,作为区分客户的另一指标。

接下来针对 LRFMC模型,对客户进行区分。

LRFMC模型:

( 1)客户关系长度L:航空公司会员时间的长短。

( 2)是消费时间间隔R。

( 3)消费频率F。

( 4) 飞行里程M。

( 5) 折扣系数的平均值C。

LRFMC模型指标含义:

( 1) L:会员入会时间距观测窗口结束的月数。

( 2) R:客户最近一次乘坐公司飞机距离观测窗口结束的月数。

( 3) F:客户在观测窗口内乘坐公司飞机的次数。

( 4) M:客户在观测窗口内累计的飞行里程碑。

( 5) C:客户在观测窗口内乘坐仓位所对应的折扣系数的平均值。

方法:本案例采用聚类的方法,通过对航空公司客户价值的 LRFMC模型的五个指标进行K-Means聚类,识别客户价值。

三、数据描述

给出所有属性的基本信息,共 25个属性,均无大量缺失现象或缺失现象很少。

![](https://img-

/0519095826447?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

![](https://img-

/0519095836692?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

四、建模

1、数据探索分析

对数据进行缺失值分析与异常值分析,分析出数据的规律以及异常值

查找每列属性观测值个数,最大值,最小值。完整代码如下:

![](https://img-

/0519100030807?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

效果如下:

![](https://img-

/0519100059676?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

2、数据预处理

(1)数据清洗

通过数据探索分析,发现数据中存在缺失值,由于原始数据量大,这类数据量少,对其进行丢弃处理。具体处理方法如下:

( 1)丢弃票价为空的记录。

( 2)丢弃票价为0、平均折扣率不为0、总飞行公里数等于0的记录。

使用 Pandas对满足清洗条件的数据进行丢弃。处理方法:满足清洗条件的一行数据全部丢弃,代码如下:

![](https://img-

/0519100153866?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

(2)属性规约

根据我们建立的 LRFMC模型,提取这五个特征,删除与其不相关的属性。

![](https://img-

/0519100233966?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

(3)数据变换

将数据变换成 ‘适当的’格式。通过数据变换来构造这个五个特征。

计算方式如下:

(1) L=LOAD_TIME-FFP_DATE

会员入会时间距观测窗口结束的月数 =观测窗口的结束时间-入会时间[单位:月]

(2) R=LAST_TO_END

客户最近一次乘坐公司飞机距观测窗口结束的月数 =最后一次乘机时间至观测窗口末端时长[单位:月]

( 3)F=FLIGHT_COUNT

客户在观测窗口内乘坐公司飞机的次数 =观测窗口飞行次数[单位:次]

( 4)M=SEG_KM_SUM

客户在观测时间内在公司累计的飞行里程 =观测窗口的总飞行里数[单位:公里]

( 5)C=AVG_DISCOUNT

客户在观测时间内乘坐舱位所对应的折扣系数的平均值 =平均折扣率[单位:无]

提取 5个特征后生成文件:zscoredata.xls

![](https://img-

/0519100327872?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

(4)标准化处理

5个指标的数据提取后,对每个指标数据分布情况进行分析发现,5个指标的取值范围数据差异较大,为了消除数量级数据带来的影响,需要对数据进行标准化处理。

![](https://img-

/0519100407609?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

标准差标准化处理后,形成 ZL、ZR、ZF、ZM、ZC5个属性的数据,如图所示:

![](https://img-

/0519100430134?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

3、模型构建

客户价值分析模型包括两个:

( 1)根据5个特征对客户进行聚类分群。

( 2)对每个客户群进行特征分析,分析客户价值,并对每个客户进行排名。

完整代码如下:

![](https://img-

/0519100458592?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

对数据进行聚类分群的结果:

![](https://img-

/0519100518456?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

注:由于

K-Means聚类是随机选择类标号,因此重复此实验得到的结果中的类标号可能与此不同;另外,由于算法的精度问题,重复实验得到的聚类中心也可能略有不同

五、建模分析与结果

客户价值分析:

根据特征值大小总结出每个群体优势特征和弱势特征,将客户群分为四类:

a重要保持客户:平均折扣率高,乘坐次数或里程高,最近坐过本公司航班。

b潜在发展客户:平均折扣率较高,乘坐次数和里程较低。

c重要挽留客户:平均折扣率,乘坐次数或者里程较高,较长时间没坐本公司航班。

d一般与低价值客户:折扣率低,较长时间未做本公司航班,乘坐次数或里程较低,入会时长短

分析:

** 该实例 聚类结果: **

**![](https://img-

/0519100919254?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

**

根据聚类结果构造客户群特征分析图。

代码如下:

![](https://img-

/0519101048426?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

![](https://img-

/0519101126965?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

效果如图:

![](https://img-

/0519100732296?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dZTDIwMTcxMDIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

重要保持客户:对于像 “客户5(黄色): 在R最近乘坐时间最小,在F乘坐频率和M里程数上最大”

的旅客属于航空公司的高价值客户,这类人对航空公司贡献巨大,而且这部分人相对人数较少。航空公司应该将优质资源先向他们投放,尽力保持住这类客户,通过专门的营销策略和更优质的服务来提升这一类客户的忠诚度。

潜在发展客户:对于 “客户4(黑色): 在C折扣数上最大 ,而RFMx相对较少的客户”

。虽然这类客户当前价值不是很高,但是作为具有经济实力购买非竞技舱的客户,可以作为潜在的重要客户,重点培养。航司可以采取一些措施提高他们变为竞争对手客户的成本,努力的加强他们的满意度。

低价值客户: 对于像 “客户3(蓝色): 在R最近乘坐时间上最大,在F乘坐频率上最小,在里程数M上最小”这一类客户 以及 像 “客户1(红色):

在L入会时间上最小,在C折扣数上最小”这样的客户,很久没有坐飞机,乘坐频率和里程数也很低,相对来说对航空公司价值较低。

重要挽留客户: 对于像

“客户2(绿色):在L入会时间上最长”,这类客户已经很久没有乘坐航班,但是他们的CFM还可以,这类客户不确定性价高,应该对这类客户采取一定手段对其主动联系,并且投放营销措施来延长其生命周期。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。