宽带客户流失预警模型常用特征研究综述
引言
宽带存量客户保有工作的一项重要环节是利用流失预警模型预测即将离网的客户,并采取措施对其进行挽留。尽管近年来已有多篇文献对这类模型的应用进行了报道,但并未见有文献就其中所涉及的特征进行系统地梳理。为填补这一空白,笔者收集了多篇发表于2009年-2019年的文献,对宽带客户流失预警模型所使用的相关特征进行介绍和总结,以期为相关工作的开展提供便捷的参考依据。
本文共分为四节:其中,第一节为引言;第二节对各研究所用的客户流失及有关特征的定义进行了罗列;第三节就前述文献在描述有关定义时存在的问题进行了简要讨论;第四节对前述特征进行了系统地梳理,并对全文进行了总结。
客户流失定义及流失特征一览
孙丽, 袁旭梅, 和 时国强 (2019) 对某地市电信公司2016年12月在网的一批用户进行了为期24个月的跟踪研究,并将流失客户定义为在研究期间出现欠费暂停服务、强拆销号或退网者。该研究最终发现13项特征与客户流失具有明显的关系(见下表)。
表1. 流失特征(孙丽.2019)
林涛 (2019) 对广东省2018年某批宽带用户进行了流失研究。其研究周期为3月至9月,其中以3月至6月的数据进行建模,7月至9月的数据进行模型评估,并将用户主动拆机定义为流失。该文献未描述多数特征的定义,但提出了两个基于业务知识构造的客户行为特征,包括宽带性价比和近3月ARPU值波动指数1,其计算方式如下:
1 按照同样的方式还可构造流量波动指数、上网时长波动等。
\[ 宽带性价比 = \frac{套餐积分}{实际速率} \]
\[ 近3月ARPU值波动指数 = \frac{\sum_{i = 1}^{3}(ARPU_i - \bar{ARPU})}{3} \]
黄展正 (2018) 对中国电信东莞分公司2017年8月至10月的一批客户的流失情况进行了建模。该研究将客户流失定义为客户主动要求注销或欠费超3个月,且之后两月未出账;所纳入的特征则分为两类,包括客户消费类和客户行为类。其中,客户消费类特征有13个,其选择和构造是基于流失原因调查和业务规则分析结果而实现的:例如,用户在宽带套餐到期前一般不会流失,因此套餐到期时间可以作为一个特征;又如,预付费主要适用于外来打工客户和城中村租客,后付费主要适用于本地客户,这两类客户的流失率可能有较大差异,因此付费类型可以作为一项特征。客户上网行为类特征共计29个,为简化模型,该研究使用了因子分析将原始特征整合为9个因子特征输入模型。
表2. 流失特征(黄展正.2018)
Do 等 (2017) 对越南FPT Telecom公司宽带客户的流失情况进行了建模预测,并将主动申报拆机及停机半个月未续费的客户定义为流失客户。该研究共提取了121项特征用于建模,其中最重要的20项特征如下表所示。需要特别指出的是,为避免不同月份天数差异对某些特征(如上传、下载流量等)带来的影响,该研究仅将每月最后28天(标记为0-27)的数据纳入特征的计算。原文未完整列出所有特征及相关说明,读者可自行阅读原文了解更多细节。
表3. 流失特征(Do.2017)
Gök, Özyer, 和 Jida (2015) 对土耳其Türksat公司宽带客户的流失情况进行了建模预测,其所用的特征如下表所示。值得一提的是,该研究通过两个阶段构建预测模型,除了经典的决策树分类算法外(第二阶段),还使用了聚类算法(第一阶段)对按某些动态特征(如下载流量)的时间序列对客户进行了聚类,并将其结果作为分类算法的输入用于建模和预测。
表4. 流失特征(Gok.2015)
Kristianto (2015) 对印度尼西亚Telkom公司宽带客户的流失情况进行了建模预测,其所用的特征如下表所示。值得一提的是,在对某些特征数值进行聚合(如对最近若干个月账单费用进行求和)时,该研究分别使用和比较了近3月、近6月、近9月和近12月数据的聚合结果,并发现使用近9月的数据的聚合结果建模最为理想。原文对多数特征的描述较为粗略,读者可自行阅读原文了解更多细节。
表5. 流失特征(Kristianto.2015)
朱娅婷 (2015) 对中国电信某地市分公司的宽带客户流失情况进行了分析,其研究对象为2014年底的6874名流失客户和6510名在网客户。该研究将流失定义为欠费停机,并且纳入了12个离网特征,包括入网特征和在网期间消费特征。在建模前,该研究使用因子分析对其中9个数值型特征提取公共因子,并使用前4个因子取代原始数值型特征纳入模型之中。
表6. 流失特征(朱娅婷.2015)
季鸿, 虞苏妍, 和 王圣龙 (2014) 将客户流失定义为客户由于某些主观或客观原因与电信公司解除宽带合约,并且拆除相关宽带设备。该研究选取了中国电信上海分公司1万多名宽带业务在2013年4月份到期的客户作为研究对象,利用其在2013年1月至3月的相关数据建模,进行流失预测。除传统的用户属性及业务使用特征外,该研究在特征工程中还利用DPI(Deep Packet Inspection)数据构造了用户上网偏好特征(如访问的网站类别、上网时段等)。经变量重要性分析所得的15项最重要的特征如下表所示。
表7. 流失特征(季鸿.2014)
魏世杰 (2012) 该研究以广州电信2011年6月份在网的客户作为研究对象,并以当月状态正常但次月状态为停机、预拆机或拆机的客户作为流失客户,建立了流失预警模型。在初次建模时,该研究选取了85项特征用于训练模型;经多次优化后,发现下表所示的7个变量与客户流失的关系最为密切。
表8. 流失特征(魏世杰.2012)
李飞 (2011) 将流失定义为客户主动办理离网,并对中国电信某分公司部分宽带客户(包括我的e家、单宽及宽带+固话融合客户;不含商务领航和宽带e族客户2)的流失情况进行了分析建模。该研究以2010年12月至2011年2月作为观察期,预测客户在2011年3月的离网情况。 经过各种探索分析、维规约处理后,最终参与建模的变量如下表所示。纳入模型的特征中,结果显示最为重要的7个特征为:欠费月数、下挂固定电话数量、宽带类型属性、是否混合套餐、下挂移动电话数量、分摊后基础费用趋势3、前月宽带费用。
2 据文章介绍,商务领航客户有专人负责客户流失判断和挽留,宽带e族终端因具有重复使用的特点而难以判断实际流失情况,因此这两类客户均不纳入研究范围内。
3 趋势的大小使用当月与上月费用的百分比差异、上月与上上月费用的百分比差异算出。
表9. 流失特征(李飞.2011)
胡媛帅 (2011) 为国内某有线网络公司构建了宽带客户流失预警模型。该研究的研究对象为2009年11月和12月状态正常且次月宽带到期的用户,共计44798名用户;对包月用户,观察其是否在一个月后流失;对包年或包半年用户,则观察其是否在三个月后流失。该模型所纳入的特征可分为用户特征和客户特征;者两类特征又分别细分为静态特征和动态特征(见下表)。
表10. 流失特征(胡媛帅.2011)
Khan, Jamwal, 和 Sepehri (2010) 对伊朗Sepanta公司宽带客户的流失情况进行了研究。该研究以2005年3月至同年11月注册的客户作为研究对象,并将注册6个月之后停止订购宽带业务者定义为流失客户。流失特征被分为三类,包括人口学特征、账单特征及业务使用特征.该研究未对前两类特征做进一步介绍,但对业务使用特征的构造进行了特别说明:首先,每名客户的在网时间被划分为多个长度为15天的统计周期,取最近12个周期,分别计算周期内上网时长、上网次数和上网流量,形成36个特征,再使用k-means聚类将客户分成7个群体,利用该分群作为衍生特征取代原始特征进入模型;另外,还按照上网时间段将客户分为6个群体(evening、late night、midnight、morning、midday、afternoon)作为特征输入模型。
卿财源 (2009) 对珠三角地区几个地市(广州、东莞、佛山、江门)2007年1月至3月连续三个月活跃的电信宽带客户进行了为期一年的研究4,并对流失情况进行了分析建模。该研究将流失定义为:“零次流失,即当月总账单为0;价值流失,即本月账单低于上月50%、或连续两月低于70%5、或连续三月低于90%”。该研究建立的模型所利用的特征涉及客户不满意、客户转换成本、客户属性、服务类型、消费记录及衍生变量。
4 该研究还有另一份相关文献(Pan 2010)。
5 至本月低于上月70%且上月低于上上月70%。
表11. 流失特征(卿财源.2009)
Huang, Kechadi, 和 Buckley (2009) 对爱尔兰Eircom公司139000名宽带客户的流失情况进行了研究。该研究所用的特征较多,除常见特征外,还包含多种特征(如流量等)的变化率(change rate)和增长率(increment rate)6;另外,还对客户使用了分群并将分群结果作为特征输入模型。值得一提的是,在对某些特征数值进行聚合(如对最近若干个月账单费用进行求和)时,该研究分别使用和比较了近1月、近2月、……、近11月数据的聚合结果,并发现使用近3-9月的数据的聚合结果建模最为理想。 笔者在整理该文献所列举的特征时,发现某些特征内涵相似,似乎存在重复;该情况可能与研究所用的特征选择方法有关,因为其所构建的多个模型只使用了所列举的特征的不同子集。原文对多数特征的描述较为粗略,笔者仅能根据其所用的单词做简单的翻译;读者可自行阅读原文了解更多细节。
6 设某原始变量(如上网流量)为\(x\),则其变化率的计算算式为\(change\_rate_i = \frac{|x_i - x_{i-1}|}{\sum_{j=1}^{T}|x_j - x_{j-1}|}\),其增长率的计算算式为\(increment\_rate_{i, i-1} = \frac{change\_rate_{i, i-1}}{change\_rate_{i, i-1} + x_{i-1}}\),其中\(i\)为单位时间(例如:月份)。
表12. 流失特征(Huang.2009)
相关研究中所存在的问题
笔者在通过阅读文献了解宽带用户流失特征的过程中发现了一些普遍存在的现象和问题,现简述如下。
首先,多数文献对所用特征的介绍过为粗略,没有给出精确的定义或描述。有些文献只列出了特征的指称(如“客户等级”、“套餐积分”等)而没有对其所反映的概念进行进一步地描述(“客户等级”如何评价?“套餐积分”怎么计算?),使读者难以根据文献指引重新构建特征。另外,根据笔者在某电信公司的工作经验,一些相似的指称可能指代截然不同的概念(如“付费类型”指的是业务使用和费用支付之间的先后顺序,其可能取值有“预付费”和“后付费”;而“付费方式”指的是费用支付的途径,其可能取值有“现金支付”、“银行划扣”等;这些指称实际上并未形成行业标准,因此可能存在混用的情况),有时甚至一个特征也可能有多种不同定义方式(例如,笔者所在单位对“不活跃用户”有两种定义方式:1.当月主叫+被叫通话时长为零且上网流量为零;2.当月主叫+被叫通话时长为零,且上网流量为零,且短信收发量为零)。这些情况都表明,指称本身并不能构成对特征的完整描述;在撰写文献或文档时,应附上有关特征(尤其是那些不常见的特征或是从原始特征衍生出来的特征)的定义,使其构建过程得以重现。
再者,多数研究在提取特征时都缺乏系统而明确的相关假设的指导。哪些因素可能对客户流失产生影响?即将流失的客户可能存在什么表现?为什么这些因素 或表现与客户客户流失存在关联?哪些特征可以充分地反映这些因素或表现?若无法完整地回答这些问题,特征提取的结果可能会存在一些无关紧要的特征而遗漏掉关键特征,进而造成模型的可解释性及预测性能下降。而要解答前述问题,不仅需要对业务有充足的了解,还要对问题展开全面而深入的思考。