重要通知
《科学技术创新》版面紧张,请大家踊跃投稿。投稿邮箱 :kxjscx@kxjscxzzs.com
科学技术创新期刊信息

主管单位:黑龙江省科学技术协会

主办单位:黑龙江省科普事业中心

编辑出版:《科学技术创新》杂志社

国际标准刊号:ISSN:2096-4390

国内统一刊号:CN:23-1600/N

期刊级别:省级刊物

周   期: 旬刊

出 版 地:黑龙江省哈尔滨市

语  种: 中文;

开  本: 大16开

邮发代号 :14-269

投稿邮箱 :kxjscx@kxjscxzzs.com

在线编辑QQ :959914545

“拍照赚钱”任务定价模型的探究与优化

时间:2020-05-06  点击:737


       

陈明艺 陈鑫 王梅杰

摘 要:“拍照賺钱”是移动互联网下的一种自助式服务模式。该文用拉伊达准则筛去地理位置偏远的数据点,运用K-均值聚类,将任务点划分为4个区域,进而分别探究每个区域任务定价与经纬度的函数关系,并采用多元非线性回归求得任务定价与经纬度之间的函数关系表达式;再引入会员对价格的影响因子,对任务定价和影响因子进行多元非线性回归,得到对应函数关系式;用K-均值聚类每个区域的任务进行打包,并将聚类中心经纬度作为任务包的经纬度,定义出任务包定价与该区域最低单个任务定价、任务包中任务数量、任务包中各任务原价之间的关系式,求出定价模型,并且借助多项Logistic统计回归模型对任务完成度进行了预测。

关键词:K-均值聚类 拉伊达准则 多元非线性回归 多项Logistic回归分析

中图分类号:G712 文献标识码:A 文章编号:1672-3791(2019)02(a)-0-03

1 模型的假设及符号的使用

1.1 模型的假设(该论文基于2017年全国大学生数学建模B题而作)

假设在某区域的会员执行该区域的任务;

假设任务的发布只与任务本身有关,无其他影响因素。

1.2 符号的使用及说明

为处理问题方便,将文中常用量设置符号如表1所示。

2 模型的建立与求解

2.1 异常数据的筛选

题目所给数据涉及地理位置信息,而不同地理位置的定价与任务完成情况不同。通过对观察可以发现,数据密集分布于广东省佛山、广州、东莞、深圳市,且有少量点零散分布在其他地区。由于样本数据量足够大,所以运用拉依达准则进行异常数据的筛选。运用经纬度数据做其正态分布图(见图1)。

运用经纬度数据并借助做其正态分布图,得以验证纬度的样本数据近似服从正态分布,接下来运用拉依达准则对纬度的异常数据进行筛选:

, (1)

其中,为样本均值。

(2)

如果某测量值与平均值之差大于标准差的3倍,则予以删除,结合公式并筛选得到832个数据。

2.2 问题(1)模型建立与求解

2.2.1 K-均值聚类模型

题目数据来源于广州、佛山、东莞、深圳,并且数据点在4个城市呈现区域密集集中状态,所以用K-均值聚类对筛选得到的全部数据进行分类。K-均值聚类具体分体步骤如下:

输入样本数据:N={(x1,y1),(x2,y2),…,(xi,yi)},i=1,2,…,832,j=1,2,3,4。

通过K均值聚类划分为4个区域,令I=1,随机选取4个数据点作为4个类簇的初始簇中心,中心点为:mj(I),j=1,2,3,4。计算每个数据点与4个聚类中心的距离d((xi,yi),mj(I)),若符d((xi,yi),mj(I))=min{d((xi,yi),mj(I)),j=1,2,3,4},则(xi,yi)∈CJ。

计算4个新的聚类中心:mj(I+1)=(xi,yi)。

若mj(I+1)≠mj(I),则I=I+1,否则重新计算中心点距离。

结合上述原理,得到聚类结果如图2所示。

Cluster1为广州市,任务完成率为37.33%;

Cluster2为佛山市,任务完成率为60.37%;

Cluster3为深圳市,任务完成率为36.54%;

Cluster4为东莞市,任务完成率为94.80%。

2.2.2 多元回归分析模型

设经度、纬度为自变量,价格为因变量建立二次回归方程:

P=β0+β1X+β2X2+β3Y+β4Y2+ε (3)

其中βi表示回归系数,ε为误差。

基于上述假设求解自变量与因变量的函数关系,通过检验选择拟合度最高的一种假设作为最优解,得到每个区域内拟合度最高的二次回归方程。

Cluster1:

P=-20447.5101+1735.704X-36.703X2

决定系数:R2=0.8623。

Cluster2:

P=87051.6008+2878.4852X-2107.7656Y+ 49.6927X2-45.6885XY+13.8969Y2

决定系数:R2=0.8057。

Cluster3:

P=181540.22+3230.1669X-3835.0042Y+ 73.9869X2-57.6404XY+22.5785Y2

决定系数:R2=0.9167。

Cluster4:

P=1124600-5400X-18700Y+100Y2

决定系数:R2=0.8493。

2.3 问题(2)模型的建立与求解

2.3.1 对会员位置进行区域划分

做会员位置分布、任务完成与未完成情况的散点图如图3所示。

其中黄色表示会员位置、红色表示未完成任务、绿色表示完成任务。依据会员的经纬度,将会员划分到问题(1)所分的区域。

2.3.2 影响定价因子的确定

在其他影响因素不变的情况下,信誉度越高,预定任务限额越大,任务开始预定时间也早,则任务完成率越高。所以采取3个指标:用户信誉度、预订任务限额、预订任务开始时间。该文选用d/K来衡量信誉度k、距离d交互对定价的影响。基于上述分析,同理求d/Q、d/T的数值。用一个区域内所有用户对任务点影响因子的相加来表示用户质量对任务点影响,用u,v,w分别表示信誉度影响因子、预定任务限额影响因子、预定任务开始时间影响因子:

u;v;w (4)

2.3.3 多元非线性回归模型

以第三类区域数据为例,用户距离、信誉度影响因子、预定任务限额、预定任务开始时间作为自变量,定价作为因变量,使用多元非线性回归的方法探究自变量与因变量存在的函数关系。

设主成分因子xi(i=1,2,3,4)为自变量,t2为因变量,建立二次回归方程:

P=β0+β1D+β2D2+β3u+β4u2+β5w+β6w2+β7v+β8v2+ε (5)

其中βi表示回归系数。

进行模型的求解,得到拟合度最高的回归方程:

Cluster1:

P=106.6846-0.10312D+1.7027×10-5u-0.023227w+ 9.9046×10-5D2+1.1925×10-7D×u+7.093×10-5D×w+3.517 ×10-13u2-8.5889×10-10u×w

决定系数:R2=0.7919。

Cluster2:

P=259.1411-5.2216D+0.034261D2-0.014402v-0.00020448D×v+0.00063709D×w+1.9565× 10-7v2

决定系数R2=0.8376。

Cluster3:

P=93.177-1.1664D×w-7.1769×10-5D2-1.4568×10-6v ×D-1.0502×10-5D×w+1.1373×10-9v2+3.72×10-6w2

决定系数R2=0.9042。

Cluster4:

P=75.6512-0.00010737×v-0.0029586×w+3.4313× 10-10v2

决定系数:R2=0.7583。

2.4 问题(3)模型的建立与求解

2.4.1 对任务进行打包

用户的预定任务限额为1~8个,所以对任务进行打包时,任务包内的任务个数不能超过8个。以Cluster1区域为例对该区域中的任务经纬度进行K-均值聚类,通过K-均值聚类将Cluster1中的任务打包为48个任务包,并得到了48个任务包的聚类中心坐标,任务包中的任务数量最大为8,最小任務数量为1。

2.4.2 对打包任务进行定价

打包任务将多个任务集中在一起发布,需要对打包任务进行重新定价,具体步骤如下。

设打包任务中:任务数量为a,每个任务的原定价为:P1、P2、……、Pa,整个打包任务的定价为S,该区域打包任务中包含的任务数量最多为h,单个任务的最低定价为O。任务数量越多,该打包任务的平均任务价格S应越低,但最低不应低于该区域单个任务的最低定价,打包任务降价最大值为:S-Pmin-O≥0,打包任务

应降价:P-=,建立S与a的关系式如下:

S=。

2.4.3 求出打包任务的定价关系表达式

由于部分任务被打包到一起,集中度较高,因此任务数量的大小对定价的影响尤为重要。可知任务数量越大,平均任务价格越低。因此将打包任务的数量与所有用户距打包任务中心点的距离之和相互结合,结合第二问的模型,经多元非线性拟合,最终得到拟合效果最优的函数关系表达式为:

P=212.199-0.000126u-0.016474v+0.53636w+6.7085 ×10-7D/a×u+0.00012357D/a×v-0.0042344D/a×w+ 3.243×10-12×u2

决定系数:R2=0.8580。

对得到的定价模型,通过logistic模型得到任务的完成度,对比改进前后的任务完成度,得知改进方案对任务完成度的影响。打包处理之前的任务指标有:任务经纬度、任务定价、任务执行情况、会员经纬度、会员信誉度、会员开始时间。打包处理后,发生变化的是任务的数量,因此将任务的经纬度与任务的数量结合,将用户距离之和/数量,作为其中一个协变量,再将任务标价作为另一个协变量,将任务完成度作为因变量。把已结束的项目中的任务点作为样本,通过K-均值聚类分类的任务点作为预测对象,将其数据带入建立的定价模型得到标价,对其进行完成度的预测,求得各个会员对任务点的用户距离之和。预测出打包后的任务点的完成度,求得伪R2=0.801。

经计算得出,打包前有84个任务点,完成的任务点有56个,完成率为66.66%;打包后由84个任务点,完成的任务点有68个,完成率为80.95%,可知打包处理后完成率获得了很大的提高。

2.5 问题(4)模型的建立和求解

做出新任务的位置信息和任务点的位置信息的散点图,如图4所示。

通过观察散点图,可以发现任务点集中分布于Cluser1地域与Cluster4地域。所以此文需要采用多项logistic回归分析对任务点进行地域归类。

选用问题(2)中合理定价的任务点经纬度信息、定价信息、分类情况,进行多项Logistic分析,以分类情况为因变量,任务点的经纬度信息为协变量进行分类,将数据划分到4个区域。问题(2)中所建立的模型所引入的变量较为全面,所以该问题引用问题(2)中所建立的任务定价模型。以Cluster4为例,结合问题(2)中D、u、v、w的算法,计算出问题(4)中的D、u、v、w,提取问题(2)中Cluster4中定价合理的任务数据点,并运用问题(2)中所求得D、u、v、w与用户距离求和/数量、信誉度/距离之和、限额/距离之和、开始时间/距离之和,联立形成新表,将问题(2)中合理的价格作为训练集,问题(4)中的定价为测试集,进行多项Logistic分析,预测出问题(4)中的定价,并且通过计算拟R2来证实该分析,拟R2计算结果如表2所示。

通过伪R2max=0.814可以看出,利用问题(2)中的价格来预测问题(4)中的价格具有合理性。

参考文献

[1] 安思锦,翟健.软件众包参与度影响因素分析及预测模型[J].计算机系统应用,2015,24(10):9-16.

[2] 陈家银.猪八戒众包平台数据分析与众包模式设计[D].大连理工大学,2016.

[3] 刘伟韬,廖尚辉.主成分logistic回归分析在底板突水预测中的应用[J].辽宁工程技术大学学报,2015,34(8):905-909.

[4] 卓金武.MATLAB在数学建模中的应用[M].北京:北京航空航天大学出版社,2011.


本文由: 科学技术创新杂志社编辑部整理发布,如需转载,请注明来源。

科学技术创新杂志社

2020-05-06

上一篇:工业机器人的研究现状与发展趋势
下一篇:石油智能化时代背景下高职人才培养的思考