第四届“泰迪杯”全国数据挖掘挑战赛赛题

时间:2016年04月01日作者:amao查看次数:138,817 次评论次数:0

原文地址:http://www.tipdm.org/qk/729.jhtml

2016年“泰迪杯”数据挖掘挑战赛-A题讨论区:http://www.shumo.com/forum/forum.php?mod=forumdisplay&fid=159
2016年“泰迪杯”数据挖掘挑战赛-B题讨论区:http://www.shumo.com/forum/forum.php?mod=forumdisplay&fid=158
2016年“泰迪杯”数据挖掘挑战赛-C题讨论区:http://www.shumo.com/forum/forum.php?mod=forumdisplay&fid=157

参赛要求:
(1)充分利用相关的数据资料行挖掘分析,针对所要求解决的实际问题完成一篇研究报告(即竞赛论文)。
(2)对于所得到的任何结论都必须要有充分的数据分析过程,以及准确性和可靠性的分析论证,仅有简单主观的定性描述其结论将会不被接受。
(3)对于所用到的已有文献、资料和数据必须给出准确规范的引用标注说明。

提交资料:
提交资料包括以下三部分,请分别压缩后在“会员中心”统一提交:
(1)论文正文(pdf格式),并压缩成“论文正文.zip”,提交时间:2016年5月15日24:00前;
(2)论文正文(doc格式)、源数据(组委会提供的源数据外)、过程数据、程序及模型文件,压缩成“附件资料.zip”,提交时间:2016年5月16日24:00前;
(3)参赛承诺书打印后签名,并扫瞄生成pdf文件,压缩成“参赛承诺书.zip”, 提交时间:2016年5月15日24:00前。
参赛选手可从下述试题中任选一题作答,并在论文报告中标明
A题  电商平台图片中文字的识别
一、背景:
由于电子商务环境下用户无法接触商品实物,电商网站提供的商品信息是用户做出购买决定的重要依据。不同的电商平台展现商品信息的风格虽然各有不同,总的来 说商品信息除了一部分以文本、表格形式给出外,越来越多地以图片的形式呈现。图1是京东商城上某电水壶商品页面的示例。
图1、京东商城的某商品页面

京东商城商品页面中的“规格参数”部分以文本表格的形式给出了商品的常规属性,对特定的商品类目这部分往往有比较固定的内容格式,如图2所示。


图2、某品牌电水壶的规格参数信息

京东商城的“商品介绍”部分主要以图片列表的形式提供有关商品的更多信息,包括商品独特的设计特点、商品的优势、适用场景等。商品信息图片提供了很多“规格参数”部分未包含的商品信息,是顾客了解和选择商品的重要参考,如图3所示。
图 片是一种更为生动和形象的视觉表达方式,但也为电子商务网站的管理者带来了技术上的挑战。电商平台对商家发布的商品信息有严格的管理规范,如《京东开放平 台禁发商品及信息管理规范》:http://help.jd.com/Vender/viewQuestion-852-2011.html  和《京东开放平台商品标题及广告语发布规范》http://help.jd.com/Vender/viewQuestion- 852-2687.html。 在这里,我们主要考虑商品信息图片中的文本信息的管理问题:图片中的文本以光学字符的形式表达,不能使用计算机直接检索和处理。
最常见的问题是, 商品信息图片中的内容和商品规格参数中的内容不一致。例如某电热水壶产品规格参数中标明材质为“拉丝不锈钢”,而商品信息图片中介绍为304不锈钢。这将 造成用户理解上的困扰:到底哪一个是准确的呢?实际上“拉丝”是不锈钢的一种表面处理工艺,“拉丝不锈钢”并没有说明所采用不锈钢材料的成分所符合的国家 标准。
商品信息图片可能出现的另一个问题是,采用图片的方式来规避对敏感或违禁词的检测。我国的《广告法》和《反不正当竞争法》分别对虚假广告和 利用广告作引人误解的虚假宣传作了禁止性规定。文本形式的商品介绍信息较易进行检测,而使用图片将大大增加电商网站监管的难度和工作量。除了电商网站,微 信等社交软件中也存在大量以图像格式存在的文本信息,所以这一问题具有普遍性。
要解决以上的这些问题,需要设计一个系统来自动地从商品信息图片上提取其中的文本信息,这将有助于电子商务企业更好地做出商品推荐、售后服务和信息监管……

B题  铁路旅客流量预测
一、背景
随着发改委发布的《关于改革完善高铁动车组旅客票价政策的通知》,高铁动车票价将由铁路总公司(下称铁总)根据市场情况自行定价的政策出台。铁路部门为了保持市场的竞争力,实现利润的最大化,需要了解日常铁路客运流量、淡旺季变动指数、冷热门线路的具体情况,而其中对客流的充分了解和预测是准确把握市场的首要条件,因此铁路客流预测的研究也成为铁路客运服务需要重点研究的方向。
然而铁路客流量受多种因素的影响,比如:“春运”期间铁路客流量骤增,导致铁路运力无法满足客户乘车需求,同时也给铁路客运组织带来巨大压力。在非节假日期间,一些冷门线路区间上座率不足,造成铁路车辆资源的浪费。因此铁路客流量预测,可以为制定合理的价格、改善客运站组织方式、优化铁路车辆资源配置、提高客运设备的服务能力提供帮助,对提高铁路客运运输效率具有重要的意义……
C题  网络招聘信息的分析与挖掘
一、背景
随着计算机网络技术的迅速发展,网络招聘信息平台现已成为招聘者发布和应聘者获取信息的主要渠道。网络招聘信息一方面能够直接反映了用人单位对人才基本条件、能力和素质的要求,为应聘者提供求职参考;另一方面也能够反映出社会和各行业对人才的需求现状,或未来一段时间的人才需求趋向;同时也能够为高等院校及时了解社会对人才的需求变化情况,分析预测未来的人才市场的热点,有针对性的调整人才培养方案和设置安排相关课程提供重要的参考信息,促进高校培养出更多适用的优秀人才以满足社会的需求。因此,对网络招聘信息进行分析研究,了解社会和相关行业的需求特点与趋势,为广大求职者提供正确的就业指导都有着非常重要的意义……
参赛者可参考附件论文报告模板来组织材料,也可根据实际情况进行调整。

2016年4月1日,提供部分建模样本数据,提取密码: h0li

2016年5月1日,提供全部建模样本数据(A题:附件2 除外),请及时关注!

2016年5月14日 8:00,提供A题:附件2 所有样本,请及时关注!

请于2016年5月15日24:00前提交作品,提交方式:会员中心–>竞赛列表–>竞赛列表操作栏–>提交作品。

声明: 本文采用 BY-NC-SA 协议进行授权 | 数学建模网—SHUMO.COM
转载请注明转自《第四届“泰迪杯”全国数据挖掘挑战赛赛题

0条评论

暂时没有评论!

发表评论

*

*

注意: 评论者允许使用'@user空格'的方式将自己的评论通知另外评论者。例如, ABC是本文的评论者之一,则使用'@ABC '(不包括单引号)将会自动将您的评论发送给ABC。使用'@all ',将会将评论发送给之前所有其它评论者。请务必注意user必须和评论者名相匹配(大小写一致)。