在大数据旅游统计的实践中,数据源质量是影响大数据旅游统计质量的本质因素。而影响论文发表移动通信数据质量的原因主要是缺乏对旅游大数据的清洗和规范处理,尤其是对游客类型的精准识别。
(1)日内出行的本地人员。在大城市每天离家前往工作单位的上班族或前往学校的学生,按照“10公里,6小时”的标准很容易被视为国内一日游游客。并且由于这类人群数量巨大,如果不进行有效的甄别和排除,就会严重夸大旅游统计中的游客数量。在基于论文发表移动通信大数据的旅游统计中,每个人的惯常环境(惯常活动区域)是因人而异的,可以通过手机信令数据提供的地理和时间信息,按照圈定的个人电子边界进行识别,并将其排除在国内一日游游客统计范围之外。
(2)常驻异地人员。因工作关系的异地调动、长期被派驻异地出差或异地求学人员,不应该将其作为游客进行统计。这类人群的数量也较为庞大,尤其是在全面取消手机异地漫游费之后,大量的异地常驻手机用户都不会更换手机号码,这也为较为准确地识别出这类人群提供了可能。对常驻异地工作人员的识别主要是基于时间维度,如果手机用户漫游到异地,持续时间在6个月之内,按照定义可以视为游客;但持续时间超过6个月,且该用户没有跨越自己的个人电子边界6小时以上,均被归为常驻异地的工作人员,从而在游客统计中予以排除;如果漫游时间超过6个月,但跨越了自己个人电子边界6小时以上,则按照国内一日游游客进行统计。
(3)返乡人员。基于我国特有国情,返乡务工人员和学生这一群体数量巨大。基于移动通信大数据的旅游统计中,对外出时没有更换手机号码的返乡人员,返乡时手机不属于漫游,在统计中很容易被视为本地居民而遗漏。对这类外出未曾换号的手机用户需要单独进行识别,识别基本条件设定如下:其一,用户手机号码归属地为本地;其二,用户手机号码在统计日之前曾漫游异地6个月以上;其三,用户在统计日在本地“地区电子边界”之内并持续6小时以上。
(4)过路旅客。在基于移动通信大数据的旅游统计中,境内有高速公路和铁路的地区就存在相当数量的过路旅客,虽然这部分旅客的手机信号漫游到了本地,却不是他们的旅游目的地,不应该被计入本地的游客统计之中。对过路旅客分别采用时间维度和空间维度进行识别:从时间维度,先测算出汽车按照最低车速(60公里每小时)通过本地境内最长高速公路T1和火车低速通过本地境内最长铁路的时间T2,然后取T1和T2的最大值T作为过路游客的时间判据,过路游客的手机漫入本地的持续时间应该短于T。从空间维度,在统计时段内过路游客的持续运动轨迹与本地高速公路或铁路线吻合。
(5)日常边界往返人员。按照手机信令数据统计,日常边界往返人员的手机信号漫游到另外区域,其出行还跨越了所在行政区域的“区域电子边界”。对这类日常活动跨越行政区域边界的人员,可以采用以下条件进行单独识别:手机信号漫入的持续时间大于24小时但小于6个月;手机信号频繁漫入漫出本地,如30天内出现10次以上手机漫入信号,具体时间频率标准可根据不同层级的地理尺度或地理区域大小进行调整。
(6)非手机智能终端设备。除手机外,现实中常见的移动智能终端还包括车载智能终端、智能电视、智能导航设备、可穿戴设备和物联网设备等。在基于论文发表移动通信大数据的旅游统计中,必须要识别这类虚假游客数据并予以排除。由于这些非手机移动智能终端设备一般不会产生语音通话数据,可据此对非手机的移动智能终端设备进行识别。如果该用户没有语音流量而只有数据流量产生,就可视该用户为非手机的智能移动终端设备。
(7)一人多机多号。对一人多号的识别方法如下:直接根据手机号码的登记人身份信息,筛选出同一用户下的所有手机号码;对统计期间该用户所有手机号码漫游的运动轨迹进行分析,如这些号码运动轨迹高度重合,则认定为同一用户。如果运动轨迹重合度较低,依然作为多个用户分别处理(考虑现实中多个家庭成员的手机号码可能登记在家庭中同一人名下的情况)。
(8)无手机游客。对未携带手机游客的处理一般有两种方法:一是大数据结合小调查的模式,结合抽样调查进行数据修正。通过在游客中进行抽样调查,确定出无手机的游客比例,并对基于手机信令的用户数据进行反向推算,得到全体游客的数量。二是直接忽略这部分游客数据,根据现实情况来看,完全没有手机信令数据的游客可能仅存在于年龄特别大的老人和低龄段的幼童中,这类人群在游客中所占份额极小,并且他们的旅游消费也可以忽略。