南都记者从探知数据公司花了3 .8元买到自己的详细运营商报告。报告把记者常用的30位联系人单独拎出,统计了近24小时、1-7天、7-30天、30-90天、90-180天5个通话时段的联系次数。
在南都记者获取的支付宝报告里,更是将花呗的历月账单,还款金额和时间都显示出来。不仅如此,还罗列出支付宝的历史消费统计,甚至连南都记者8月25日在家缴了一次110元水费都有记录。
被爬取的淘宝账户信息里,有关联的支付宝信息,记录了账户和余额宝金额,和花呗总额度、可消费额度等。
你的通话记录里,、常用的30个联系人是谁,你家住何处,经常在哪儿活动,余额宝里还有多少钱,在什么时候买过几件内衣……这些你以为的私密信息,其实都可以被轻易查到。
南都、发现,一个隐藏在现金、平台背后的数据产业链正在悄然活动,其危害较之于一些开房记录查询服务更甚。
具体做法是,现金、平台向数据公司购买所谓的“数据产品”,由后者通过爬虫技术,爬取用户在移动通信运营商、淘宝等知名电商网站、微信支付宝等社交网络上的行为轨迹,以及包括、征信报告、水电煤使用等在内的生活信息,作为平台放、前评估用户风险的“风控奇招”。此举在维护现金、企业一己之利的同时,将用户的个人隐私置于极大的风险当中。
更惊悚的是,数据公司在采集了这些数据后一般会“深度开发”,将其分割成千百个维度来进行分析,然后一张关于你的完整用户画像就此诞生。而被多维度分析的你,却并不知道自己是如何授权他人获取到这些信息的。
“你孩子那么可爱,不想他出啥事吧?”
“我上岸了。”这是每个深陷网、漩涡的人共同的心愿。
两个月前,32岁的阿伦跑路了。因为迷上、厅的、、机,阿伦几乎赔上了所有积蓄,曾两天内输光了一个月的工资3000多元。在身无分文的情况下,他注意到了一则“2分钟注册,5分钟审核,极速放款”的现金、广告。
一开始能向平台、多少钱?这往往需要用个人隐私来交换。上传本人持身份证照片,填写详细住址,读取手机通讯录,认证运营商和电商信息等,用阿伦的话来说,“交出的个人信息越多,可借款的额度也就越高。”
初尝来钱快的甜头后,阿伦一连借了十几个平台,直到“拆东墙补西墙”都难以填补漏洞。在被威胁爆“通讯录”,群发欠钱不还短信前,他逃走了,怕在亲朋好友前“失了面子”。不过这四五万元的欠款,一天天利滚利,他想甩都甩不开,只能靠拼命打工苦苦支撑着。“小、吸血,慢慢熬吧。再也不、的话,也许就上岸了。”阿伦对南都记者表示。
11月12日,四川内江市36岁的孕妇叶某喝下一瓶农药、身亡。临走前,她只留下一句话,“我在外欠了七八万元债。”叶某的丈夫李先生告诉南都记者,在妻子的笔记本里记着12家网、公司的名字。
第二天,他们一家人先后接到了多家网、平台的催收电话和短信。有的直言如不还款,将以恶意骗、,涉嫌经济欺诈起诉,还有的威胁,直接微信转钱不然上门催收,“你孩子那么可爱,不想他出什么事吧?”“他在哪个幼儿园我们也知道”。
遭遇过如此催收的人并不少。在“2017互联网金融合规与创新论坛”上,、互联网金融安全专家委员会秘书长吴震指出,今年6月以来,发现违规催收1000万余次,施害人达79万,受害人92万,已致20余人死亡。
不难理解,催收人员为何能掌握叶某这么多个人隐私。除了网、平台自行收集的用户信息外,有业内人士表示,一些数据公司还可通过技术手段,为平台提供借款人的更多信息。
定位到经纬度,还有所谓风险信息扫描
日前,南都记者通过随机检索,在一家名为探知数据的科技公司,仅花了3 .8元就买到了自己的详细运营商报告。
报告达33页,内容涉及南都记者的基本身份信息,近半年的通话记录详情、账单消费、出行信息和人脉关系等,并有详细的量化评分。
数据显示,这半年时间里,南都记者共煲了3次超过一小时的“电话粥”,累计通话时长达214分钟。该报告还量化了夜间活动情况占比,为3%.其中,记者通信、频繁的是今年6月。
在消费记录方面,南都记者每月的手机话费在200元左右,半年充了6次话费,、大单笔充值金额达500元。
此外,报告还记录了出行信息。比如今年国庆期间,南都记者曾往返惠州、广州和深圳三地。过去半年有过一次出境旅游,在日本呆了10天。
更令人惊讶的是,这份运营商报告里还根据联系次数,将与南都记者进行过通话的1000个手机号码罗列出来,包括完整号码、归属地、通话时长、、早和、后通话时间等。
其中常用的30位联系人更是被单独拎出,统计了近24小时、1-7天、7-30天、30-90天、90-180天5个通话时段的联系次数。也就是说、近一天,被查询人给谁打过或者接到过几次电话,均可从报告中得知。
此外,报告中还能看到借款人的身份信息,定位到经纬度、门牌号的居住地址等,还有所谓的风险信息扫描。比如入网时长,黑名单通信记录,民间借、、、、P 2P平台与互联网小、等通信记录,甚至还有公检法和澳门通信记录等。
上海琥珀科技公司创始人李永庆告诉南都记者,运营商报告并不是简单罗列一个通话详单,需要很多数据进行交叉分析,据此可判断借款人是不是欺诈团队,、近有没有被其他网、平台催收。
在网、行业工作多年的王兰进一步指出,通过通话记录,甚至能大概判断出这是个怎样的人。王兰说,例如正常人的通话记录一般有来有往,而打出的电话较多,且都是几秒钟(快递送餐员例外),那这个用户的逾期率风险可能会高一些。
淘宝25页、京东3年数据仅需1元
除了运营商报告,南都记者从探知数据的一名产品经理处获悉,该公司可提供的服务产品还包括电商、社保、公积金、、和学信网,查询结果五花八门。
其中,探知数据称可抓取的淘宝数据量、多为25页订单数据,而京东的抓取时长则包括用户近3年的数据,这样的电商报告价格并不贵,仅需1元。
对比两份电商报告,内容都非常详细。一年内,南都记者使用过哪些地址网购,使用的频率,消费类型和购买金额等均被一一标出。关于商品类型包括教育、演出商务、面部护肤、内衣等数十项,根据用户的不同消费占比,、后形成了一张消费价格区间和消费兴趣和行为分布图。
除了消费记录以外,用户的金融支付信息也有涉及。在探知数据提供给客户的京东报告中,标出了该账号绑定的、卡信息,以及京东白条使用情况。而淘宝则关联支付宝信息,记录了账户和余额宝金额,和花呗总额度、可消费额度等。
在南都记者获取的支付宝报告里,更是将花呗的历月账单,还款金额和时间都显示出来。不仅如此,还罗列出支付宝的历史消费统计,甚至连南都记者8月25日在家缴了一次110元水费都有记录。
事实上,数据公司所能提供的数据还远不止这些。
该行业知名企业聚信立对外称,其数据源还包括社交网站,网上、,水电煤,航空公司网站等,能从5000多个维度整合数据,已为4000多万独立借款人提供服务,日均撮合7亿多元、款。
换句话说,在某个时刻,从个人的衣食住行到生活工作社交,你所产生的任何互联网数据都有可能被“人肉”出来,并进行多达5000个维度的解读。
预充值越高价格越低,甚至到几角钱
那么,这些细致无比的数据从何而来?
11月10日,南都记者实地走访这家公司,相关工作人员以负责人出差为由拒绝采访,只是强调数据是经过爬虫技术获取而来的,并经过用户授权。
据南都记者了解,爬虫技术是一项被广泛应用于互联网行业的技术。
在现金、领域的应用,爬虫技术常见于抓取用户相关的运营商数据、电商数据等信息,作为人工智能风控技术的数据补充。以往为了反欺诈和确定放款额,现金、平台通常需要几天时间对借款人进行信审工作。现在依托爬虫技术所爬取的大数据,则可能实现秒、。有业内人士称,如果借款人有借呗、京东白条、微粒、额度,平台就直接放、了。
此外,一些数据公司还专门面向现金、领域推出同业爬虫产品,可以爬取到借款人在其他平台的、款情况,如放款额、放款时间等结果数据。
这对发愁数据源和风控系统的现金、公司来说,无疑是一项贴心的服务,可在风控环节省去不少力气,甚至直接使用别人的风控成果。李永庆对南都记者表示,这在一定程度上也降低了用户的实际借款利息。因为借助机器,从申请、审核到放、的效率提高了,花在风控上的人工成本也就减少了。
一家刚起步的数据公司产品经理向南都记者透露,使用自家产品预充值越高,每份报告的价格就越低。如果预充值是1万元的话,运营商和电商报告售价不足两元,预充值达10万元的话,包括简单的多头黑名单等报告,几角钱即可买到。并且一提交申请即可秒出。
基于如此强大的数据分析和低廉的价格,这些爬虫产品受到市场的欢迎。但是通过爬虫技术获取各大网络平台的数据也存在不小争议。
今年3月,58同城被爆出简历信息泄露。有卖家在淘宝上出售该平台的个人信息爬虫服务。只要支付700元就能购买一款爬虫软件,在登录卖家提供的账号后,每小时可采集、430多个城市,以及464个职业的简历数据上千份。
除了自行爬取外,卖家还可出售经过简单清洗的信息数据,将姓名、手机号、求职方向、年龄等简历信息自动录入到excel表格中,具体价格1000条50元。58集团对外回应称,这属于恶意抓取,将追查并加固信息安全系统,提升防爬虫技术手段。
对于互联网企业来说,、重要的资产是价值堪比石油的数据。谁也不愿自家积累的数据就这样被白白爬取,因此也都纷纷推出相应的反爬虫措施。
“主动把自家的钥匙给了一个路人”
尽管如此,爬虫有时仍防不胜防。因为一句用户授权,似乎让其有了合理的说辞。
支付宝相关负责人对南都记者表示,探知数据并非其开放平台的合作伙伴,也没有对其开放数据接口。对方平台通过用户给他们的授权,以用户的名义登录支付宝后,就可以看到该用户的信息。“简单来说,这相当于你主动把自家的钥匙给了一个路人,然后这个路人用这把钥匙开了你的家门。”
据南都记者了解,现金、平台要求借款人进行电商和运营商等认证时,通常由借款人提供账号和密码,审核员人工登录运营商和电商网站,然后截图打印。
“这样问题更多,因为密码泄露了。”李永庆告诉南都记者。一名网、行业资深人士表示,“过后我们会要求借款人修改密码。”
现在借助爬虫,道理其实相似。网、公司先接入数据公司的A P I接口,出现数据公司的一个授权页面,让用户通过扫描二维码等方式,输入账号和密码。然后数据公司在自家服务器上通过爬虫模拟用户行为,登录相关网站获取数据。
针对爬虫问题,上述支付宝相关负责人表示,其公司已开发并在不断完善人机识别系统,以此判断是否有平台以用户的名义登录,并用脚本机器的爬取请求。一经发现,便会进行拦截或者需要用户校验通过才能继续操作。同时,对用户的敏感信息进行脱敏处理,比如把身份证和绑定的、卡号作打星处理等。
“我们一直在做安全教育。从根本上讲,希望用户不要把自己的支付宝账号密码告诉其他平台。”
有业内人士透露,其实爬虫已经算是很合规的渠道了,毕竟还是要用户授权的。还有些公司会通过各种渠道花钱买数据,“想买的话都买得到”。
不管是为了更好地做风控评估,防止“黑户”欺诈,还是用于后期催收,借助爬虫工具,现金、平台所能获取的个人信息超乎想象。
一个撸小、的人告诉南都记者,“注册的平台多了,也就毫无隐私可言了。”
“借款人要是知道了,肯定不愿授权”
爬虫引导用户去访问自己的账户系统,然后偷偷爬取信息
虽然数据公司宣称有用户授权,但专家对其中的授权方式也提出了质疑。
有爬虫行业的从业者表示,“我们爬虫业务几乎不跟P 2P平台合作,因为、打得严。而其中的灰色地带在于签约环节。”而且,在个人隐私保护和数据买卖等问题上,可能触及红线。
自己打开门但不知被爬取多少信息
根据网安法规定,企业收集个人信息应当经过被收集者的同意。也就是说,只有经过用户同意,企业收集个人信息才算合法。
在华东政法大学教授高富平看来,用户同意的前提是知情。“平台要访问获取我哪些信息,用于什么目的首先应该明确告知,超出这个范围则不能再用。在明确主体、信息范围、使用目的三个条件后,只有用户发自内心自愿同意后,才算真正的知情同意。”
很显然,用户并不知道自己会被爬取出这么多具体的信息。“所以这里的用户授权实际上存有瑕疵。”高富平对南都记者表示。“借款人要是知道了这些,肯定会不愿意的,尤其是因为这些数据借不到钱的人。”李永庆说。
据网、行业数据安全专家韩洪慧介绍,爬虫爬取数据做了一个取巧的行为,即引导用户去访问自己的账户系统,比如手机营业厅、淘宝等,用户自己输入账户密码后,爬虫就进入账户系统爬取信息。用户自己打开了门,但其实不知道爬虫爬取了多少信息,也控制不了爬取的信息以后还会被用在哪里。
南都记者注意到,2016年8月,银监会出台的《网络借、信息中介机构业务活动管理暂行办法》指出,网、平台应妥善保管出借人与借款人的资料和、信息,不得删除、篡改,不得非法买卖、泄露出借人与借款人的基本信息和、信息。
网、公司有泄露个人信息嫌疑
韩洪慧认为,网、平台采用外包模式,让第三方公司去爬取用户信息,有泄露用户个人信息的嫌疑。一方面,网、平台无法保证第三方技术公司不留存数据,不将数据用作其他用途。另一方面,用户以为是网、平台获得信息,但实际上不仅网、平台获得信息,第三方技术公司也获得了,而且可能是全部信息。
他说,“这犹如我求你办事,你说要到我家看看情况。我给你打开了门,结果你让另外一个人进去检查,然后把检查报告给你,问题是你对那个人并没有太多约束力,他只是来临时帮忙的,于是我的家被一个完全不认识的人检查了个遍。”
更糟糕的是,网、平台可能只要求技术公司获取三个内容,但技术公司获取了30个内容,、后只给了网、平台3个内容,其他的都留给自己用了。
值得一提的是,所谓的授权还体现在数据公司和网、平台的用户协议上。以探知数据为例,在其查询页面有相关的授权协议称,“您确认获得有效的转授权我们查看您拟查询的第三人(电商网站、运营商、学信网等)信息。”
南都记者查阅发现,不少网、平台在用户协议里也提及,用户同意其公司有权将用户个人资料和信息,提供给依法设立的征信机构和个人信用数据库和关联方、合作伙伴,以及给第三方进行逾期账款催收。并且有权与任何第三方进行数据共享。
有数据公司相关负责人表示,原则上借款人要借哪家网、公司的钱,就授权把个人信息交给哪家。“当中的数据公司都是工具,拿了数据别悄悄卖就好了”。
大数据公司私自保存他人信息违规
不过,韩洪慧对南都记者表示,大数据公司在帮助金融机构了解和分析客户的同时,也保存了数据。这样私自保存是违规的。数据积累越多,风险也越大。“毕竟数据不是自己业务产生的自然数据,再加上万一保存不好泄露了,好比定时炸弹”。
今年6月1日,网安法和“两高”个人信息司法解释开始生效实施,法规提及,“非法获取、出售或提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上的即入罪。”整个大数据行业因此面临极大的挑战,大量数据接口被切断。
不仅如此,一个更现实的问题是,将来会不会出现手机联系的人越来越少,人们都用微信了。如此基于运营商的风控逻辑,将不再那么有效了。南都记者注意到,有数据公司已悄悄推出微信爬虫产品。不过,每家公司都有反爬虫技术,能否不间断稳定爬取数据,也是一大挑战。
李永庆告诉南都记者,“怎么在合规的情况下找到有效的数据,是不少公司需要考虑的问题。”
(应采访对象要求阿伦和王兰为化名)
被爬取的个人信息
基本身份信息,近半年的通话记录详情、消费账单、出行信息、人脉关系、详细量化评分情况
联系次数,通话过的1000个手机号码罗列出来,包括完整号码、归属地、通话时长、、早和、后通话时间等。
其中常用的30位联系人更是被单独拎出,统计了近24小时、1-7天、7-30天、30-90天、90-180天5个通话时段的联系次数。
定位到经纬度、门牌号的居住地、入网时长,黑名单通信记录,民间借、、、、P2P平台与互联网小、等通信记录、公检法和澳门通信记录
淘宝25页订单数据、京东近3年数据
电商、社保、公积金、、征信报告和学信网