大数据惊魂14天:爬虫“五宗罪”或为导火索,城门大火谁能脱身?
编者按:本文来自微信公众号“新流财经”(ID:xinliucaijing),作者 松子同学,36氪经授权发布。
从9月6日到今天,整整两周,应该没有什么比互金行业大数据公司经历的一切更惊险刺激的了。
业务一家接一家地暂停,相关人员一家接一家被带走调查。中秋前夕,几家头部数据平台被警方调查的消息一传开,行业氛围彻底炸开,关于头部机构同盾科技和百融云创的流言甚嚣尘上。
“最近我们确实观察到,有一些爬虫类产品的公司受到冲击了,我们最早也有类似的产品,但在2019年上半年已彻底停止,同盾目前还有数量多达近百个的其他产品。”9月18日,新流财经联系到同盾科技CEO蒋韬,针对最近的一系列流言,蒋韬给出了上述回应。
“我们定位不叫数据公司,叫数据应用分析公司。”蒋韬强调。
百融方面回应新流财经时,除了否认百融深圳分公司员工被带走的传闻外,拒绝评价此次数据行业大整顿,“我们不是做大数据、第三方数据的,”百融方面称,“我们主要是做风控建模的,这跟我们的业务离得有点远。”
虽然,去年9月,百融还将其官方微信和微博更名为“百融大数据”,强调其一直坚持的“人工智能+大数据技术深度赋能金融的行业使命”,截至目前,百融的官网上,也有着诸如信用评分,特殊名单,验证服务等相关服务。
可见,不管自称是提供数据源的服务平台,还是提供数据应用分析结果的服务平台,都在试图脱离这场持续的风波。
显然,跟去年那次大数据行业整顿不一样,这次“雷声大雨点小”的错觉真的幻灭了。
爬虫犯下“五宗罪”或为导火索
“为什么?”
这是这两周数据行业整顿风波发生以来,大数据从业者问得最多的一个问题。对此,就连蒋韬也坦言,对根本原因“不清楚”。
很多人都想知道,红线究竟在哪里,导火索是什么,自己有没有碰到。
这场风暴,在魔蝎科技和新颜征信的高管同时被警方带走当天,正式进入高潮。爬虫数据的合规性问题,在经历多年的灰色游离阶段后,终于被提到了阳光下接受拷问。
爬虫是问题吗?问题当然不止爬虫。
多位匿名的从业者猜测纷纷,从这些出问题的数据公司背后,总结出来“五宗罪”。
第一,给不合规的地下超利贷平台提供过爬虫服务。
第二,数据平台爬取的通讯录信息,最终协助了贷款平台的暴力催收。
第三,数据平台爬虫数据的来源合规性,无法解释。
第四,爬虫技术取得的数据做了他用,通过信息买卖等方式不当获利。
第五,爬取了一些敏感的、涉嫌侵犯个人隐私的数据,并超过合理范围使用了。
这样一看,大数据行业变故的前因后果,又不那么意外了。
这一年,一切跟互金行业拨乱反正的大基调相违背的行为,都可能是一家大数据公司覆灭的起因。侵犯个人隐私、违规买卖个人信息、暴力催收、“套路贷”,无一不是肃清行业的大铡刀。
刀口舔血的日子过惯了,也有人会忘了这把刀有多锋利。
谁为最默契的“分手”买单
从9月4号有盾喊停人脸识别服务开始,一连串服务金融机构的第三方数据公司,争先恐后地停掉了跟爬虫相关的一切业务,唱起了合规自查的高歌。
在这个阶段,大部分数据服务机构都情愿少做或者不做生意,先保存度过这场风波的实力。
而第三方数据公司并不是唯一一方想“分手”的,这次甲方金融机构反应同样迅速而强硬,堪称默契。
9月17日,中秋节刚过,一位传统银行互金部总经理就提出,应果断停止,或审慎开展与爬虫类技术服务公司的合作项目,清查行业涉及外部资产数据源合作的所有资料,防止恶性事件传染。
这个季节,到处都草木皆兵。
“爬虫服务其实只有魔蝎、聚信立等几家做得比较大,其他数据公司涉及得不见得很深入,受直接影响不大,但爬虫被查这件事本身让一切变得更敏感。”某数据公司的风控人士认为。
据了解,一般数据服务平台的主业不管是提供数据源还是提供数据分析,数据源作为一切业务基础,有三条主要渠道,被分别称为一方、二方和三方数据。
第一,合作金融机构贡献的申请数据,或者部分机构愿意提供的贷后数据;
第二,数据公司自己用爬虫技术在公开网络渠道获得的各种数据;
第三,采购的合规渠道验证类数据,或从支付公司、短信公司输出的标签类数据。
这些数据渠道在一家数据公司的权重比例,可能直接决定了其生存状况和收入受此次爬虫整顿风波的影响有多大。
数据公司的转型难就难在,既没有足够的资本实力采购到合规渠道数据,也没有足够的技术实力突然从一个数据量玩家变成技术型玩家。
而很多金融机构难在,原来没舍得投入大量成本组建自己的技术团队,现在没有实力去采购稳定的合规数据源,或随便更改对旧数据源重度依赖的贷款产品。
最后,总有一些因为没有数据源做不了业务的甲方,还有一些以爬虫服务为核心盈利点的数据公司,撑不住单向的资金流出,为这场“分手”买单。
或将出现“去爬虫化”趋势
“坦率说,这个行业会越来越合规、健康,但不会消失。”蒋韬的看法仍然很积极,他的看法更长远,尽管当下行业正常受到严监管的冲击,但他认为,大数据和人工智能的应用,不仅对于金融,而是中国所有细分行业未来的发展方向。
按照蒋韬的看法,大数据应用应该是“基于越来愈多的海量数据的,合理合规的善意的应用”。
其实,爬虫一类的数据服务作为技术,本身没有好坏可言。
“行业早期,爬虫技术解决了下沉客户获取数据的难度,渗透到了传统金融机构服务不到或不愿服务的,央行征信和早期民间征信也覆盖不到的人群,在当时,爬虫算是有效解决问题的关键,而且避免了数据流通的污染,并且通过采集将数据运用在了贷中、贷后的场景中。”一位数据行业人士表示。
追溯互金行业的爬虫服务,最初也是一种有善意的出现。
上述人士认为,问题在于,爬虫后来影响了用户体验,也不可避免地导致了数据在一些灰色地带流通。
但这一切的形成带着市场初期的苦衷。
“因为各个‘大数据公司’的数据来源不同,基于自有场景里面获取到数据的只有一部分,剩余的公司数据来源大都只能依赖于爬虫技术,所以会成为很多数据公司早期,甚至是现在的核心。”
他认为,和当年的快播一样,爬虫的“工具无罪论”也是站不住脚的。实际上,使用工具的手段、目的、结果,都将被赋予责任。
而未来,随着数据市场逐渐规范化,数据确权提上日程,“去爬虫化”会是一个大的趋势。
最近,被数据行业经常提起的“联邦学习”方式,可能在不触碰红线的情况下解决信息孤岛问题,能在数据不共享的情况下完成共同建模。
同样不触碰红线的情况下,一些数据分析技术、个人信用评分类的服务,可能是未来互金行业的数据服务机构更可行的出路和方向。
相关推荐
大数据惊魂14天:爬虫“五宗罪”或为导火索,城门大火谁能脱身?
51信用卡风波:“惊魂”时间背后折射出的行业痛点
互金爬虫大清洗:曾与现金贷共生共荣
5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?
爬虫整顿风暴冲击波持续 杭州大数据服务商接连被查
当商业偏好影响技术中立,网络爬虫遭司法拷问
大数据倒在2019
爬虫谋杀独角兽
祸起“套路贷”:违规爬虫被查,大数据风控公司遭遇生死劫
整肃爬虫公司
网址: 大数据惊魂14天:爬虫“五宗罪”或为导火索,城门大火谁能脱身? http://www.xishuta.com/newsview10206.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 94831
- 2人类唯一的出路:变成人工智能 18279
- 3报告:抖音海外版下载量突破1 17828
- 4移动办公如何高效?谷歌研究了 17547
- 5人类唯一的出路: 变成人工智 17382
- 62023年起,银行存取款迎来 10009
- 7网传比亚迪一员工泄露华为机密 8000
- 8顶风作案?金山WPS被指套娃 6446
- 9大数据杀熟往返套票比单程购买 6423
- 1012306客服回应崩了 12 6370