您的位置:计世网 - 系统开发

朗动网络CTO刘培彬:企业大数据对征信的一些影响

邹震- 2016.09.26 15:46 0条评论 系统开发

 

朗动网络CTO刘培彬:企业大数据对征信的一些影响

 

  世界杯预测、高考预测、电影票房预测、流行病预测,在大数据时代下,作为其核心,预测分析已在商业和社会中得到广泛应用。但对大数据人来说,预测也是目前在大数据领域中最难的一个环节:大规模数据的调用、流式数据的处理、预测与被预测的悖论、预测模型的搭建,一方面在考验着 大数据处理技术,另一方面也在考验着数据科学家们对目标事物的理解。

  本次活动邀请了大数据领域和大数据应用企业的技术人员、数据科学家们分享大数据预测技术上的实践与经验。希望通过本次活动达到跨界和跨行业的数据从业者的交流,碰撞出更多探索的火花。

  与会嘉宾有:Dell中国解决方案事业部的高级顾问忽林安、Kyligence联合创始人兼CEO韩卿、上海势航网络车联网平台总监万佳驹、敬众科技总经理瞿天锋、“聚信立”运营副总裁喻昊旻、苏州朗动网络CTO刘培彬。

  以下是“朗动网络科技有限公司CTO刘培彬”在现场的精彩发言,数据猿编辑整理:

  刘培彬:大家下午好!非常高兴主办单位邀请。我们这边跟聚信立不一样的,我们针对的领域是企业,他们那边针对的是个人。我这边抛砖引玉谈谈企业大数据对征信的一些影响。

  先讲讲我对征信的一些理解,再讲一下我们企查查在这一块做了什么东西,还有一些案例分享以及我们实现的架构,简单给大家做一些交流。

  其实征信这一块,百度上面有一个完整的解释叫做信而有征。征信这个行业,至少在2015年之前对我们还是很陌生的,我还没有踏入这个行业之前对它也是一无所知,唯一的知道是银行拉的个人征信报告,其实这个征信的定义本身就是一个第三方平台对于数据的收集,把这个数据提供给金融机构,并且对它进行信息共享。

  我们知道对于个人来讲,国家已经对八家金融机构发行了个人征信牌照,但对企业这一块国家也是放的很开,截止到2016年8月份,全国有135家企业拿到做企业征信的牌照,只要企业愿意去做的话,都可以申请这个牌照。

  讲到“征信”这个词,也许我们觉得有一点陌生,在我看来,“征信”就是为我们的信用做一个定价。以前我们去贷款包括银行贷款,个人申请贷款肯定要用房产或者车辆做抵押。企业贷款肯定也是机器、设备或者什么物品做抵押。但是以前银行肯定是爱富嫌贫,一般中小企业很难拿到贷款的,而且国家对这一块支持力度也不大,衍生出很多高利贷这种东西。

  现在P2P发展这么火,其实本身也是有原因的。做信用贷款时,第一关就是做征信、风控。征信,是我们为这个人或这个企业做信用定价,比如说这个企业是互联网企业,有APP或者有一些专利、软件著作权,在银行家的眼里这是分文不值的,我们现在对它进行资产评估,有可能就值一百万。

  当前市场的现状是怎样的?有三个数字:第一个,做企业这一块,申请的企业越来越多,135家。我们看到易观智库出了一个数据,对我们大数据市场今年年底会突破100亿,而且每年以至少30%的速度在增长,包括中诚信或者国家其他的征信机构,对征信的市场估计比较乐观。我们根据初步估算未来三年达到一千亿是没有问题的。

  我们看看传统征信,当时我们进入这个行业之前或者我们在做企业数据之前,传统的征信怎么做?有一些安排人到互联网上面收集这些企业的信息,比如说一些负面新闻或者跟第三方机构进行合作的情况。还有派线下人员到实地,申请贷款的企业拿他们的年报或者资产总计,但我们知道,特别是企业提供的数据,如果想贷款,提供的是不是真实,其实是很难把握的,有可能进行了一些修改。而且这个成本会非常大。当时一个普通的人去线下调查,估计成本有八百或者一千左右的人力成本。

  我们现在信息越来越公开,包括政府也把更多的数据公布在互联网上面,所以这一块成本在降低。如果我们利用网络的方式做收集,边界成本降的非常低,数据源也是非常多,伪造的可能性也很小。伪造可能性小的原因是我们把企业从它出生到当前运营的情况,完整的记录下来,而且我们数据主要以国家公布的权威网站为主,一个企业想贷款,想伪造这些信息基本上是不可能的。另外一个,征信机构他们以前的数据也是从银行或者政府拉出来的,当他们知道我们企查查做企业数据的时候,跟我们合作,可以直接用我们的数据,通过接口、通过其他的方式,或者我们帮它生成征信报告,它这一块成本会降的很低。而且传统征信有一个不好的地方,这个征信是一次性的,需要在贷款或者银行需要的时候拉这个报告,这个报告的成本大概几百,要求比较高的话有三千块,去年有三千块,今年应该没有这么多了。拿了这个报告,贷款以后,后续没有任何的服务和追踪,但如果利用我们互联网的方式,我们可以提供一些后续监控的动作。

  本质来讲,包括瞿总刚刚也提到,他们从航空的角度,这个人是精英啊或者什么情况,对这个人做征信调查,我们这边通过企业的相关信息做调查。征信在中国国内其实是一个全新的领域,互联网是一个全新的领域,这边缺少一些标准。

  另外一个,我们的数据价值越来越大,现在发现政府对数据也越来越重视,包括贵阳大数据,包括上海也做了一个交易中心,国家希望从土地财政往数据财政驱动,但是这样反而造成一些信息孤岛,因为越有价值的数据每个企业认为是一块宝,不会轻易的共享出来。我们当前来讲通过网络方式收集这些企业的信息,还是缺少一些敏感的数据。敏感的数据包括公司内部的财务数据、水电煤气的数据,本质来讲还是有一些缺陷的。

  我们也需要大家一起融合来进行创新,主要有以下几种模式,一种我们这边的数据是从政府公开、权威的渠道收集。另外也可以对接金融机构,当他授权以后,可以从金融机构拉取银行流水,还有电商、社交的数据。互联网的数据是新闻舆情、期刊杂志、公司网站自己公布的。当然还有被调查企业自有的数据,这些属于敏感的,除非它有求于你,否则也不会在网上公布这一块。这么多的数据,我们可以做一个融合创新,我们企业的数据如果能跟瞿总或者聚信立的主要人员进行关联,因为公司是一个法人,但最后的执行者肯定是法人以及高管,所以最后针对到人,如果这里面的人出了问题,这个公司也可能出问题。比如说这个人变成老赖,或者在其他的平台借钱不还,以公司名义借款,这个风险也是很高的。

  介绍一下我们企查查,我们企查查做的是免费的APP,在安卓市场以及APP Store都可以搜索到。当前企查查为C端做的东西都是免费的,当前我们在做的企业家或者公司的高管,有可能你对公司自己的情况还没有我们这边了解,可以搜索一下,包括你们公司的成立时间、变更情况,还有专利商标,经常我们发现有一些企业用我们的产品发现有一些事件执行或者被人家法院告了,本身他有可能不知道,打电话来询问,我们告诉他因为什么原因或者在法院有一个判决对你有影响。我们成立的时间是2014年3月份,这个时间刚好是国家对企业信息进行公布的时间点,其实也是机缘巧合,我们以前做车辆违章的,对数据爬虫、数据收集这一块有优势,那一段时间我们转型,做了企业信用查询,最后是APP,获得了三轮投资。

  企查查收集的数据维度以工商信息为主,主要有基本信息、股东、股权、变更记录、年报。另外收集企业的法律诉讼以及经营状况,是否有经营异常、税务、融资产品。特别互联网企业拿到风投,比如说会有一个时间表。还有公司无形资产、商标、专利、证书、著作权等等。还有新闻舆情这些信息。

  当我们把这些信息收集起来之后会做很多东西,企业的数据在中国是有限的,当我们把企业信息做了收集,可以发现很多奇妙的东西。

  王宝强和马蓉的事件上个月闹的沸沸扬扬,我们后台预警监控,王宝强把企业法人从马蓉变成了另外一个名字,当时就出了一篇新闻。

  我们数据来源主要是政府公开网站,还有第三方合作的机构,也有征信机构、合作的数据公司,还有通过深度学习,Hadoop的平台对企业画像,自有产生的一些数据。还有平台自己收集数据,包括用户的点评以及一些企业会自己提交一些信息,这些信息有可能是他自己愿意公布的,包括联系方式、资质。

  这边透露几个数据,裁判文书整个库有2050万,执行2500万。我们全国的企业也将近4000万,个体工商户是6000万。其实我们看到这些数据没有个人的数据,个人数据应该是上亿。但对于企业来讲,变更,特别有20%的企业变更是非常频繁的,这些公司每天在不停的增长和消亡。

  对我们来讲,也是希望挖掘企业深度的信息,这一块我们的重心在企业的用户关联,说到底就是人与人之间的关系,这一块的关系包括企业跟企业的关系,企业的对外投资,企业的股东,法人,对外进行了哪些投资。或者两个人分别投资了一家企业,或者这个法人跟另外一家投资了,相互持股,但本质上面不会再工商登记那边体现,当我们拿到数据以后,进行内在关联。还有包括历史股东、历史高管的关联。还有法律诉讼,有可能两家公司经常打官司,这一块包括他们之间相互关联,有一些商标诉讼是非常严重的。还有社交媒体,舆情的关联。有一些企业之间的关联,比如说CEO或者法人代表这个公司跟人家做了一些关联。还有一种情况,比如说我们公司叫做苏州朗动,我们的产品是企查查,但很多外面有可能先了解企查查,根本不知道我们公司叫什么名字,要识别一家公司不是简简单单是名字,有可能是公司的CEO,比较核心的高管或者它的产品。

  我这边也分享一下案例。当前我们第一批客户,比较重要的客户是银行客户,跟金融类相关的,会应用到我们的数据,在征信这一块。同时我们对它提供不同阶段的数据服务。银行其实有时候也很愁找到优质的客户,也需要把它的钱贷出去。中小企业很难贷款,但优质的企业,银行其实很喜欢把钱送给他们,因为每个银行也有自己的业务指标。在这个之前,特别银行在之前他们也需要寻找商机、寻找客户。比如说我们发现一些,比如说最近新融资的企业或者有一些在专利申请上面有大动作的,特别医疗行业,专利是医疗行业的一个保护伞或者一个重要资产。比如说有融资或者新注册的企业,或者在市场上面有重大产品发布的企业,优先会议推送给银行。银行对这些公司进行资质审核以后,有可能会打电话或者登门拜访的方式,看有没有贷款需要。这是贷前。

  贷中协助银行做资质审查、风险评估,我们也会对正面、负面的新闻舆情或者网上的评价,等等评估这个企业究竟值不值得贷款,究竟能贷款多少。

  贷后,贷款以后其实银行最担心的是钱收不回来,银行对于优质客户贷款是上亿的,非常多。只要出现一笔风险,其实银行的损失是非常大的,我们为它减免损失,银行是愿意出这笔钱的。这一块也就面临贷后监控的问题,对被监控的企业做一些资产变更、股东股权的变更或者进行了清算,或者网上有负面消息,就是帮助银行做债务催收。这一块,包括律师也用到非常多,也会关心负面的或者关联的企业,比如说这家企业出现了资产不良的情况,他们也需要寻找另外一家控股公司或者有关联的公司。

  另外我们这边对供应链金融,包括我们当前正在做生意的那些企业,其实大部分是企业跟企业打交道比较多,供应链金融当前主要客户是集中在深圳这边,需要对他们上下游进行关联,或者寻找好的上下游。这一块对上下游,分析上下游值不值得合作,分析它的竞争力,选择合作伙伴。这边会对供应链金融提供企业的画像。我们用一些标签来识别这个企业究竟是可靠的客户还是不可靠的,他在当前最近几个月有没有负面的评价、新闻。我们这边还能分析出大概业务、税务等级、今年的营收大概属于什么区间,行业的分类,这样方便我们供应链客户去对这个客户进行筛选。

  当前我们这边典型的客户主要有一些认证公司,微信认证,大家在提交营业执照,其实后台会有第三方公司对它进行营业执照的审核,当前国内大部分用的是我们提供的数据。另外像纷享逍客,当前也是用我们的数据比较多。还有传统的征信、银行。

  这边简单分享一下实现的基础架构。这一块,当前来讲这些数据主要由我们自有的爬虫爬取的。这一块爬取,包括后台的更新,我们找到一家新的企业,我们后台会把这个新的公司记录下来,后台去抓取。有一些已经查询了,我们有可能会在后台,比如说等一段时间就会更新一次。当前主要用了redis、Hadoop、mongoDB等等。前端的应用主要提供了,就是我们企查查的查询。还有移动端安卓、ios的应用。还有实时查询、数据可视化等等。

  我们对数据生命周期这一块的管理,会分成很多统计类的插件、数据挖掘、数据导出、分布式采集。我们这边采集数据,国家不会把敏感的信息都公布在官网上面,比如说我们采集这个企业工商的时候不知道行业是什么。还有股东股权,其实也是没有的。这样需要后台挖掘、分析等等,这一块在我们当前的APP上面可以看到一些企业的行业,还有你们可以看到股东股权。其实股东股权,年报里面也公布了一下,包括历史记录也公布了,我们逐渐把这些信息,用户想看到的,或者我们也知道政府里面还有其他的什么数据,我们通过数据分析或者其他交互的方式把它补上。

  看看流程,我们主要的业务就是爬虫系统,会监控全国所有的工商网站,还有一些新闻网站,另外类似企业信息非常多的,像58同城,那边也有一些新公司、新的名单,我们获得这些信息以后会把信息丰富到我们库里面。除了这些信息,也会跟第三方合作,有一些外部的数据,这一块经过采集、清洗,会加载到我们数据仓库里面,当前我们数据仓库相当于把所有的信息进行了汇总,在数据仓库里面做一些分析。当然还有一些非结构化的数据,我们当前数据仓库并不能满足,我们接下来会进入到Hadoop的平台,比如说对我们自己的客户进行画像或者企业进行画像,利用到数据挖掘的平台,最终展现在我们的网站是已经做好的一个东西。大家有兴趣的话可以登陆我们网站看一下,包括企业的对外投资,我们这边对外公布可以达到企业上下四层,你们这家公司谁投资了你,它的投资公司是什么,还有往下走这家公司的股东是什么,这个股东下面又有什么公司,把公司所有族谱都列出来。还有幕后关系图谱,我们可以找出这家公司跟你们相关的,特别被投资过的企业可以看看,有可能是你的投资机构或者你们内部股东的人在另外一个地方又投资了另外一家公司,多维度的展现出来。

  我的分享就到这边。谢谢大家!

  来源:数据猿

文章评论

关注作者的人