首页 » 技术分享 » 简直不得了!DataVisor推出轻量级UML,实力圈粉中小企业!

简直不得了!DataVisor推出轻量级UML,实力圈粉中小企业!

 

最早仅仅在电商领域“疯狂肆虐”,如今已经发展为“无处不在+层出不穷”……

额,头疼!

起初只是简单易识破的刷单and薅羊毛,而现在却统统升级为拥有十八般武艺的“神选手”……

嗯,难搞!

原本只是随机进行的“单挑作案”,慢慢却转变为蓄谋已久的“团伙行动”……

哎,怎么会这样?

听起来,欺诈这种事儿似乎已经发展为“家常便饭”并且猝不及防!
 

形势如此严峻,身处电商、社交、游戏以及金融等“欺诈重灾区”的成熟型企业们都纷纷拿起有力武器捍卫权益,那处于成长期的企业们究竟该怎么办?

图片来源:http://tupian.baike.com/a2_11_91_14300000678340127193913296427_jpg.html

别急!DataVisor早就想到了这点,抓紧发布了全新的反欺诈新产品—DataVisorUMLEssentials,实地教会成长期企业对欺诈坚决说“NO!”

 

DataVisorUMLEssentials究竟怎样?

据小编了解,这款新产品以DataVisor首创并在业界反响强烈的无监督机器学习(UML)引擎为基础。

 

 

 

因为考虑到最初接触的客户群体里成熟型企业居多,相比成长期企业,表现出的技术能力比较深厚,对此DataVisor中国区总经理吴中表示,这次轻量级产品的业务对接,会针对不同企业在业务、数据的复杂度上以及特殊场景方面进行定制化的工作,切实为选择使用该产品的成长型企业在防欺诈方面带来收益!

 

 

此外,新产品在接入效率以及方便场景的设置上,例如注册环节,在力求达到高效全面的防控的同时,确实费了不少心思!

据悉,产品初期会选择从大规模注册场景入手。

在种类繁多的互联网服务体系中,其实“注册”几乎可以作为所有服务的必备入口之一,通常企业也最容易在用户注册这个环节疏忽用户真假辨别,给日后平台的安全性埋下隐患。如果可以从源头上阻止欺诈、防范欺诈的话,针对性会更强!

“我们选择将这个看似很普通的场景做深做细,当然在产品发展的中后期也有可能会引入更多场景,未来发展中企业也可以根据自身的业务发展选取针对性的服务。”吴中补充道。据悉,DataVisorUMLEssentials只需使用一组标准的数据字段,就可以轻松面对最广泛的大规模注册场景,还伴随着性能优化。

在交流过程中,小编得知新产品以SaaS形式提供服务,这样自主服务就显得额外重要。依照相关指引,用户可以轻松完成数据上传,数据质量检查,生产部署,生成可视化报告,自定义报表等全部流程,保证用户对服务的全程可控。

DataVisor在这次的产品设计中做到最大限度减少用户切入服务的时长,保证在使用防欺诈功能的过程中,企业自主参与与把控的程度较高。

更重要的一点,这套产品做到了机器学习服务中的开放性创新,简单来说就是完成了模型的自动调优技术设计。

过去,在传统服务中,产品在接入用户前需要大量人工参与其中,根据用户的特点进行手动调优。

如今自动调优的设计不单大幅度降低了人工耗时,从过去的几周缩减到几天甚至几小时,有效降低成长期企业对先进AI风控技术的接入门槛。

需要强调的是,DataVisor的服务均是基于自研发的数据处理平台,无论是之前的无监督学习反欺诈解决方案还是这款最新推出的UMLEssentials。

吴中介绍说,这款数据处理平台目前构建于主流的云计算基础架构设施上,包括AWS以及阿里云等,可以实现多租户任务自动化,流水线水平扩展以及模型公众发布等。

如果从数据量级的角度分析,每日上千万级的数据吞吐是“小菜一碟”,足见平台级的数据支撑强大且无忧。

“我们希望能把DataVisor在安全领域多年积累的经验赋予更多成长型企业,将线上安全领域中第一步风控场景—大规模注册,在欺诈发生前将其拦截,有效降低企业在使用AI反欺诈服务的门槛,让企业更加专注于产品研发和用户增长。”吴中总结到。

DataVisor启程于美国加州山景城,2015年获得由GSR与NewEnterpriseAssociates领投的A轮融资,并于2016年下半年进入国人视野。

短短不到两年时间,就掌握了包括电商、游戏、金融还有社交领域在内的诸多中大型企业的防欺诈业务,凭借人工智能技术,尤其是无监督学习算法以及大数据方向应用深耕“反欺诈”这片土壤,就在刚刚过去的2月,DataVisor又成功获得由红杉资本中国基金领投的四千万美元C轮融资。

有关DataVisor无监督学习的几个问题

谈及DataVisor“领衔”的无监督学习技术手段防欺诈,还是先来说说如今在防欺诈市场中存在的几种主流技术方法吧!

首先就是我们熟知的规则系统。

即凭借曾经被欺诈的经历去分析一些样本,来总结得出“出现欺诈”的情况并设置有效的规避规则,这种方法需要深入了解欺诈模式,无法做到有效应对不断变化的欺诈手段。

另一种,有点儿类似于通常使用的社交软件中的“黑名单”设置。

可以理解为将一些曾经的黑产设备,包括指纹等信息录入,把结果提供给用户进行匹配,如果可以匹配才能锁定欺诈身份无疑。如果黑产信息不够多,新设备出现?就很难办了!

第三种,也是很多该领域的企业积极着手的尝试,被称为有监督学习或者半监督学习,但在实际应用中也存在不小的困难。

例如标签数据的获取,过程是否透明并独立,数据分类的标准如何把握、是否有效做到提前预警等。

可想而知,在现实中,各行各业均拥有较多的数据积累,但携带明显含义的标签数据却少之又少,如何合理制定标签?必然需要行业内的权威专家深度协同参与,人力是否允许就会打一个大大的问号。

此外,即使“打标签”这个问题得到解决,标签数据的及时性又无法得到保证,如果滞后就会对数据准确性造成影响,然后包括建模,检测攻击等环节一并受到牵连,有监督学习的效果自然也就达不到了。

还有最最重要的一点,以上三种防欺诈的技术手段都无法做到事前的防御和检测!

也就是说,想用这三种方式,前提是被骗过才行,仅仅有点儿亡羊补牢的意思。
 

图片来源于:http://www.qq1234.org/QQbiaoqing/biaoqingbao/2015/0415/31318.html

这样比较来看,无监督学习还是目前很有效的防欺诈技术手段,为什么这么说?最重要的优势,可以做到事前的预防与检测,当然它并不需要“标签”这个东西。

DataVisor作为业内最早并最长时间使用无监督学习的企业,防欺诈解决方案就是依托这种无标签的机器学习,来自动挖掘各种未知或新型的攻击。

没错,根本不用输入数据形成标签就能够使用。

更便捷的一点,还可以计算出相应的函数,用来描述“无标签”输入数据之间隐藏的关联。

 

 

例如,DataVisorUML引擎采用聚类/图分析技术开发而成。通过分析数据点之间的距离以及连接(数据点代表账户及账户在一定时间内的活动),就可以自动发现新型滥用、欺诈和洗钱等活动。

 

 

尽管目前无监督机器学习很有效,但在实际应用相对较少,可能难度还是在于如何设计算法、体系架构以及保障算法的效果等方面。

DataVisor除了在实际欺诈检测过程中采用无监督机器学习引擎,还可以搭配有监督机器学习引擎、全球智能信誉库以及自动规则引擎进行使用,形成一套防欺诈的解决方案。

运行的大概过程是这样的!

这套解决方案的原理是将原始数据输入无监督机器学习引擎,可在实时环境下,输出每个事件的欺诈可疑分数并给可解释性原因;在批量处理环境下,输出检测出的可疑账户列表,并附有相关分数和原因解释。

无监督机器学习引擎输出结果还可录入到DataVisor可视化控制台,控制台可直观显示攻击团伙,方便调查每个已检出的事件以及账户。
 

其中,无监督机器学习引擎在数据输入和结果输出之间需要执行以下几个关键步骤:分别是动态特征提取、无监督攻击团伙检测、结果分类和排序等。

需要说明的一点,“无监督”可以进行自学习,了解未知欺诈攻击方式!

通常无监督学习引擎会在动态特征提取这一步关注这样几个数据类别:例如用户个人信息,例如用户签名、用户昵称等;用户行为,包括登陆信息、浏览记录等;设备信息,包括设备类型及版本、浏览器信息、IP地址等。

最重要的一点,不同账户之间的交互关系也在“关注”范围之内。

DataVisor全方位的反欺诈解决方案,除了无监督学习引擎外,同时也会配合自动规则引擎以及全球智能信誉库的使用。

自动规则引擎保留了规则系统的透明性,且无监督机器学习引擎可以自动更迭规则。

吴中解释道,实际上它的核心是无监督机器学习,相当于具备一个自动无监督的模型能够自动产生异常的、欺诈群组的检测,并生成一些人工可以理解的动态规则。

据小编了解,这个过程并不需要人工干预。

“我们会根据监督到的结果动态去更新,裁减掉一些不适用的规则,保证规则的准确率。简单的可以理解为已经有一个很好的算法知道现在欺诈者的相貌以及数量,任何一个规则都可以用数据来做验证。”吴中解释道。

此外,DataVisor还打造了全球智能信誉库,为以上技术提供数据支持。

 

 

全球智能信誉库主要通过挖掘、整合攻击信号,进行二度计算,提炼出更具有代表性的信号。据了解,信誉库拥有来自不同领域总计超过30亿用户的欺诈行为数据,精细到包括IP地址、UA信息、邮箱域名、设备类型等。

 

 

虽然类属机器学习,但无监督学习对模型维护“没那么多要求”。

DataVisor的UML引擎支持相对灵活的输入数据格式与数量,结果可借助API或者UI呈现并使用。

另外,由于并不需要大量的调优工作,所以调优花费更低。

UML引擎能清楚地检测出关联账户之间有什么共同的属性,给出相对透明并且更加合规的检测原因,这一点借鉴了规则系统的优点。

有人会问,客户那么多,每家企业的数据又都是不同的,难道事先不会进行针对数据的评估或者判断吗?如果会,这个判断结果会影响我们最后监督的结果吗?

关于这个问题,吴中解释,在介入业务时,会做基本的数据清洗和一些所谓的整理动作。

举个例子,例如收集IP,收集上来的IP如果都是服务器内部的,其实毫无作用,所以在前期通过数据清洗和图表统计一下,这也可以做一些事前的排查,发现问题一般也会反馈,哪一点有问题,然后清理完成后模型才会保证比较好的效果。

谈及与众多客户的合作,吴中表示,这种合作相当于“产品+服务”的模式,以年度订阅形式体现。

年度订阅服务后,DataVisor会通过数据分析来提供结果。

追求的目标更像是两个团队的联合与互补,为了提高欺诈检测率和覆盖率。

与DataVisor的合作中,客户内部技术团队更多只需要做一些前期工作,例如数据准备和清洗等。DataVisor则可以利用无监督机器学习的方法发现未知的欺诈模式,客户可以分析判断DataVisor能够自动发现多少新的欺诈模式、带来多少增益以及减少多少损失等。

数据层面合作模式上,DataVisor也有几种模式,例如SaaS云端的部署方式、私有云部署,也可以是本地部署。

四年前,谢映莲和俞舫双双离开微软在美成立DataVisor……

随后不久,便收到来自陌陌赴美寻求合作的机会,DataVisor很快运用独创的无监督学习算法,帮助陌陌建立起一套领先的基于行为识别的全方位反欺诈检测方案……

2016年,DataVisor又将“无监督”反欺诈技术带到中国……

 

后来,独创的无监督反欺诈技术成为其业务主线上的“专利产品”,此外还有多项专利正在申请中……

DataVisor,一炮打响、一路走来,总给人们带来技术上的惊喜。

转载自原文链接, 如需删除请联系管理员。

原文链接:简直不得了!DataVisor推出轻量级UML,实力圈粉中小企业!,转载请注明来源!

0