大数据,商业竞争的护城河

程序源代码

共 2715字,需浏览 6分钟

 ·

2021-01-05 12:42

2021年大数据肌肉猿公众号奖励制度




内容来源:本文为蓝狮子出版社书籍《AI3.0:人工智能落地的商业逻辑》书摘,笔记侠经出版社授权发布。
作者简介:王晓梅,前IBM大数据和分析业务全球负责人,深耕大数据分析与AI领域20多年。


责任编辑 | 浮灯  值班编辑 | 金木研

思维方式


笔记君说:


未来的商业竞争,是数据之争。

如何打赢这场竞争?这就要看你对数据了解多少。


人工智能只是一种技术手段,数据资产最终决定人工智能的行业应用发展,以及企业新的市场。

 

随着互联网、开源、云计算等技术的发展,企业在技术上会越来越接近。

 

不久的将来,超级摩尔定律下芯片计算力会有更大突破,人工智能作为一种技术能力将越来越普及,长期来看,技术能力上的差异会越来越小。


在行业应用上,真正能建构牢固“护城河”的核心要素一定落在数据上。

 

那么,数据又从哪些维度展开竞争呢?

 

第一,数据的品质。


比如数据的准确性、完整性、可追溯性、持续性、真实性和共享性。这些品质决定着人工智能模型的质量,也决定最终的落地成果。

 

第二, 数据竞争存在先发优势。


那些占据着特定的应用场景,并且更早、更多地获取数据的领域,人工智能的优势会更明显。

 

第三,数据的安全和隐私保护,决定了人工智能应用最终可以走多远。

 

一、提升数据品质

 

针对特定领域的数据集越庞大、越真实、越准确、越可追溯、维度越丰富、越协同共享,越能得出最佳算法并带来竞争优势。

 

比如,在奈飞的网站上,围绕用户的维度,有性别、年龄、浏览过的电影、喜欢的明星、过往阅览记录等;围绕某个电影的维度,有年代、导演、演员、风格、题材、用户评价等。


绕两个主体的数据维度越丰富,越能在两者间建立精准匹配的关系,让企业以更好的体验扩大用户群,不断强化自己的优势。

 

我们看到,App的用户规模越大,往往越能更精准地满足个性化体验。



比如,现在我们使用的一些音乐App已经能够精洞悉每个用户喜欢的音乐风格,并准确推送喜欢的音乐。

 

对如何提升数据品质,企业可以在两方面同时努力:

 

内部,要有系统的规划,实时采集和整理数据,建立长期数据积累;

 

在外部,要有意识地构建生态体系或者寻找合作伙伴,尽可能多地获得相关数据,且搭建统一架构,帮助数据互通。

 

二、数据的先发优势

 

数据竞争一定存在先发优势。企业越是占据特定的场景,更早、更多地获取数据,人工智能的优势就越明显。

 

现在,数据尚未全面商品化,企业与企业之间的数据交换尚未畅通。

 

由于市场的复杂和竞争、数据安全和监管等原因,企业或机构不敢轻易开放数据,企业或机构需要通过自己的产品和生态体系来获得更多数据。


从这个角度看,平台型科技公司基于自己强大的数据基因,占有完全优势。

 

长期来看,数据是可以创造收益的资产,是公司的核心竞争力,越早入局规划,越能占据主动。未来数据全面商品化之后,价值会非常明显。


三、数据安全和隐私保护

 

对数据安全和个人隐私的保护程度,决定了人工智能可以走多远。

 

数据安全有两层含义:


一是保证用户数据不损坏、不丢失,这种情况发生的概率不大,数据存储在云端也安全得多;


二是保证数据不泄露或者滥用,这是主要的关注点。

 

无论在电子商务、航空旅行、金融借贷还是医疗行业,全球已发生多起数据泄露的件,引发公众的愤慨。


2017年,单是美国征信企业艾可菲Equifax一家公司的信息泄露就涉及多达1.43亿人的姓名、住址、出生日期、社会保障号和驾照等敏感信息。

 

人们不可能纵容自己的数据隐私被侵犯。任由信息泄露和滥用,公司会陷入舆论的漩涡,商业发展的困境最终会阻碍人工智能的发展。

 

四、找到“强相关数据”

 

首先,无论大数据或小数据,有价值的就是好数据;其次,“大数据”这个词,更多是一种思维方式和一个时代标志。


实际的场景中使用的数据往往是有限的,真正有用的是“小数据”。

 

兵法上讲,“伤其十指不如断其一指”,大数据是一样的道理,要用力在关键的“一指”上,不必追求“十指”面面俱到。


用户源源不断地产生数据,目前对于企业来说,数据的收集和存储能力并不构成障碍。


症结在于,90%的数据没有被真正利用起来,成了“废数据”。

 

主观上,这与机构的数据思维文化有关,并不是所有公司都能像奈飞、亚马逊那样推崇用数据说话。


客观上,则与数据的相关度有关。


比如一名用户10年前的互联网数据,对于分析当下或预测未来并没有太多的作用,时间序列上的弱相关度,大大减弱了数据的效力。

 

相关数据,特别要强调与特定场景的相关度。现在,人工智能的应用针对的是某个具体任务或具体目标,需要的数据类型不尽相同。

 

比如,传媒、金融、医疗等各行业需要的细分数据不同,具体到同一行业的子领域也不同。比如,在医疗领域,心血管疾病和癌症诊断所要的细分数据就不一样。

 

大部分人工智能的应用场景,都是针对一个具体的任务。

 

比如,个人信贷鉴别申请者的信用风险,餐饮外卖确定最优的派送路线,资讯信息流做精准的个性化推荐……具体的场景中,起作用的主要是相关度高的数据。

 

五、重视小数据

 

相对大数据来说,能直接用起来的相关数据,往往是一种特定的小数据。

 

这里的小数据,指的是使用场景单一、对应算法简单、及时性较高、数量规模较少的数据。


可以说,大数据是宏观、全面的分析,小数据则是针对特定任务的具体分析。现阶段真正好用的其实是小数据。


同样以奈飞为例。


1997年,它以DVD在线出租起家,还没有那么强的数据能力,幸运的是,它早年就上线了用户打分功能。


2007年,奈飞推出流媒体业务“Watch Now”(立即观看)的时候已经积累了20亿条用户打分数据。


通过这些数据,就能够非常容易了解用户对内容的偏好。这个打分数据就是小数据,维度很单一,却非常契合奈飞的业务场景,对内容决策非常有用。


 

当然,在大数据时代,小数据的内涵也会发生延展。比如,围绕个体的全方位数据更加重要。


这里的“个体”不只是自然人的个体,也包括社会组织,如商店、企业、社会团体等。


掌握全方位的个体数据,一个直接的好处就是可以精准推送个性化服务。


数据竞争是未来竞争的核心,而在人工智能商业落地的过程中,掌握数据的核心要义,才能在未来的竞争中,构建自己的护城河。


--end--


推荐阅读:

我的2020年

数据仓库建设规范.pdf

OLAP核心技术压测报告.pdf



扫描下方二维码
添加好友,备注【交流
可私聊交流,也可进资源丰富学习群


更文不易,点个“在看”支持一下?

浏览 44
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报