如何评估一项技术是否值得长期投入
Hollis
共 4209字,需浏览 9分钟
·
2020-05-05 23:22
文 | 简锋
“每个人的时间都是有限的,在有限的时间里选择一项值得投入的技术会变得尤为重要。”
今天我想结合自己过去的职业经历来聊聊如何评估一项技术是否值得学习。我一直在大数据这个圈子,从最初的 Hadoop 到后来的 Hadoop 生态项目 Pig,Hive,Tez,然后又到新一代的计算引擎 Spark ,再到最近在做的 Flink ,大数据计算引擎贯穿我的整个职业生涯。我个人来说是比较幸运的,在每个阶段都在做比较火的技术,当时更多的是凭着自己的兴趣和直觉在选择技术类型。现在回过头来看我觉得需要从下面 3 个大的纬度来评估一项技术是否值得学习。 1、技术深度2、生态广度3、进化能力
技术深度
技术深度是指这项技术的根基是否扎实,护城河是否够宽够深,是否很容易被其他技术所替代。通俗的来说就是这项技术是否解决了其他技术所不能解决的有重要价值的问题。这里有两个要点:
注:Spark Streaming 只能选择搜索字词,理论上这样的对比是不严谨的。但作为趋势,我们更关注的是其变化曲线,实际影响应该不大。
生态广度
当 Hadoop 刚出来的时候只有 2 个基本的组件:HDFS 和 MapReduce ,分别解决了海量存储和分布式计算的问题。但随着发展,需要解决的问题越来越复杂,HDFS 和 MapReduce 已经不能很方便的解决一些复杂问题,这时候 Hadoop 的其他生态项目应运而生,比如 Pig,Hive,HBase 等等从垂直领域生态这个角度解决了 Hadoop 不容易或者不能解决的问题。 Spark 亦是如此,一开始的 Spark 是要替换原来的 MapReduce 计算引擎,后来 Spark 发展了各种语言接口,各种上层框架,比如 Spark SQL,Spark Structured Streaming,MLlib,GraphX 等等,大大丰富了 Spark 的使用场景,扩展了Spark的垂直领域生态。Spark 对各种 Data Source 的支持,更是让 Spark 这个计算引擎和存储结成了联盟,建立了强大的上下游生态系统,为端到端的解决方案奠定了基础。
我现在做的 Flink 项目的生态仍然处于起步阶段,当时我加入阿里巴巴正不仅仅是看到了 Flink 作为流计算引擎的霸主地位,更是因为看到了 Flink 生态的机会。大家如果从我的职业生涯来看,会发现些许变化,我在从一开始专注于大数据的核心框架层慢慢在往周边生态项目发展。一个主要的原因是我对整个大数据行业的判断:大数据上半场战斗集中在底层框架,目前已经接近尾声,未来的底层大数据生态圈中将不再有那么多的新的技术和框架,每个细分领域都将优胜劣汰,走向成熟,更加集中化。下半场战斗的重点讲从底层走向上层,走向生态。之前的大数据创新更偏向于 IAAS 和 PAAS ,未来你将看到更多 SAAS 类型的大数据产品和创新。
每次谈到大数据的生态,我都拿出上面这张图。这张图基本上把你日常需要处理的大数据场景都包括进来。从最左边的数据生产者,到数据收集,数据处理,然后再到数据应用(BI + AI)。你会发现 Flink 可以应用在每一个步骤。不仅涉及到大数据,也涉及到 AI ,但是 Flink 的强项在于流计算处理,在其他领域的生态仍在起步阶段,我个人正在做的工作就是完善 Flink 在上面这张图上端到端的能力。 进化能力
【1】:https://medium.com/@acmurthy/hadoop-is-dead-long-live-hadoop-f22069b264ac Spark 项目就更不用多说了。Spark 经过 14,15 年爆发,现在已经进入平稳期。但是 Spark 仍在进化,仍在拥抱变化。Spark on K8s 就是 Spark 拥抱云原生的最好佐证。现在 Spark 社区炙手可热的Delta,MLFlow 更是 Spark 的强大的进化能力的佐证。现在的 Spark 也不仅仅是当年要取代 MapReduce 的那个 Spark ,更多是一个适用于多种场景的通用计算引擎。 我从 18 年加入阿里巴巴到现在差不多 1 年半时间,在这一年半的时间了,我正好见证了 Flink 的进化能力。
首先 Flink 经过几个大版本的发布,融入了 Blink 的大部分功能,将 Flink SQL 的能力提升了一大截。
其次 Flink 对 K8s 的支持,对 Python 的支持,对 AI 的支持都在向人们证明这Flink自身强大的进化能力。
小 Tips
除了以上的 3 大维度,在这里我还想分享下我在评估一项新技术时候的一些小技巧。
1、利用 Google trends 。Google trends 能很好的反映一项技术的发展势头,上面提到的趋势图很好的比较了 3 大流计算引擎 Flink , Spark Streaming 和 Storm ,我们不难得出结论:Flink 是流计算领域的王者。
2、查看 GitHub 上的awesome。一项技术受欢迎的一个指标是 GitHub 上的 awesome list,你可以看看这个 awesome list 的 GitHub star 数。此外你可以抽一个周末的时间看看这个 awesome list 上的内容,因为上面基本上是关于这项技术的精华内容,通过这些内容你大致可以判断出这项技术的价值。
3、看看技术网站上是否有一些技术布道者为这项技术背书(我个人经常会看medium.com)。技术圈里通常有这样一群人,他们对技术很执着,也很有品位。如果一项技术真的很好,那么就会有技术布道者无偿的为这项技术背书,分享如何这项技术的使用心得。
总结
每个人的时间都是有限的,在有限的时间里选择一项值得投入的技术会变得尤为重要。
有道无术,术可成;有术无道,止于术
欢迎大家关注Java之道公众号
好文章,我在看❤️
评论