在硅谷,大家非常热情地谈创业谈机会,我也通过自己观察和积累,看到不少最近几年涌现的热门创业公司。我先给大家一个列表,这是华尔街网站全世界创业公司融资规模的一个评选,它本来标题是“十亿美金俱乐部”,可以看出不到一年时间,截至今年 1月17日,排名和规模已经发生很大变化。
首先,估值在十亿美金的公司达到7家,而一年前都没有;第二,第一名是中国的小米;第三,前20 名中,绝大多数(八成在美国,在加州,在硅谷,在旧金山!)比如uber、airbnb、dropbox、pinterest;第四,里面也有不少相似模式成功的,比如 flipkart就是印度市场的淘宝,uber与airbnb都是共享经济的范畴。
所以,大家还是可以在移动(uber)、大数据(palantir)、消费级互联网、通讯(snapchat)、支付(square)及o2oapp 里寻找大机会。这里面,很多公司我都曾面试和感受过他们环境,下面有机会我也会给大家一一详细介绍。
第二,在linkedin,每年会评选一个最有需求的创业公司名单,基本是结合linkedin用户访问量和申请数做出的挖掘。下面,我列出最近3 年数据,大家可以做个判别和趋势分析。
里面还是很靠谱的,比如不少上榜名单已成功 ipo(gopro、hortonworks、splunk),里面有很多大数据领域公司(splunk,、box,、nimblestorage、violin memroy,dropbox),而除了之前看到的一些互联网项目,在一些医疗健康(theranos)、智能硬件(leap motion、fitbit、jawbone)、在线教育(coursera)也吸引很大注意力。
第三,看了那么多高估值公司,很多人都觉得非常疯狂,是不是很大泡沫了,泡沫是不是要破了,这是很多人的疑问。在硅谷这个充满梦想的地方,投资人鼓励创业者大胆去发展同样也助长泡沫,很多项目在几个月时间估值就会翻 2、3倍,例如在uber、snapchat上,我也惊讶他们的巨额融资规模和颠覆速度。
下面这张图,就是讲新事物的发展规律,这是硅谷孵化器ycombinator公开课howtostartastartup提到的。一个新idea 加上一点点原型,就会迅速吸引眼球,然后先驱者引发潮流,在大众爆发把泡沫吹到极致,接下来就是各种负面质疑,名声一落千丈,而这时离peak 也许才过去几个月。
但这东西本质没有变,从“看山不是山”到“看山还是山”,这段重心回归到产品上重新积累用户,然后就到了可持续增长的健康轨道上。从quora 网站流量、tesla 股票到比特币,你都发现它们惊人的匹配这张图的某个节点。背后不变的是人性,举例在牛市,大家都很容易挣钱,但只有熬过最痛苦的时代(比如金融危机),才能体会事物发展本质和踏实的意义。
第四,未来趋势是什么?大家都很关心。我先提最近看的一部电影《imitation game》,它讲的是计算机逻辑奠基者艾伦图灵艰难的一生,当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献,挽回几千万人的生命,可在那个时代因为同性恋被判化学阉割,自杀结束了短暂的 42岁生命。
他的一个伟大贡献就是在人工智能的开拓,他提出图灵测试(turing test),测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已有很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。
谷歌资深科学家吴军博士提出当前技术发展的三个趋势:第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没太形成规模。
他认为未来机器会控制98%的人,而现在我们就要做个选择,怎么成为剩下的2%?李开复在2015 年新年展望也提出未来五年物联网带来庞大创业机会。
大数据入门
接下来,我讲一讲大数据入门。先来做个思考,以前有个国王很阔绰也很爱排场,有天,他很高兴想奖赏他的宠臣,然后说,让他来提任何奖励。
这个大臣给国王看下面这个棋盘,是个8*8的方格,如果我在每个标号的格子内放米粒,第一个格子放1 粒米,后面格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?
我们学过级数的话,可以快速做个演算,它的推演是1+2+4……+2^63=2^64-1 .这个数字多大很多人没印象,反正如果真要兑现的话,这个国家肯定是破产了。
其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是2^32,这并不是个很大的数,其实前几年计算机的32 位就是那么大,但下半场就完全不一样了,这是个平方级别的规模,我下面会给大家一个交代。现在大家也经常听到什么手机64位处理器,并无实际意义。
我们接着看看这张曲线图是信息时代的增长,其实工业革命前(1820年),世界人均gdp在1800年前的两三千年里基本没变化,而从1820年到 2001年180年里,世界人均gdp从原来667美元增长到6049美元。
由此足见,工业革命带来的收入增长的确翻天覆地。这里面发生了什么?大家可以思考一下。但人类的进步,并没停止或者说稳步增长,在发明了电力、电脑、互联网、移动互联网,全球年 gdp增长从万分之5到2%,信息也是在急剧增长。根据计算,最近两年信息量是之前30年总和,最近10年是远超人类所有之前累计信息量之和。
在计算机时代,有个著名摩尔定律,就是说同样成本每隔18个月晶体管数量会翻倍,反过来,同样数量晶体管成本会减半。这个规律已经很好匹配了最近30 年的发展,并且可以衍生到很多类似领域:存储、功耗、带宽、像素。
而最下面这个头像是冯诺伊曼,20 世纪最重要数学家之一,在现代计算机、博弈论和核武器等诸多领域有杰出建树的最伟大科学全才之一。他提出技术会逼近人类历史上某种本质的奇点,在那后,全部人类行为都不可能以我们熟悉的面貌继续存在。
这就是著名的“奇点理论”,目前会呈越来越快的指数性增长,美国未来学家raykurzweil称:人类能在2045 年实现数字化永生,他自己也创办奇点大学,相信随信息技术、无线网、生物、物理等领域的指数级增长,将在2029年实现人工智能,人的寿命也将会在未来15 年得到大幅延长。
我们再回到现在,地球上至今的数据量从gb、tb、pb、eb到达zb,我们之前提出的2^64就相当于16eb的大小。
大数据有什么用?
所谓“学以致用”,大数据领域在各行业都可以应用,这里举几个有趣的例子。在linkedin时,ceo 提出“经济图谱”的概念,希望整合用户、公司、工作机会、技能、学校和帖子变成一个复杂而有蕴含无限可能的数字化社会。
比如说找对象,有个国外极客,他抓取约会网站的数据,根据一些指标如地理、年龄、兴趣,建立下面的3d 模型找到真爱;又如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。
在移动app上,今日头条通过你的个人社会化信息,建起兴趣图谱推荐文章并随你的使用会越来越聪明;在线教育领域:mooc中的m 就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到1.3亿美金融资。硅谷有家 wealthfront做大数据理财,23andme提供个人基因组的“大数据”等等。
大数据公司列表
下面是2014年别人总结的大数据公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如hadoop、mahout、hbase和 cassandra,我在下面也会涵盖。
我可以举几个例子,在分析这块,cloudera、hortonworks、mapr作为hadoop 三剑客,一些运维领域,mangodb、couchbase都是nosql代表,作为服务领域aws和googlebigquery 剑拔弩张,在传统数据库,甲骨文收购了mysql、db2老牌银行专用,teradata做了多年数据仓库。
上面的apps 更多,比如社交消费领域的谷歌、亚马逊、netflix、twitter、商业智能:sap、gooddata,一些在广告媒体领域:turn、rocketfuel,做智能运维 sumologic等等。最后还有个去年的新星databricks伴随着spark的浪潮震撼hadoop的生态系统。
大数据之中国公司
对迅速成长的中国市场,大公司也意味大数据,bat三家都是对大数据投入不惜余力,我4年前在百度时,百度就提出框计算的东东,最近两年成立硅谷研究院,挖来 andrewng做首席科学家,研究项目就是百度大脑,在语音、图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。
腾讯作为最大社交应用对大数据也情有独钟,自己研发c++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571 亿,背后是有很多故事,当年在百度做pyramid(按谷歌三辆马车打造的金字塔三层分布式系统)有志之士,继续在oceanbase创造神话。
而阿里云当年备受争议,马云也在怀疑是不是被王坚忽悠,最后经历了双十一洗礼证明oceanbase 和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面,这么多数据几何级数增长;另一方面存储带宽都是巨大成本,没价值就真破产。
大数据相关技术
大数据相关技术,最紧密的就是云计算,我列出主要是amazonwebservice和googlecloud platform,在国内还有阿里云、金山云、百度云、腾讯云、小米云、360 云、七牛……每个里面都是大量技术文档和标准,从计算到存储,从数据库到消息,从监控到部署管理,从虚拟网络到cdn,把所有一切用软件重新定义了一遍。
先来讲亚马逊的云。我本人在亚马逊云计算部门工作过,所有还是比较了解aws,总体上成熟度很高,有大量创业公司都是基于上面开发,比如有名的 netflix、pinterest、coursera.
亚马逊还是不断创新,每年召开reinvent大会推广新的云产品和分享成功案例,在这里面我随便说几个,像s3是简单面向对象的存储,dynamodb 是对关系型数据库的补充,glacier对冷数据做归档处理,elasticmapreduce直接对mapreduce做打包提供计算服务,ec2 就是基础的虚拟主机,datapipeline会提供图形化界面直接串联工作任务。
这边还可以说一下redshift,它是一种(massivelyparallelcomputer)架构,是非常方便的数据仓库解决方案,就是sql 接口,跟各个云服务无缝连接,最大特点就是快,在tb到pb级别非常好的性能,我在工作中也直接使用,它还支持不同硬件平台,如果想速度更快,可以使用ssd 的,当然支持容量就小些。
在数据库领域,我就列出三种代表,一类是关系型数据库管理系统,它的特点是 a(atomic)、c(consistent)、i(isolation)、d(duration),连起来就是 acid(酸)。简单说,就是支持事务回滚和外键关联,而nosql是与之对应的base(碱),所谓basic可用,为了扩大 scale,牺牲一些一致性和事务。而谷歌提出f1,希望解决在大规模数据同时还要做到事务强一致性。在这里面都是非常常见的nosql, 这些公司可能你都没听过,但它们都是融资过亿,估值都非常高,在几个billion以上。
我会花一些篇幅介绍hadoop,首先看hadoop从哪里开始的,不得不提谷歌的先进性,在10多年前,谷歌出了3 篇论文论述分布式系统的做法,分别是gfs、mapreduce、bigtable,非常牛逼的系统,但没人见过,在工业界很多人痒痒的,就想按其思想去仿作。
当时,apachenutchlucene作者dougcutting也是其中之一,后来他们被雅虎收购,专门成立团队去投入做,就是hadoop 的开始和大规模发展的地方,之后随着雅虎衰落,牛人去了facebook、谷歌,也有成立cloudera、hortonworks等大数据公司,把hadoop 的实践带到各个硅谷公司。
而谷歌还没停止,又出了新的三辆马车:pregel、caffeine和dremel,后来又有很多步入后尘,开始新一轮开源大战。
那么为啥hadoop 就比较适合做大数据呢?首先扩展很好,直接通过加节点就可以把系统能力提高,它有个重要思想是:移动计算而不是移动数据,因为数据移动是很大的成本需要网络带宽。
其次,它提出的目标就是利用廉价普通计算机(硬盘),这样虽然可能不稳定(磁盘坏的几率),但通过系统级别上的容错和冗余达到高可靠性。并且非常灵活,可以使用各种data,二进制、文档型、记录型。使用各种形式(结构化、半结构化、非结构化所谓的schemaless),在按需计算上也是个技巧。
另一个问题,我们提到hadoop一般不会说某个东西,而是指生态系统,在这里面太多交互的组件了,涉及到 io、处理、应用、配置、工作流。在真正的工作中,当几个组件互相影响,你的头疼的维护才刚刚开始。
我也简单说几个:hadoopcore就三个hdfs、mapreduce、common,在外围有nosql:cassandra、hbase,有 ...