+-
人工智能现在的发展前景如何?

据传说,一门新技术的产生与成熟,会经历下面一条叫做“Gartner曲线”的过山车式发展轨迹,如下图所示。不过,人工智能的发展轨迹,却比这个要销魂地多,到目前可以说是三起三落,当然,这个第三落还没有到来,也未必一定会到来。

我进入这个行业已经有十多年了:博士期间,我做的是语音是别的研究,毕业开始又到MSRA接着干这个。虽然我们的两任院长——李开复老师和洪小文老师都是语音研究出身,却丝毫不能改变当年这一项目在全院最鸡肋的地位。因为在当年,各种各样的人工智能应用能真刀真枪上阵的并不多。更别提要是向互联网界提起自己是做“人工智能”的,那简直就像在两会会场上上偷看了毛片那样无地自容。实际上,那个时期,正是人工智能发展的第二落。

以史为鉴,可以知兴衰。为了探讨人工智能的发展前景,我们简单回顾一下人工智能前面发展的三起两落。

一、六十多年前的达特茅斯会议,提出了“Artifitial Intelligence”的课题,目的是让逐渐成熟的计算机能够代替人类解决一些感知、认知乃至决策的问题。这样一个课题是如此令人神往,也迅速吸引了大量学者的眼球,相关的研究也如火如荼地开展了起来。是为第一起。

二、初,学者们解决人工智能问题的思路,是以人为师,通过专家编制规则的方法,教机器下棋、认字乃至语音识别。在今天看来,这样的方法是完全南辕北辙的——人类的视听器官虽然很发达,却并没有能力总结提炼其中的规律。于是,人工智能的美好憧憬中迎来了残酷的现实,学者们发现解决问题是如此遥远,围观群众也一度认为人工智能的学者都是骗子。是为第一落。

三、既然靠人指导不行,那就要祭出“实事求是”的法宝,从数据里统计规律。在这样数据+统计的方法论下,诸如人脸识别、手写识别等一些较为简单的问题取得了重大进展,而在当时最困难的问题——大词表连续语音识别上,统计方法也是史无前例地造就了实验室中“基本可用”的系统。到此时,我们感觉找到了解决人工智能问题的基本思路。是为第二起。

四、数据+统计模型的方法盛行以后,也很快遇到了瓶颈:数据量的提升并不总能带来识别率的提高。当然,我们很早就知道“深度模型”比“浅层模型”学习数据的能力强,无奈这种模型的计算代价极高,只能望洋兴叹。拿语音识别为例,在“基本可用”到“实用”之间的鸿沟,十几年都没有跨过去,于是大家又转向悲观,觉得人工智能还只是个梦。是为第二落。

五、第二落以来,继续坚持在“深度神经网络”这条战线上的学者很少,因为做这个是拿不到funding的。其中有一位老前辈Jeffrey Hinton,和他的学生Alex一起,发现用GPU算神经网络,能大幅提高速度,于是这种模型居然可能实用了。一旦实用,深度模型可以疯狂吸收数据的优势就发挥出来了,于是在语音识别、图像识别等领域带来了飞跃式的进展。是为第三起。

当然,工业界的看到的这第三起,比我们上面轻描淡写提到的内容要波澜壮阔得多。不过,不要太在意,因为各路大佬不论过去是做黑产、卖假货还搞劫持的,都摇身一变成了人工智能的忠实拥趸和业界先驱——虽然他们的数学也就是初中肄业水平。去年,当我听到某此类上市公司老板歇斯底里地在财报中喊出要投入数千万美元搞人工智能时,不由心生感慨:修脚的可以挂妙手回春的锦旗,但千万别说自己是做精准医疗的!

虽然人工智能的第三起确实有了质的发展,但考虑到这些沉渣泛起的为人工智能从业者,我觉得第三落还是会来到,只不过并非对行业本身的怀疑,而是自我净化罢了。

而人工智能的行业发展趋势,由于大规模数据+大规模算力的基本方法论已经成熟,今后的发展路径是十分清楚的:在那些数据储备充分、商业价值清晰的场景,人工智能会迅猛发展,投身于这样的行业中期发展会非常好;而医疗、教育这类领域,由于电子化数据的整理与积累尚需时日,可以需要一个较为漫长的发展过程。

至于人工智能非常核心的问题,也就是关于“认知”的问题,我认为到目前为止还没有任何方法论上的突破,也更谈不上解决,不过扯到这个话题就太大了,我们找其他机会再聊。

--------

对“认知”有兴趣的,可以戳这里看看科大讯飞总裁@胡郁 的解读:https://www.zhihu.com/lives/916267872475582464

随着深度学习技术的成熟,AI人工智能正在逐步从尖端技术慢慢变得普及。AlphaGo和人类的对弈,并不是我们以往所理解的电子游戏,电子游戏的水平永远不会提升,而AlphaGo则具备了人工智能最关键的“深度学习”功能。AlphaGo中有两个深度神经网络,Value Networks(价值网络)和 Policy Networks(策略网络)。其中Value Networks评估棋盘选点位置,Policy Networks选择落子。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的棋谱,以及在自己和自己下棋(Self-Play)中进行强化学习。也就是说,人工智能的存在,能够让AlphaGo的围棋水平在学习中不断上升。

人工智能的技术应用主要是在以下几个方面:

自然语言处理(包括语音和语义识别、自动翻译)、计算机视觉(图像识别)、知识表示、自动推理(包括规划和决策)、机器学习和机器人学。按照技术类别来分,可以分成感知输入和学习与训练两种。计算机通过语音识别、图像识别、读取知识库、人机交互、物理传感等方式,获得音视频的感知输入,然后从大数据中进行学习,得到一个有决策和创造能力的大脑。


从上世纪八九十年代的PC时代,进入到互联网时代后,给我们带来的是信息的爆炸和信息载体的去中心化。而网络信息获取渠道从PC转移到移动端后,万物互联成为趋势,但技术的限制导致移动互联网难以催生出更多的新应用和商业模式。而如今,人工智能已经成为这个时代最激动人心、最值得期待的技术,将成为未来10年乃至更长时间内IT产业发展的焦点。


人工智能概念其实在上世纪80年代就已经炒得火热,但是软硬件两方面的技术局限使其沉迷了很长一段时间。而现在,大规模并行计算、大数据、深度学习算法和人脑芯片这四大催化剂的发展,以及计算成本的降低,使得人工智能技术突飞猛进。


一、驱动人工智能发展的先决条件


物联网——物联网提供了计算机感知和控制物理世界的接口和手段,它们负责采集数据、记忆、分析、传送数据、交互、控制等等。摄像头和相机记录了关于世界的大量的图像和视频,麦克风记录语音和声音,各种传感器将它们感受到的世界数字化等等。这些传感器,就如同人类的五官,是智能系统的数据输入,感知世界的方式。而大量智能设备的出现则进一步加速了传感器领域的繁荣,这些延伸向真实世界各个领域的触角是机器感知世界的基础,而感知则是智能实现的前提之一。


大规模并行计算——人脑中有数百至上千亿个神经元,每个神经元都通过成千上万个突触与其他神经元相连,形成了非常复杂和庞大的神经网络,以分布和并发的方式传递信号。这种超大规模的并行计算结构使得人脑远超计算机,成为世界上最强大的信息处理系统。近年来,基于GPU(图形处理器)的大规模并行计算异军突起,拥有远超CPU的并行计算能力。


从处理器的计算方式来看,CPU计算使用基于x86指令集的串行架构,适合尽可能快的完成一个计算任务。而GPU从诞生之初是为了处理3D图像中的上百万个像素图像,拥有更多的内核去处理更多的计算任务。因此GPU天然具备了执行大规模并行计算的能力。云计算的出现、GPU的大规模应用使得集中化的数据计算处理能力变得前所未有的强大。


大数据——根据统计,2015年全球产生的数据总量达到了十年前的20多倍,海量的数据为人工智能的学习和发展提供了非常好的基础。机器学习是人工智能的基础,而数据和以往的经验,就是人工智能学习的书本,以此优化计算机的处理性能。


深度学习算法——最后,这是人工智能进步最重要的条件,也是当前人工智能最先进、应用最广泛的核心技术,深度神经网络(深度学习算法)。2006年,Geoffrey Hinton教授发表的论文《A fast learning algorithm for deep belief nets》。他在此文中提出的深层神经网络逐层训练的高效算法,让当时计算条件下的神经网络模型训练成为了可能,同时通过深度神经网络模型得到的优异的实验结果让人们开始重新关注人工智能。之后,深度神经网络模型成为了人工智能领域的重要前沿阵地,深度学习算法模型也经历了一个快速迭代的周期,Deep Belief Network、Sparse Coding、Recursive Neural Network, Convolutional Neural Network等各种新的算法模型被不断提出,而其中卷积神经网络(Convolutional Neural Network,CNN)更是成为图像识别最炙手可热的算法模型。


二、IT巨头在人工智能上的投入

技术的进步使得人工智能的发展在近几年显著加速,IT巨头在人工智能上的投入明显增大,一方面网罗顶尖人工智能的人才,另一方面加大投资力度频频并购,昭示着人工智能的春天已经到来。

科技企业巨头近几年在人工智能领域密集布局,巨头们通过巨额的研发投入、组织架构的调整、持续的并购和大量的开源项目,正在打造各自的人工智能生态圈。在未来,人工智能将不再是尖端技术,而会成为随处可见的基础设施。对于人工智能初创企业而言,既要寻找与巨头的合作契合点,又要避开正面冲突。


IBM

IBM Watson由90台IBM服务器、360个计算机芯片组成,是一个有10台普通冰箱那么大的计算机系统。它拥有15TB内存、2880个处理器、每秒可进行80万亿次运算。现在已经逐步进化到四个批萨盒大小,性能也提升了240%。Watson存储了大量图书、新闻和电影剧本资料、辞海、文选和《世界图书百科全书》等数百万份资料。Watson是基于IBM“DeepQA”(深度开放域问答系统工程)技术开发的。DeepQA技术可以读取数百万页文本数据,利用深度自然语言处理技术产生候选答案,根据诸多不同尺度评估那些问题。IBM研发团队为Watson开发的100多套算法可以在3秒内解析问题,检索数百万条信息然后再筛选还原成“答案”输出成人类语言。


产业布局:IBM公司自2006年开始研发Watson,并在2011年2月的《危险地带》(Jeopardy!)智力抢答游戏中一战成名。一开始IBM想把Watson打造为超级Siri,主要还是卖硬件。但是后来转型为认知商业计算平台,2011年8月开始应用于医疗领域。例如在肿瘤治疗方面,Watson已收录了肿瘤学研究领域的42种医学期刊、临床试验的60多万条医疗证据和200万页文本资料。Watson能够在几秒之内筛选数十年癌症治疗历史中的150万份患者记录,包括病历和患者治疗结果,并为医生提供可供选择的循证治疗方案。目前癌症治疗领域排名前三的医院都在运行Watson,并在今年8月正式进入中国。


2012年3月,Watson则首次应用于金融领域,花旗集团成为了首位金融客户。Watson帮助花旗分析用户的需求,处理金融、经济和用户数据以及实现数字银行的个性化,并帮助金融机构找出行业专家可能忽略的风险、收益以及客户需求。


硬件:人脑模拟芯片SyNAPSE

SyNAPSE(Systems of Neuromorphic Adaptive Plastic Scalable Electronics,即“自适应塑料可伸缩电子神经形态系统”)芯片,含有100万个可编程神经元、2.56亿个可编程突触,每消耗一焦耳的能量,可进行460亿突触运算。在进行生物实时运算时,这款芯片的功耗低至70毫瓦(mW),比现代微处理器功耗低数个数量级。


Google

谷歌在一系列人工智能相关的收购中获益。2013年3月,谷歌以重金收购DNNresearch的方式请到了深度学习技术的发明者Geoffrey Hinton教授。2014年年初,谷歌以4亿美元的架构收购了深度学习算法公司——DeepMind,也就是推出AlphaGo项目的公司。该公司创始人哈萨比斯是一位横跨游戏开发、神经科学和人工智能等多领域的天才人物。


云平台:TensorFlow数据库,机器学习的核心是让机器读懂数据并基于数据做出决策。当数据规模庞大而又非常复杂时,机器学习可以让机器变得更聪明。TensorFlow在数据输入和输出方面都有惊人的精度和速度,它被确切地定义为人工智能工具。


产业布局:谷歌无人驾驶汽车、基于Android智能手机的各种app应用与插件、智能家居(以收购的NEST为基础)、VR生态、图像识别(以收购的Jetpac为基础)。


Facebook

2013年12月,Facebook成立了人工智能实验室,聘请了卷积神经网络最负盛名的研究者、纽约大学终身教授Yann LeCun为负责人。Yann LeCun是纽约大学终身教授,是卷积神经网络领域的重要推动者,而该技术的最主要应用就是图像识别的自然语言处理,这与Facebook的需求和已经积累的数据类型非常匹配。在Yann LeCun的帮助下,2014年Facebook的DeepFace技术在同行评审报告中被高度肯定,其脸部识别率的准确度达到97%。而他领导的Facebook人工实验室研发的算法已经可以分析用户在Facebook的全部行为,从而为用户挑选出其感兴趣的内容。


AI技术:视觉DeepFace技术(收购http://face.com)、语音识别(收购Mobile technologies)、自然语义(收购Wit.AI)、神经网络训练+机器学习


云平台:开发者平台Parse、Torch开源深度学习模块


硬件: Big Sur(基于GPU的用于训练神经网络的硬件系统,开源)


产业布局:语音助手Moneypenny、VR生态(收购Oculus Rift、Sourroud360全景摄像机促进内容发展)


百度

2014年5月,被称为“谷歌大脑之父”的AndrewNG(吴恩达)加盟百度,担任首席科学家,负责百度“百度大脑”计划。大数据是人工智能的基础,而作为天然的大数据企业,百度拥有强大的数据获取能力和数据挖掘能力。2014年7月14日,百度凭借自身的大数据技术14场世界杯比赛的结果预测中取得全中的成绩,击败了微软和高盛。2014年9月,百度正式发布整合了大数据、百度地图LBS的智慧商业平台,旨在更好在移动互联网时代为各行业提供大数据解决方案。


AI技术:语音识别Deep Speech、视觉识别“智能读图”、自然语言与智能语义、自动驾驶、深度学习


解决方案:基于智能手机的语音服务系统(度秘)


开发者云平台: 百度云


产业布局:汽车领域无人驾驶、基于智能手机的各种app应用与插件。


Microsoft

AI技术:语音、视觉、自然语言、分布式机器学习


云平台:Microsoft Azure(存储、计算、数据库、live、媒体功能)、分布式机器学习工具包DMTK(自然语言处理,推荐引擎,模式识别,计算机视觉以及预测建模等)、人工智能平台Project Malmo


产业布局:语言助手(微软小冰、Cortana小娜、Tay)、VR(Hololens全息眼镜)


Apple

AI技术:自然语言(收购Vocal IQ)、收购可视化地图MapsenseGPS公司 Coherent Navigation


产业布局:汽车领域无人驾驶、SIRI语音助手


Amazon

云平台:Amazon Web Services(存储、计算、模式识别和预测,其中视频识别API 收购Orbeus)


阿里

云平台(阿里云IaaS,可视化人工智能平台DTPAI)


产业布局 :智能家具、物联网


腾讯

AI技术:视觉、智能计算与搜索实验室


产业布局:智能硬件


三、人工智能的生态

科技巨头围绕人工智能产业,开展了大量的收购;标的包括人工智能初创企业(算法)、大数据公司(算法或数据)和芯片研发公司(计算能力)。截至至2016年7月底,谷歌在其中的收购次数最多达到了13次。巨头们在人工智能领域的并购呈现两个特点:一是连续多次买入,二是标的规模较小。

从2013年开始,科技巨头大多加大了对人工智能的自主研发,同时通过不断开源,试图建立自己的人工智能生态系统,开源力度不断增加。比如Google 开源TensorFlow 后,Facebook、百度和微软等都加快了开源脚步。最早走向人工智能工具开源的是社交巨头Facebook,于去年1月宣布开源多款深度学习人工智能工具。而谷歌、IBM和微软几乎于去年11通同时宣布开源。谷歌发布了新的机器学习平台TensorFlow,所有用户都能够利用这一强大的机器学习平台进行研究,被称为人工智能界的Android。IBM则宣布通过Apache软件基金会免费为外部程序员提供System ML人工智能工具的源代码。微软则开源了分布式机器学习工具包DMTK,能够在较小的集群上以较高的效率完成大规模数据模型的训练,在今年7月微软又推出了开源的Project Malmo项目,用于人工智能的训练。

人工智能已经逐渐建立起自己的生态格局,由于科技巨头的一系列布局和各种平台的开源,人工智能的准入门槛逐渐降低。未来几年之内,专业领域的智能化应用将是人工智能主要的发展方向。无论是在专业还是通用领域,人工智能的企业布局都将围绕着基础层、技术层和应用层三个层次的基本架构。


基础层就如同大树的根基,提供基础资源支持,由运算平台和数据工厂组成。中间层为技术层,通过不同类型的算法建立模型,形成有效的可供应用的技术,如同树干连接底层的数据层和顶层的应用层。应用层利用输出的人工智能技术为用户提供具体的服务和产品。

位于基础层的企业一般是典型的IT巨头,拥有芯片级的计算能力,通过部署大规模GPU和CPU并行计算构成云计算平台,解决人工智能所需要的超强运算能力和存储需求,初创公司无法进入。技术层的算法可以拉开人工智能公司和非人工智能公司的差距,但是巨头的逐步开源使算法的重要程度不断降低。应用层是人工智能初创企业最好的机遇,可以选择合理的商业模式,避开巨头的航路,更容易实现成功。