1.3 人工智能的研究领域
1.人工智能的主要研究领域
(1)智能感知——机器会听、会看、会说
模拟感知行为的人工智能研究的一些例子包括语音识别、话者识别等与人类的听觉功能有关的“计算机听觉”,物体三维表现的形状、距离、速度感知等与人类视觉有关的“计算机视觉”等等。
计算机视觉(Computer Vision, CV)是用计算机模拟人的视觉机理来获取和处理信息的能力。就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。
现在机器的感知能力已经越来越接近人类了,语音识别的准确率达到97%甚至更高,图像识别的某些领域,例如,人脸识别,比人类个体更加准确和迅速。
模式识别(Pattern Recognition)研究的是计算机的模式识别系统,即用计算机代替人类或帮助人类感知模式。模式通常具有实体的形式,如声音、图片、图像、语言、文字、符号、物体和景象等,可以用物理、化学及生物传感器进行具体采集和测量。但模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现为具有时间和空间分布的信息。人们在观察、认识事物和现象时,常常寻找它与其他事物和现象的相同与不同之处,根据使用目的进行分类、聚类和判断,人脑的这种思维能力就构成了模式识别的能力。
例如:间谍飞机拍摄照片,用于计算空间信息或区域地图;医疗成像分析被用来提高疾病的预测、诊断和治疗;警方使用的计算机软件可以识别数据库里面存储的肖像,从而识别犯罪者的脸部;在购物方面,消费者现在可以用智能手机拍摄下产品以获得更多信息;我们最常用的车牌识别等。
计算机视觉有望在未来进入自主理解、分析决策的高级阶段,真正赋予机器“看”的能力,在无人车、智能家居等场景发挥更大的价值。
(2)计算机思维——机器会思考
模拟思维活动的人工智能研究的例子包括符号推理、模糊推理、定理证明等与人类思维有关的“计算机思维”等。
自动推理是基于知识的。有了知识,通过简单推理如“规则演绎”,复杂推理如基于概率的不确定性推理(如“主观贝叶斯”),可以得到新知识,或者直接利用旧知识解决问题。
自动定理证明,又叫机器定理证明,它是数学和计算机科学相结合的研究课题。数学定理的证明是人类思维中演绎推理能力的重要体现。演绎推理实质上是符号运算,因此原则上可以用机械化的方法来进行。我国数学家吴文俊在微型机上成功地设计了初等几何与初等微分几何中一大类问题的判定算法及相应的程序,其研究处于国际领先地位。
自动定理证明的理论价值和应用范围并不局限于数学领域,许多非数值领域的任务,如医疗诊断、信息检索、规划制定和难题求解等,都可以转化成相应的定理证明问题,或者与定理证明有关的问题,所以自动定理证明的研究具有普遍意义。
(3)知识图谱——机器会记忆
知识图谱(Knowledge Graph, KG)实体指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物有具体事物组成,此指实体。如“中国”、“美国”、“日本”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
知识图谱的早期发展是专家系统。知识图谱的概念是由Google公司在2012年提出的,指代其用于提升搜索引擎性能的知识库。本文借用此概念泛指早期至今的知识库项目,而非特指Google的知识图谱项目。知识图谱的出现是人工智能对知识需求所导致的必然结果,但其发展又得益于很多其他的研究领域,涉及专家系统、语言学、语义网、数据库,以及信息抽取等众多领域,是交叉融合的产物而非一脉相承。
(4)机器学习——机器会学习
机器学习(Machine Learning, ML)是人工智能的一个核心研究领域,它是计算机具有智能的根本途径。学习是人类智能的主要标志和获取知识的基本手段。Simon认为:“如果一个系统能够通过执行某种过程而改进它的性能,这就是学习”。它主要使用归纳、综合,而不是演绎。
作为联结主义智能实现的典范,神经网络采用广泛互联的结构与有效的学习机制来模拟人脑信息处理的过程,是人工智能发展中的重要方法,也是当前“类脑”智能研究中的有效工具。目前,模拟人脑复杂的层次化认知特点的深度学习已经成为类脑智能中的一个热点研究方向。通过增加网络的层数和节点数、采用全新的网络结构、设计高效的学习优化策略,所构造的“深层神经网络”能够使机器获得从海量数据中学习“抽象概念”和“复杂规律”的能力,在诸多领域都取得了巨大的成功,又一次掀起了神经网络研究的一个新高潮。
(5)智能机器——机器会行动
机器人(Robot System, RS)能够执行人类给出的任务。它们具有传感器,检测到来自现实世界的光、热、温度、运动、声音、碰撞和压力等数据。它拥有高效的处理器,多个传感器和巨大的内存,以展示它的智能,并且能够从错误中吸取教训来适应新的环境。
(6)自然语言处理——机器会语言
语言能力对应的研究领域是自然语言处理(Natural Language Processing, NLP)。可以与理解人类自然语言的计算机进行交互。比如常见机器翻译、人机对话、自动文摘、全文检索。除此之外,还有语音转文字、文字转语音、文本语义抽取、文本情感分析、文本分类、语法分析等,都是自然语言处理的基本研究范围,也是人工智能的基本语言能力。
自然语言处理的几个核心环节:知识的获取与表达、自然语言理解、自然语言生成等,也相应出现了知识图谱、对话管理、机器翻译等研究方向。
知识图谱:基于语义层面对知识进行组织后得到的结构化结果。
对话管理:包含闲聊、问答、任务驱动型对话。
机器翻译:由传统的PBMT方法到Google的GNMT,流畅度与正确率大幅提升。
应用包括搜索引擎、对话机器人、机器翻译、甚至高考机器人、办公智能秘书。
(7)智能规划——机器会决策
智能规划(Intelligent Planning)是人工智能的一个重要研究领域,起源于状态空间搜索、定理证明和控制理论的研究,以及机器人技术、调度和其他领域的实际需要,已广泛应用于航空航天、机器人控制、工业化生产调度中。智能规划的主要思想是:对周围环境进行认识与分析,根据自己要实现的目标,对若干可供选择的动作及所提供的资源限制施行推理,综合制定出实现目标的规划。该系统的主要功能可以描述为:给定问题的状态描述、对状态描述进行变换的一组操作、初始状态和目标状态。
例如:机器人在某一时刻,借助感知信息等多维度信息,通过规划算法来决定自己下一步该如何行动就是一种规划。至于决定下一步的行动之后,比如决定下一步迈左脚,则该规划结果传达给控制系统,使其完成操作。机器人只是规划的一种应用场景,像自动驾驶技术也离不开高性能高准确度的规划算法。博弈等人工智能高级能力也是基于此能力实现的。
(8)分布式人工智能——机器会合作
分布式人工智能是分布式计算与人工智能结合的结果。主要研究内容有分布式问题求解(Distribution Problem Solving, DPS)和多智能体系统(Multi-Agent System, MAS)。
多智能体系统是由多个智能体(Agent)组成的集合,通过Agent的交互来实现系统的表现。多智能体系统主要研究多个Agent为了联合采取行动或求解问题,如何协调各自的知识、目标、策略和规划。在表达实际系统时,多智能体系统通过各Agent间的通信、合作、互解、协调、调度、管理及控制来表达系统的结构、功能及行为特性。由于在同一个多智能体系统中各Agent可以异构,因此Multi-Agent技术对于复杂系统具有无可比拟的表达力。它为各种实际系统提供了一种统一的模型,能够体现人类的社会智能,具有更大的灵活性和适应性,更适合开放和动态的世界环境,因而备受重视,相关研究已成为人工智能以至计算机科学和控制科学与工程的研究热点。
2.人工智能的相关术语
(1)人工智能三要素
算法、数据和硬件计算力组成了人工智能高速发展的三要素。人工智能实现所需要具备的基础。三要素缺一不可。为什么人工智能到近两年才开始呈现爆发?主要是因为直到今日,人工智能的算法、数据和硬件才满足了人工智能的基本需求。
1)算法。首先是优秀的人工智能算法,比如现在最流行的深度学习算法,就是近期人工智能领域中最大的突破之一,为人工智能的商业化带来了希望。以人脸识别为例,在2013年深度学习应用到人脸识别之前,各种方法的识别成功率只有不到93%,低于人眼的识别率95%,因此不具备商业价值。而随着算法的更新,深度学习使得人脸识别的成功率提升到了97%。这才为人脸识别的应用奠定了商业化基础。
2)数据。第二个是被收集的大量数据,数据是驱动人工智能取得更好的识别率和精准度的核心因素。在数据方面,进入互联网时代后,才出现了大数据的高速发展与积累,这为人工智能的训练学习过程奠定了良好的基础。比如,在AlphaGo的学习过程中,核心数据是来自互联网的3000万例棋谱,而这些数据的积累是历经了十多年互联网行业的发展。所以直到2017年,基于深度学习算法的AlphaGo才取得突破性进展。离开了这些棋谱数据的积累,机器战胜人是无法实现的。
3)计算力。第三个是大量高性能硬件组成的计算能力,以前的硬件计算力并不能满足人工智能的需求,当GPU和人工智能结合后,人工智能才迎来了真正的高速发展。
在20年前,一个机器人,当时是用32个CPU,达到120MHz的速度。现在的人工智能系统使用的是成百上千个GPU来提升计算能力。这使得处理学习或者智能的能力得到比较大的增强。之前用CPU一个月才能出结果,然后再去调整参数,一年只能调整12次,也就是有12次迭代。GPU产生后大幅提升了计算量,现在用GPU可以一天就出结果,这样可以迭代得更快,这是技术大幅发展的条件。
(2)自动化、智能化、人工智能
从智能手机开始,智能这个词已经泛化了。智能手机出现,智能生产、智能制造、智能产品、智能手表等等都涌现出来。今天我们需要重新理解“智能”的相关概念,与智能相关的概念可分成三部分:自动化、智能化、人工智能。
1)自动化(Automation)。意指用机器代替人工完成工作任务。近十年来,过去由人工执行的大量常规任务容易被计算机和算法、软件模仿和替代。特别是计算机算法,或者说是计算(computing),大多可以由机器来实施完成。西方国家认为,今日之经济时代正在从后工业时代逐渐转移到自动工业时代。这个观点带来了新的发展方向,即知识工作自动化(Knowledge Work Automation),使用计算机来完成复杂的分析、精细的判断和创新问题的解决。机器人则是我们理解的自动化、有制造自动化能力的装置,其使用环境是容易标准化的、可以重复的常规工作(routine work)。自动化以人工智能、机器人为特征,体现在提高生产率、降低人工成本、提高质量、更便宜、更快捷、更柔性化、可定制等方面,发展前景广阔。近十年来,随着计算机性能的提升、价格的下降,大数据、云计算、移动终端、网络化技术、互联网、物联网、智能化技术、人工智能技术等兴起,自动化的需求逐渐达到相当高的程度。
2)智能化(Smartness)(智能+)。智能化产品情境下的“智能化”原属于西方的名词,该词其实很有意思,“智能化”诠释为Smart。为什么称之为Smart?因为Smart是副词,可以加后缀ness成为名词。亦因为Smart可以加ness而成为一个名词,这样便可构建以Smart为核心的“智能化”概念框架。智能化产品,比较明确,就是Smartness of Product。而在我国当今引用的“智能”产品,在西方可理解为Smart,并非Intelligent涵盖的意义。在一定程度上拥有较多或者较少的以下功能维度,可以称之为“智能化产品”(Smartness of Product),如自治、自适应、自反应、多功能、自监控、自修复、自维修、自操作,以及拟人交互功能、有能力与其他装置合作等一系列功能。不是所有的功能都需要,其中有一定功能因素在里面的,我们都把它叫作智能产品。
在英文里面,Artificial和Smart是两个不同的词。但都被中文翻译成“智能”,这导致了很多沟通理解的错位。
很多我们平常一直说到的智能,都是Smart而不是Intelligence。比如智能手机Smart phone,智能电视Smart TV,智能音箱Smart Speaker,智能手表Smart watch,智能手环Smart band,还有更多的比如智能路由器、智能空调、智能冰箱、智能摄像头等等。它们都是Smart而不是Intelligence的。
一般的,Intelligence一词只在学院或科研机构中使用,其他情况都倾向于使用Smart。
智能制造是实现整个制造业价值链的智能化和创新,是信息化与工业化深度融合的进一步提升。目前智能制造的“智能”还处于Smart的层次,而智能制造的趋势是实现真正地“Intelligent”。
3)人工智能(Artificial Intelligence)。指让机器能像人那样认知、思考和学习,即用计算机模拟人的智能。今天人工智能的典型应用领域主要包括:机器定理证明、机器翻译(自然语言理解)、专家系统(问题求解和知识表达)、博弈(树搜索)、模式识别(多媒体认知)、机器人和智能控制(感知和协同)、深度学习和神经网络、优化的知识管理、不同过程需求的自适应环境变化、有人介入的拟人智能等。在此,“优化的知识管理”与Smart相区别的点在于它具有优化的功能,有人介入的拟人智能则指跟人能对话,执行人的命令,与人有思想互通与对话。
(3)智慧城市与智能城市
2010年,IBM正式提出了“智慧的城市”愿景,希望为世界和中国的城市发展贡献自己的力量。IBM经过研究认为,城市由关系到城市主要功能的不同类型的网络、基础设施和环境6个核心系统组成:组织(人)、业务/政务、交通、通信、水和能源。这些系统不是零散的,而是以一种协作的方式相互衔接。而城市本身,则是由这些系统所组成的宏观系统。
智慧城市(英语:Smart City)是指利用各种信息技术或创新意念,集成城市的组成系统和服务,以提升资源运用的效率,优化城市管理和服务,以及改善市民生活质量。从技术发展的视角,智慧城市建设要求通过以移动技术为代表的物联网、云计算等新一代信息技术应用实现全面感知、泛在互联、普适计算与融合应用。
在中国,城市智能化不是一个smart的问题,而是一个Intelligent的问题,因此我们用“智能城市”的概念来取代“智慧城市”,用Intelligent(简称为ICity)来取代Smart City。
中国智能城市的发展和中国的信息化发展的步骤和模型是一样的,第一阶段是数字化,第二阶段是网络化,第三阶段是大数据化,第四阶段是智能化。目前,中国绝大部分的城市的智能化停留在第一阶段和第二阶段上,已经有部分城市进入到了第二阶段和第三阶段。
(4)智能的分类——自然智能和人工智能
和Artificial(人工)相对的是Natural(自然)。自然分为广义自然和狭义自然。广义自然指整个存在的世界,它既包括自然科学所研究的无机界和有机界,也包括社会科学所研究的人类社会。人和人的意识是自然发展的最高产物。狭义的自然又称大自然,是指自然科学所研究的无机界和有机界,不包括人类社会在内。
依赖于表现智能的主体不同,我们可以简单地把智能分为人工智能和自然智能(非人工智能)。我们现实中最普遍存在的就是大自然创造的各种智能体,也就是各种动物以及我们人类自己。自然智能特指大自然创造的智能现象。人工智能是由机器、设备或软件等人造对象所表现出的智能。
如果我们进一步对表现智能的主体进行区别,则可以分为5种:
1)人工智能,由机器、设备或软件等人造对象所表现出的智能。
2)生物个体智能,由有机的生命形态个体所表现出的智能。
3)人类个体智能,由人类个体所表现出的智能。
4)群体智能,由众多智能个体的集合所表现出的智能。
5)系统智能,由多种有机或无机元素组成的复杂系统所表现出的智能。
下一节我们也将在这个分类的基础上进行深入剖析。