我认为学习AI除了实践外,其理论基础也非常重要,微软最近推出了一门12周,24课的非常系统的、面向初学者的人工智能课程,不过课程是全英文的,我用GPT4将文字翻译成中文,分享给大家。
在这个课程中,可以学习到:
这个课程希望通过深入浅出的方式,让大家对人工智能有更全面,更深入的理解。
类别 | 序号 | 内容 | 备注 |
---|---|---|---|
人工智能简介 | 1 | 人工智能的介绍和历史 | |
符号人工智能 | 2 | 知识表示和专家系统 | |
神经网络简介 | 3 | 感知器 | 感知器(Perceptron)是一种最简单形式的人工神经网络和是二分类的线性分类器。它的概念由Frank Rosenblatt在1957年提出,并且是最早的人工神经网络之一。感知器模型的基本思想是基于神经元的工作原理,尤其是在神经元中发生的信号整合和电信号的生成过程。 |
4 | 多层感知器和创建我们自己的框架 | ||
5 | 框架介绍 (PyTorch/TensorFlow):过拟合 | 过拟合是机器学习中一个常见的问题,当一个模型过于复杂时,它可能会在训练数据上表现得特别好,但在新的、未见过的数据上表现得不好。这是因为模型过度学习了训练数据的特性,包括那些特异的、不具有一般性的模式,而没有学到真正有用的、泛化的模式。常见的解决过拟合的方法有正则化、早停等。 | |
计算机视觉 | 6 | 计算机视觉入门:OpenCV介绍 | OpenCV(Open Source Computer Vision Library)则是一个开源的计算机视觉和机器学习软件库。OpenCV被设计用来提供一个通用的基础设施,能够帮助人们更容易地使用机器视觉,并且在实时运算中,OpenCV的执行效率非常高。这个库有超过2500个优化过的算法,涵盖了计算机视觉和机器学习的大多数常见用途。 |
7 | 卷积神经网络、CNN 架构 | ||
8 | 预训练网络和迁移学习训练技巧 | 预训练网络(Pre-trained Networks)是那些已经在大量数据上训练过的神经网络。这些网络通常在大规模图像或文本数据集上进行训练,然后可以用于新的任务,这种方式节省了从头开始训练模型的时间和计算资源。迁移学习(Transfer Learning)是一种机器学习方法,它涉及将在一个任务上学到的知识应用到另一个任务上。例如,一个预训练的网络可以通过迁移学习被用于一个新的、具有相似特性的任务,而不需要从头开始训练。 | |
9 | 自编码器和变分自编码器 | 自编码器(Autoencoders)是一种神经网络,其目标是通过学习输入数据的有效表示来重构其输入。自编码器通常由两部分组成:编码器(encoder)和解码器(decoder)。编码器将输入数据编码为一个隐藏表示,然后解码器将这个隐藏表示解码回原始维度。自编码器常用于降维或者特征学习。 | |
10 | 生成对抗网络、艺术风格迁移 | 生成对抗网络(Generative Adversarial Networks,简称GANs)是一种特殊的深度学习模型,它由两部分组成:一个生成器(Generator)和一个判别器(Discriminator)。生成器的任务是生成尽可能接近真实的数据,而判别器的任务是尽可能准确地区分真实数据和生成器生成的数据。两者相互对抗,一直训练到判别器无法区分生成的数据和真实的数据。GANs被广泛应用于各种生成任务,例如图像生成、文本生成等。艺术风格迁移(Artistic Style Transfer)是一种将一幅图像(通常称为风格图像)的艺术风格应用到另一幅图像(通常称为内容图像)的技术。这项技术的核心思想是分别提取风格图像的风格特征和内容图像的内容特征,然后将风格特征应用到内容特征上,从而生成一幅同时具有风格图像的风格和内容图像的内容的新图像。这项技术通常使用卷积神经网络(CNN)来提取风格和内容特征,并使用优化算法来生成新的图像。 | |
11 | 物体检测 | ||
12 | 语义分割:U-Net | 语义分割(Semantic Segmentation)是计算机视觉任务中的一项关键技术,它的目标是对图像中的每个像素进行分类,即给每个像素打上类别标签,从而理解图像中的对象以及其具体的空间分布和形状。例如,将道路、建筑、汽车、人行道等各自归类。 | |
自然语言处理 | 13 | 文本表示:词袋模型/TF-IDF | 文本表示(Text Representation)是自然语言处理中的一个关键步骤,它将非结构的文本数据转化为结构化的数值型数据,使得文本数据可以被机器学习模型处理。词袋模型(Bag of Words,简称BoW)是一种常见的文本表示方法,它忽略文本中的词序和语法,只考虑所有词的出现频率。文本被表示为一个向量,向量的每个元素对应一个词典中的词,其值为该词在文本中的出现次数。 |
14 | 语义词嵌入:Word2Vec与GloVe | 语义词嵌入(Semantic word embeddings)是自然语言处理中的一种技术,它可以将词语转换成实数值向量(即嵌入向量),并且相似的词语在这个向量空间中会靠得更近,不仅仅体现词语的共现信息,也能捕捉到一些语义和语法信息。 | |
15 | 语言建模:训练你自己的嵌入 | ||
16 | 循环神经网络 | ||
17 | 生成循环网络 | ||
18 | Transformer模型:BERT模型 | Transformer模型是一种在自然语言处理中广泛使用的模型结构,特别适合处理序列数据。它最初在"Attention is All You Need"这篇论文中被提出,以解决序列到序列(Seq2Seq)的任务。Transformer模型的主要特点是使用了"自注意力机制"(Self-Attention Mechanism),这使得模型在处理每一个词时,都能考虑到序列中的所有词,从而更好地捕捉远距离依赖。BERT(Bidirectional Encoder Representations from Transformers)是基于Transformer模型的一种深度学习模型,用于自然语言处理。BERT的主要创新在于,它是完全双向的,这意味着模型在处理每个词时,不仅考虑了其前面的词,也考虑了后面的词。因此,BERT能够更好地理解词在上下文中的含义。BERT在多项自然语言处理任务中都取得了当时的最好成绩,包括问答、语义角色标注等。 | |
19 | 命名实体识别 | ||
20 | 大型语言模型、快速编程和少量任务 | ||
其他人工智能技术 | 21 | 遗传算法 | |
22 | 深度强化学习 | ||
23 | 多智能体系统 | 多智能体系统(Multi-Agent Systems)是一个研究领域,它关注的是多个智能体(即能够感知环境、进行决策和采取行动的实体)如何协作和竞争,以达到各自或共同的目标。智能体可以是实体(如机器人),也可以是虚拟的(如计算机程序)。 | |
人工智能伦理 | 24 | 人工智能伦理和负责任的人工智能 | |
附加功能 | X1 | 多模态网络、CLIP 和 VQGAN | 多模态网络(Multi-Modal Networks)是一种深度学习模型,它能够处理并结合来自多种不同模态(例如图像、文本、声音等)的信息。这些网络的目标是理解和利用不同模态之间的关系,以改进任务性能。 |
人工智能是一门令人兴奋的科学学科,研究我们如何让计算机表现出智能行为,例如做人类擅长做的事情。
最初,计算机是由查尔斯·巴贝奇 (Charles Babbage)发明的,用于按照定义明确的程序(一种算法)对数字进行运算。现代计算机,尽管比 19 世纪提出的原始模型先进得多,但仍然遵循相同的受控计算思想。因此,如果我们知道为了实现目标而需要执行的步骤的确切顺序,就可以对计算机进行编程来做某事。
照片由Vickie Soshnikova拍摄
✅ 根据一个人的照片来定义他或她的年龄是一项无法明确编程的任务,因为我们不知道在做这件事时我们是如何在脑海中想出一个数字的。
然而,有些任务我们并不知道如何解决。考虑从他/她的照片确定一个人的年龄。我们以某种方式学会了做这件事,因为我们见过许多不同年龄的人的例子,但我们无法明确解释我们是如何做的,也无法通过编程让计算机去做。这正是人工智能(简称 AI)感兴趣的任务。
✅ 想一想您可以将一些任务交给计算机上,从而受益于 AI。想想金融、医学和艺术领域——这些领域今天如何从人工智能中受益?
解决特定类人问题的任务,例如根据照片判断一个人的年龄,可以被称为弱人工智能(Weak AI),因为我们只是创建一个针对单一任务的系统,并非一个能解决许多任务的系统,如同人类所能做的那样。当然,从许多角度(包括对意识哲学的学习者)来看,开发一个具有通用智能的计算机系统也极其有趣。这样的系统被称为强人工智能(Strong AI)或人工通用智能(Artificial General Intelligence,AGI)。
处理“智能”一词时的一个问题是,这个词没有明确的定义。人们可以争辩说智力与抽象思维或自我意识有关,但我们无法正确定义它。
照片来自Unsplash 的Amber Kipp
要了解术语智能的歧义,请尝试回答一个问题:“猫是否聪明?”。不同的人倾向于对这个问题给出不同的答案,因为没有普遍接受的测试来证明这个断言是对还是错。如果你认为有——试着让你的猫通过智商测试……
✅ 想一想你是如何定义智力的。一只可以解开迷宫并获得食物的乌鸦是否聪明?孩子聪明吗?
在谈到 AGI 时,我们需要有一些方法来判断我们是否已经创建了一个真正的智能系统。图灵提出了一种称为图灵测试的方法,它也可以作为智能的定义。该测试将给定系统与具有内在智能的事物(真人)进行比较,并且由于计算机程序可以绕过任何自动比较,因此我们使用人类询问器。因此,如果一个人无法在基于文本的对话中区分真人和计算机系统——该系统就被认为是智能的。
一个名为Eugene Goostman的聊天机器人,在2014年通过巧妙地设定个性接近通过了图灵测试,这个机器人是在圣彼得堡开发的。它一开始就宣布自己是一个13岁的乌克兰男孩,这也解释了它知识的缺乏和文本中的一些不一致。在进行5分钟的对话后,该机器人让30%的裁判相信它是人类,这是图灵相信机器在2000年前就能达到的指标。然而,我们应该理解的是,这并不表示我们已经创建了一个智能系统,或者说一个计算机系统已经愚弄了人类的询问者——系统并没有愚弄人类,而是机器人的创建者愚弄了人类!
✅ 你有没有被聊天机器人骗过,以为你在和人说话?它是如何说服你的?
如果我们想让计算机表现得像人一样,我们需要以某种方式在计算机内部模拟我们的思维方式。因此,我们需要尝试理解是什么让人类变得聪明。
为了能够将智能编程到机器中,我们需要了解我们自己的决策过程是如何工作的。如果你做一点自我反省,你会意识到有一些过程是在潜意识中发生的——例如。我们可以不假思索地将猫和狗区分开来——而其他一些则需要推理。
有两种可能的方法来解决这个问题:
自上而下的方法(符号推理) | 自下而上的方法(神经网络) |
---|---|
自上而下的方法模拟了一个人解决问题的推理方式。它涉及从人类身上提取知识,并以计算机可读的形式表示它。我们还需要开发一种方法来模拟计算机内部的推理。 | 自下而上的方法模拟人脑的结构,由大量称为神经元的简单单元组成。每个神经元的行为就像其输入的加权平均值,我们可以通过提供训练数据来训练神经元网络来解决有用的问题。 |
还有一些其他可能的智能方法:
我们将在课程的后面考虑这些方法,但现在我们将关注两个主要方向:自上而下和自下而上。
在自上而下的方法中,我们尝试对我们的推理进行建模。因为我们在推理时可以跟随我们的想法,所以我们可以尝试将这个过程形式化并在计算机内部编程。这称为符号推理。
人们往往在头脑中有一些规则来指导他们的决策过程。例如,当医生在诊断病人时,他或她可能会意识到这个人发烧了,因此身体内部可能正在发生一些炎症。通过对特定问题应用大量规则,医生可能能够得出最终诊断。
这种方法在很大程度上依赖于知识表示和推理。从人类专家那里提取知识可能是最困难的部分,因为在许多情况下,医生并不知道他或她为什么要做出特定诊断。有些任务,例如从照片中确定一个人的年龄,根本无法归结为操纵知识。这类任务更依赖于模式识别和深度学习等技术,它们能够从大量的样本数据中学习和抽取特征,而不仅仅是依靠预先设定的知识。尽管我们可以使用知识帮助解决这类问题,但是关键的信息提取和判断往往依赖于机器学习模型的能力,而不仅仅是知识的运用。
或者,我们可以尝试模拟大脑中最简单的元素——神经元。我们可以在计算机内部构造一个所谓的人工神经网络,然后通过举例来尝试教它解决问题。这个过程类似于新生儿通过观察了解周围环境的方式。
✅ 对婴儿的学习方式做一点研究。婴儿大脑的基本组成部分是什么?
机器学习呢? 基于计算机学习来解决基于某些数据的问题的人工智能的一部分称为机器学习。我们不会在本课程中考虑经典机器学习——我们建议您参阅单独的初学者机器学习课程。
人工智能作为一个领域开始于 20 世纪中叶。最初,符号推理是一种普遍的方法,它带来了许多重要的成功,例如专家系统——能够在某些有限问题领域充当专家的计算机程序。然而,很快就发现这种方法不能很好地扩展。从专家那里提取知识,将其表示在计算机中,并保持知识库的准确性被证明是一项非常复杂的任务,而且在许多情况下成本太高而不实用。这导致了1970 年代所谓的AI 寒冬。
图片由Dmitry Soshnikov提供
随着时间的推移,计算资源变得越来越便宜,可用的数据越来越多,因此神经网络方法开始在计算机视觉或语音理解等许多领域展示出与人类竞争的强大性能。在过去十年中,人工智能一词主要用作神经网络的同义词,因为我们听到的大多数 AI 成功都是基于它们。
我们可以观察这些方法是如何改变的,例如,在创建下棋计算机程序时:
✅ 对 AI 玩过的其他游戏做一点研究。
同样,我们可以看到创建“会说话的程序”(可能通过图灵测试)的方法发生了怎样的变化:
图片由 Dmitry Soshnikov 提供,照片由Marina Abrosimova提供,Unsplash
神经网络研究最近的巨大增长始于 2010 年左右,当时大型公共数据集开始可用。名为ImageNet的庞大图像集合包含大约 1400 万张带注释的图像,由此诞生了ImageNet 大规模视觉识别挑战赛。
图片由Dmitry Soshnikov提供
2012 年,卷积神经网络首次用于图像分类,导致分类错误率显着下降(从近 30% 下降到 16.4%)。2015 年,微软研究院的 ResNet 架构实现了人类级别的精度。
从那时起,神经网络在许多任务中表现出了非常成功的行为:
年 | 实现 |
---|---|
2015 | 图片分类 |
2016 | 会话语音识别 |
2018 | 自动机器翻译(汉译英) |
2020 | 图片说明 |
在过去的几年中,我们见证了大型语言模型(例如 BERT 和 GPT-3)的巨大成功。发生这种情况的主要原因是有大量可用的通用文本数据允许我们训练模型以捕获文本的结构和含义,在通用文本集合上对其进行预训练,然后将这些模型专门用于更具体的任务. 我们将在本课程的后面学习更多关于自然语言处理的知识。
浏览一下互联网,确定在您看来,AI 在哪些方面使用得最有效。它是在地图应用程序中,还是在某些语音转文本服务或视频游戏中?研究系统是如何构建的。
通读本课,回顾 AI 和 ML 的历史。从该课或本课顶部的素描笔记中提取一个元素,并对其进行更深入的研究,以了解影响其演变的文化背景。
强人工智能之路
随着GPT的发布,强人工智能的时代已经到来,它必将在5到10年内深刻影响我们的工作、学习、生活,如何利用AI提升自身能力,是每个人绕不开的问题。我们将以最通俗的语言呈现最新的AI发展动态、最实用的AI实战经验及产业趋势。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。