首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >编译原理复习总结-耗子尾汁

编译原理复习总结-耗子尾汁

作者头像
唔仄lo咚锵
发布于 2021-12-31 02:53:49
发布于 2021-12-31 02:53:49
1.3K0
举报

文章目录

引论

  1. 编译程序运行框架

词法分析器

输入源程序,进行词法分析,输出单词符号。

语法分析器

对单词符号串进行语法分析,识别出各类语法单位

语义分析与中间代码产生器

按语义规则对归约出的语法单位进行语义分析并翻译成中间代码。

优化器

对中间代码进行优化处理

目标代码生成器

把中间代码翻译成目标程序

表格管理

登记源程序的各类信息和编译各阶段的进展情况

出错处理

对出现在源程序中的错误进行处理

  1. 编译前端和后端
  • 前端 主要由与源语言有关但与目标机无关的那些部分(词法分析、语法分析、语义分析、中间代码产生)组成,有的代码优化工作也给包括在前端。
  • 后端 包括编译程序中与目标机有关的那些部分(与目标机有关的代码优化、目标代码生成),后端通常依赖中间语言而不是源语言。
  1. 编译过程五个阶段 词法分析、语法分析、语义分析与中间代码产生、优化、目标代码生成。 前四个阶段与硬件无关,最后一个阶段与硬件有关。
  2. 汇编语言和高级语言的区别 汇编语言跟机器指令一一对应,高级语言不跟机器指令一一对应。

语法描述

  1. 乔姆斯基四型文法

乔姆斯基(Chomsky)把文法分成四种类型,即0型、1型、2型和3型。0型强于1型,1型强于2型,2型强于3型。这几类文法的差别在于对产生式加不同的限制。

2. 上下文无关法 一个上下文无关法G是一个四元式G=(V_T,V_N,S,P) ,其中 V_T :终结符集合(非空) V_N :非终结符集合(非空),且V_T\cap V_N=\varnothing

S:文法的开始符号,S\in V_N

P:产生式集合(有限),每个产生式形式为

P→α,P∈V N ​ ,α∈(V T ​ ∪V N ​ ) ∗

,开始符S 至少必须在某个产生式的左部出现一次。

句型、句子 假定G是一个文法,S是它的开始符号,称S\overset{*}{\implies}\alpha 是一个句型,称仅含终结符的句型是一个句子。 btw,符号\overset{*}{\implies} 指经过0步及以上推导;符号\overset{+}{\implies} 指经过1步及以上推导;终结符指最终出现在程序中符号;非终结符是为了描述语法而创造出来的符号,不会出现在程序中。 例(i*i+i) 是文法G(E):E→i|E+E|E*E|(E) 的一个句子,证明:

E\implies(E)\implies(E+E)\implies(E*E+E)\implies(i*E+E)\implies(i*i+E)\implies(i*i+i)

4. 语言 文法G所产生的句子的全体就是一个语言,记为L(G),L(G)=\{\alpha|S\overset{+}{\implies}\alpha\&\alpha\in{V_{T}^{*}}\} 。 例文法G1:A→c|Ab的语言L(G1)={cbn|n≥0}; 文法G2:S→AB,A→aA|a,B→bB|b的语言L(G2)={ambn|m,n≥1}。

词法分析

  1. 用状态图和正规式描述标识符

结点代表状态,用圆圈表示。状态之间用箭弧连结。箭弧上的标记(字符)代表在射出节点状态下可能出现得输入字符或字符类。 其中0为初态,2为终态(用双圈表示)。终态结上打个星号*意味着多读进了一个不属于标识符部分得字符,应把它退还给输入串。 令\Sigma=\{A,B,0,1\}

2 确定有限自动机(DFA) 一个确定有限自动机M是一个五元式M=(S,\Sigma,\delta,s_0,F) ,其中

S:有穷状态集 \Sigma :输入字母表(有穷) \delta :状态转换函数,为 S×Σ→S 的单值部分映射,\delta(s, a)=s’ 表示:当现行状态为s ,输入字符为a 时,将状态转换到下一状态s’ 。我们把s’ 称为s 的一个后继状态。

s_0\in S:初态(唯一) F⊆S :终态集(可空)

3.非确定有限自动机(NFA) 一个非确定有限自动机M是一个五元式M=(S,\Sigma,\delta,S_0,F) ,其中 S :有穷状态集

\Sigma:输入字母表(有穷)

\deltaS×Σ∗→2S

S0​⊆S:初态集(非空)

FS :终态集(可空)

4.LEX LEX用来描述和自动产生所需的各种词法分析器,包括正规式定义和识别规则两部分,将LEX程序编译后所得结果程序记为L,其作用同有限自动机一样,可用来识别和产生单词符号。

  1. 确定化和最小化

(a)确定化

如({0},a)={0,1}表示{0}只经过弧a可以到达{0,1},以此类推。

给状态编号

最小化 终态{0,1},非终态{2,3}

I

Ia

Ib

{0,1}

{1}

{2}

{2,3}

{0,3}

{3}

{0,1}包含了{1}和{2},所以不能再划分; {0,3}不包含在{0,1}或{2,3}中,拆分由状态2经弧a到达状态0和由状态3经弧a到达状态3,即{2,3}\implies {2},{3}; 得{{0,1},{2},{3}}

(b)已经确定化,进行最小化 终态{0,1},非终态{2,3,4,5}

I

Ia

Ib

{0,1}

{1}

{2,4}

{2,3,4,5}

{0,1,3,5}

{2,3,4,5}

{2,4}

{0,1}

{3,5}

{3,5}

{3,5}

{2,4}

{0,1,3,5}已经大于{0,1}了,故不继续分析 {1}和{2,4}包含于{0,1}、{2,3,4,5},故{0,1}不拆分; {0,1,3,5}没有包含于{0,1}、{2,3,4,5};又状态24经弧a到达状态10,包含于{0,1},应拆24为一组(其他拆法可自验证),即拆分{2,3,4,5}为{2,4}、{3,5}

{{0,1},{2,4},{3,5}}

I

Ia

Ib

{0,1}

{1}

{2,4}

{2,4}

{0,1}

{3,5}

{3,5}

{3,5}

{2,4}

继续验证不可再拆,且都属于集合{{0,1},{2,4},{3,5}}。

语法分析

自上向下分析

  1. 消除左递归 含有左递归的文法将使自上而下的分析过程写入无限循环,如P\overset{+}{\implies}P\alphaP\implies P\alpha\implies P\alpha\alpha\implies P\alpha\alpha\alpha\implies…… 消除左递归可以在原产生式中增加一个非终结符,如P → P α ∣ β改写为(注意 \beta不以P 开头):

P→βP′

P ′ → α P ′ ∣ ε

2.消除回溯 确保对输入符号准确的指派一个候选去执行任务且此候选的工作结果是确信无疑的,避免回溯推倒重来费时费力。

3. First集和Follow集

  • 令G是一个不含左递归的文法,对G的所有非终结符的每个候选\alpha 定义它的终结首符集FIRST(\alpha)

为: FIRST(\alpha)=\{a|\alpha\overset{*}{\implies}a...,a\in V_T\}

  • 假定S是文法G的开始符号,对于G的任何非终结符A,定义FOLLOW(A)FOLLOW(A)=\{a|S\overset{*}{\implies}...Aa...,a \in V_T\} 安利DZ大佬的讲解

4.LL(1)文法 ①文法不含左递归 ②对于文法中每一个非终结符A的各个产生式的候选首符集两两不相交 即,若A → α 1 ∣ α 2 ∣ . . . ∣ α nF I R S T ( α i ) ∩ F I R S T ( α j ) = Φ ③对文法中的每个非终结符A,若它存在某个候选首符集合包含\varepsilon ,则FIRST(A)\cap FOLLOW(A)=\varPhi 文法G满足以上条件,则称G为LL(1)文法。

5. LL(1)基本思想 顾名思义,第一个L表示从左到右扫描输入串,第二个L表示最左推导,1表示分析时每一步只需向前查看一个符号。即根据输入串的当前输入符号来唯一确定选用哪个产生式来进行推导,从而消除左递归和回溯。

6. 递归下降分析优缺点

优点

缺点

分析高效(线性时间)

频繁递归工作效率低

错误定位和诊断信息准确

缺乏完善语法检查和出错处理

容易实现(方便编码)

  1. LL(1)分析过程 比如如下分析表:

i

+

E

E→TE’

E’

E’→TE’

太多了不想画,举一反三 初始时栈内是#E,例输入串为i,则根据表格栈顶元素E遇到i时,用TE’替代E,即逆序入栈,此时栈内为#E’T,以此类推,当输入串和栈顶都是#(结束符号)时表示成功,如果遇到分析表是空白的,则报错,如果是替换\varepsilon ,则意味不入栈。

插播反爬信息 )博主CSDN地址:https://wzlodq.blog.csdn.net/

8.下面文法中,那些是LL(1)的,说明理由。

(1)

S→Abc

A → a ∣ ε

B → b ∣ ε

是,满足三个条件

(2) S→Ab

A → a ∣ B ∣ ε

B → b ∣ ε

FIRST(A)∩ \cap∩FOLLOW(A)={b}

FIRST(B)∩ \cap∩FOLLOW(B)={b}

不是,A、B不满足条件③

(3) S→ABBA

A → a ∣ ε

B → b ∣ ε

FIRST(A)∩ \cap∩FOLLOW(A)={a}

FIRST(B)∩ \cap∩FOLLOW(B)={b}

不是,A、B不满足条件③ (4) S→aSe∣B

B → b B e ∣ C

C → c C e ∣ d

FIRST

FOLLOW

S

{a,b,c,d}

{#,e}

B

{b,c,d}

{#,e}

C

{c,d}

{#,e}

FIRST(aSe)∩ \cap∩FIRST(B)=Φ \varPhiΦ

FIRST(bBe)∩ \cap∩FIRST(C )=Φ \varPhiΦ

FIRST(cCe)∩ \cap∩FIRST(d)=Φ \varPhiΦ

是,满足三个条件 其实没有可以不用求FOLLOW集。

自下向上分析

  1. 短语、直接短语、句柄 令G 是一个文法,S 是文法的开始符号,假定\alpha\beta\delta 是文法G 的一个句型,如果有S\overset{*}{\implies}\alpha A\deltaA\overset{+}{\implies}\beta 则称\beta 是句型\alpha\beta\delta 相对于非终结符A的短语。特别是,如果有A→β 则称\beta 是句型\alpha\beta\delta 相对于规则A→β直接短语,一个句型的最左直接短语称为该句型的句柄
  2. 规范规约、规范推导 假定\alpha 是文法G 的一个句子,我们称序列\alpha_n,\alpha_{n-1}...,a_0\alpha 的一个规范规约,如果此序列满足: ①\alpha_n=\alpha\alpha_0 为文法的开始符,即\alpha_0=S ③对任何i,0<i≤n,\alpha_{i-1} 是从\alpha_i 经把句柄替换为相应产生式的左部符号而得到的。 规范规约是关于\alpha 的一个最右推导的逆过程,故规范规约也称最左规约。 在形式语言中,最右推导常被称为规范推导,由规范推导所得的句型称为规范句型。
  3. 前缀、活前缀 字的前缀是指该字的任意首部。例如字abc的前缀有ε、a、ab或abc。所谓活前缀是指规范句型的一个前缀,这种前缀不含句柄之后的任何符号。之所以称为活前缀,是因为在右边增添一些终结符号之后,就可以使它成为一个规范句型。 在LR分析工作过程中的任何时候,栈里的文法符号(自栈底而上)X1X2…Xm应该构成活前缀,把输入串的剩余部分配上之后即应成为规范句型(如果整个输入串确实构成一个句子)。因此只要输入串的已扫描部分保持可归约成一个活前缀,那就意味着所扫描过的部分没有错误。
  4. LR分析基本思想 在规约过程中,一方面记住已移进和规约出的整个符号串,即记住“历史”; 另一方面根据所用的产生式推测未来可能遇到的输入符号,即对未来进行“展望”; 最后结合“现实”的输入符号来确定栈顶符号串是否构成相对某一产生式的句柄。
  5. 有效项目 我们说项目A → β 1 ⋅ β 2 对活前缀\alpha\beta_1 有效的,其条件是存在规范推导:
S'\overset{*}{\underset{R}{\implies}}\alpha Aw\underset{R}{\implies}\alpha\beta_1\beta_2w

6. LR(1)分析过程

(1)sj 把下一状态j和现行输入符号a移进栈; (2) rj 按第j个产生式进行归约; (3)acc 接受; (4)空白格 出错标志,报错 利用图5.5 分析表,假定输人串为i*i+i ,LR分析器的工作过程(即,三元式的变化过程)如下:

  • 第(1)步到第(2)步:状态0,输入i,定位表格[0,i]=s5,入栈状态5和输入i,输入串出栈;
  • 第(2)步到第(3)步:栈顶状态5,输入*,定位[5,*]=r6,用第6个产生式F→i规约,出栈5和i,入栈F,此时看GOTO,栈顶状态0,定位[0,F],入栈状态3;
  • 第(3)步到第(4)步:定位[3,*]=r4,用第4个产生式T→F规约,出栈3和F,入栈T,此时GOTO[0,T]=2,入栈状态2;
  • 第(3)步到第(4)步:定位[2,*]=s7,入栈状态7和输出*,输入串出栈;
  • 以此类推,不一一写了。

7. LR(0)分析过程: 考虑文法

S→AS∣b

A → S A ∣ a

(1)列出这个文法的所有LR(0)项目。

0 S ′ → ⋅ S

1 S ′ → S ⋅

2 S → ⋅ A S

3 S → A ⋅ S S

4 S → A S ⋅ S

5 S → ⋅ b S

6 S → b ⋅ S

7 A → ⋅ S A

8 A → S ⋅ A

9 A → S A ⋅

10 A → ⋅ a

11 A → a ⋅ (2)构造这个文法的LR(0)项目集规范族及识别活前缀的DFA。

确定化

项目集规范族为C=\{I_0,I_1,I_2,I_3,I_4,I_5,I_6,I_7\}

属性文法

属性文法、综合属性、继承属性 属性文法(也称属性翻译文法)是在上下文无关文法的基础上为每个文法符号(终结符或非终结符)配备若干相关的“值"(称为属性)。.

这些属性代表与文法符号相关信息,例如它的类型、值、代码序列、符号表内容等等。属性与变量一样,可以进行计算和传递。属性加工的过程即是语义处理的过程。对于文法的每个产生式都配备了一组属性的计算规则,称为语义规则。

综合属性:自下而上传递信息 继承属性:自上而下传递信息 要特别强调的是:

  1. 终结符只有综合属性,它们由词法分析器提供;
  2. 非终结符既可有综合属性也可有继承属性,文法开始符号的所有继承属性作为属性计算前的初始值。

语义分析和是中间代码产生

中间代码生成对编译器构造的意义

  1. 便于进行与机器无关的代码优化工作;
  2. 使编译程序改变目标机更容易;
  3. 使编译程序的结构在逻辑上更为简单明确。以中间语言为界面,编译前端和后端的接口更清晰。

优化

代码优化的原则

  1. 等价原则:经过优化后不应改变程序运行的结果。
  2. 有效原则:使优化后所产生的目标代码运行时间较短,占用的存储空间较小。
  3. 合算原则:应尽可能以较低的代价取得较好的优化效果。

目标代码生成

代码生成器的输出是目标程序,目标程序有哪几种形式?

  1. 能够立即执行的机器语言代码,所有地址均已定位(代真)。
  2. 待装配的机器语言模块。当需要执行时,由连接装入程序把它们和某些运行程序连接起来,转换成能执行的机器语言代码。
  3. 汇编语言代码,尚需经过汇编程序汇编,转换成可执行的机器语言代码。 参考文献 《程序设计语言编译原理(第3版)》-陈火旺等著
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/06/23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 引论
  • 语法描述
  • 词法分析
  • 语法分析
    • 自上向下分析
    • 自下向上分析
  • 属性文法
  • 语义分析和是中间代码产生
  • 优化
  • 目标代码生成
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档