编写翻译和链接

摘自《程序员自我修养》

所有这一张中的示例代码,以 Hello World 和 hello.c 为基准
2.1 被隐藏了的过程
GCC 编译过程分析 —— 预处理,编译,汇编,链接:

2.1 被隐藏了的过程

编译运行主要分解为4个步骤:

预处理(Prepressing)、编译(Compilation)、汇编(Assembly)和链接(Linking).


原书图

2.1.1 预编译

预编译处理规则:

1、  讲所有的“#define”删除,并且展开所有的宏定义。

2、 
处理所有条件预编译指令,比如“#if”、“#ifdef”、“#elif”、“#else”、“#endif”。

3、 
处理“#include”预编译指令,将包含的文件插入到该预编译指令的位置。注意,设个过程是递归进行的,也就是说被包含的文件可能还包含其他文件。

4、  删除所有的注释“//”和“/**/”.

5、  添加行号和文件名标识,比如#2“hello.c”
2,以便于编译时编译器产生调试用的行号信息以及用于编译时产生编译错误或警告时能够显示行号。

6、  保留所有的#pragma编译指令,因为编译器需要使用它们。

 

编译指令

$gcc –E hello.c –o hello.i

$cpp hello.c > hello.i

 

链接的原因

在一个程序被分割为多个模块以后,这些模块之间最后如何组合形成一个单一的程序是须要解决的问题。模块之间如何组合的问题可以归结为模块之间如何通信的问题,最常见的属于静态语言的C、C++之间通信的方式,一种是模块之间的函数调用,另外一种是模块间的变量访问。函数访问须知道目标函数的地址,变量访问也须知道目标变量的地址,所以这两种方式都可以归结为一种方式,那就是模块之间的符号引用。模块间依靠符号来通信类似于拼图版,定义符号的模块多出一个区域,引用该符号的模块刚好烧录那一块区域,两者的拼接刚好完美组合。这个模块组合的过程就是链接。
必发365游戏官方网址 1

2.1.1 预编译 —— 处理 hello.c 文件 输出 hello.i 文件
首先是源代码文件 hello.c 和 相关文件的头文件(譬如
stdio.h)等,先经由预编译器预编译,cpp 预编译成一个 .i 文件。
预编译过程主要处理那些源代码中的以“#”开始的预编译指令,譬如“#include”,“#define”等,处理规则如下:
1、将所有的“#define”删除,并且展开所有的宏定义。(将宏定义替换成实际代码)
2、处理所有条件预编译指令,譬如“#if”,“#ifdef”,“#elseif”等等。
3、处理“#include”预编译指令,将包含的晚间插入到预编译指令的位置。这个过程是递归进行的,所以,当
include
的头文件中包含了别的头文件,那么那些额外的头文件,会递归的被插入。这样也导致了最终的代码比编写的时候要多。
4、删除所有的注释
5、添加行号和文件名标示。譬如“#2”,“hello.c”,以便于编译时编译器产生调试用的行号信息以及用于编译时产生编译错误或警告时能够显示行号。
6、保留所有的 #program 编译器指令,因为编译器需要使用它们。
通过查看预编译后的文件,可以确定宏定义是否是正确的,或者头文件是否包含正确。

2.1.2编译

编译过程就是把预处理完的文件进行一系列词法分析、语法分析、语义分析及优化后生成相应的汇编代码文件。

编译指令

$gcc –s hello.i –o hello.s

 

静态链接

链接过程主要包括了地址和空间分配符号决议重定位等这些步骤。

符号决议有时候也被叫做符号绑定(Symbol Binding)、名称绑定(Name
Binding)。甚至还有叫做地址绑定(Address
Binding)、指令绑定(Instruction
Binding)的,大体上它们的意思都一样,但从细节角度来区分,它们之间还是存在一定区别的,比如“决议”更倾向于静态链接,而“绑定”更倾向于动态链接,即它们所使用的范围不一样。在静态链接中,我们统一称为“符号决议”。

最基本的静态链接过程如图2-8所示。编译过程如下图:
必发365游戏官方网址 2

现代编译和链接过程并非想象那么复杂,它还是一个容易理解的概念,比如我们在程序模块main.c使用另外一个模块func.c中的函数foo()。我们在main.c模块中每一处调用的foo的时候都必须确切知道foo函数的地址,所以它暂时把这些调用foo的指令的目标地址搁置,等待最后链接的时候由链接器去将这些指令的目标地址进行修正,则填入正确的foo函数地址。当func.c模块重新编译,foo函数的地址有可能改变时,那么我们在main.c中所有使用到foo的地址的指令将要全部重新调整。这些繁琐的工作将成为程序员的噩梦。使用链接器,你可以直接引用其他模块的函数和全局变量而无需知道它们的地址,因为链接器,你可以直接引用其他模块的函数和全局变量而无须知道它们的地址,因为链接器在链接的时候会根据引用的符号foo,自动去相应的func.c模块查找foo的地址,然后将main.c模块中所有引用到foo的指令重新修正,让它们的目标地址为真正的foo函数的地址。这就是静态链接的最基本功能和作用。
在链接过程中,对其他定义在目标文件中的函数调用的指令须要被重新调整,对使用其他定义在其他目标文件的变量来说,也存在同样的问题。让我们结合具体CPU指令来理解这个过程,假设我们有个全局变量,比如我们在目标文件中B里面有一个指令:
movl $0x2a, var
这条指令就是给这个var变量赋值0x2a,相当于C语言中的语句var=42,然后我们编译目标文件B,得到这条指令机器码,如图2-9所示:
必发365游戏官方网址 3

由于在编译目标文件B的时候,编译器并不知道变量var的目标地址,所以编译器在无法确定地址的情况下,将这条mov指令的目标地址置为0,等待链接器在将目标文件A和B链接起来的时候再将其修正。

2.1.2 编译 —— 处理 .i 文件,输出 .s 文件
编译的整个过程就是把预编译完的进行一系列处理产生相应的汇编代码文件。
编译的步骤:扫描源文件 -> 语法分析 -> 语义分析 -> 源代码优化
-> 代码生成 -> 目标代码优化

2.1.3 汇编

汇编器是将汇编代码转变成机器可以执行的指令,每一个汇编语句几乎都对应一条机器指令。

编译指令

$as hello.s –o hello.o

或者:

$gcc –c hello.s –o hello.o

或者:经过预编译,编译和汇编直接输出目标文件。

$gcc –c hello.c –o hello.o

 

编译器做什么?

2.1.3 汇编 —— 处理 .s 文件,输出 .o 文件
汇编过程,是由汇编器将汇编代码转变成机器可以执行的指令,每一个汇编语句都会对应一条机器指令。汇编器做的事儿,是比较简单的,就是做翻译,把编程语言翻译成汇编语句,不考虑语法,语义,也不做指令优化(编译过程已经处理了),最终生成
.o 文件,即目标文件

2.1.4 链接

把一堆的.o文件链接起来,生成.out的可执行文件。

源码:后面都将以此为例

Array[index] = (index + 4) * (2 + 6)

 

词法分析

首先源代码程序被输入到扫描器,扫描器的任务很简单,它只是简单地进行词法分析,运用一种类似于有限状态机(
Finite State
Machine)的算法可以很轻松地将源代码的字符序列分割成一系列的记号。比如上面的那行程序,总共包含了28个非空字符,经过扫描以后,产生了16个记号,如表2-1所示。

必发365游戏官方网址 4

必发365游戏官方网址 5

词法分析产生的记号一般可以分为如下几类:关键字、标识符、字面量(包含数字、字符串等)和特殊符号。在识别记号的同时,扫描器也完成了其他工作。比如将标识符存放到符号表,将数字、字符串常量存放到文字表等,以备后面的步骤使用。

有一个叫做lex的程序可以实现词法扫描,它会按照用户之前描述好的词法规则将输入的字符串分割成一个个记号。因为这样个程序的存在,编译器的开发者就无须为每个编译器开发个独立的词法扫描器,而是根据需要改变词法规则就可以了

另外对于一些有预处理的语言,比如C语言,它的宏替换和文件包含等工作一般不归入编译器的范围而交给一个独立的预处理器。

2.1.4 链接 —— 将 多个 .o 文件,库文件 链接在一起
链接器做的事儿,就好比是一个组装车间。编译器、汇编器把各个 .c
文件分头处理,做成目标文件;而链接器做的是将这些目标文件组装在一起,让原本互不相识的目标文件认清彼此(有时候,a.c
会 用到
b.c中的方法或是变量,链接过程正是为了确定所有变量和方法的地址而存在的)。
由于编译器是不知道变量和方法的地址的,编译器处理的是模块,至于这个模块要放在哪里是不知道的。
链接器做的就是将这些模块组合在一起,明确各个变量 和 方法 的地址。

2.2 编译器做了什么

编译过程分为6步:扫描语法分析语义分析源代码优化代码生成目标代码优化。如图2-2:

必发365游戏官方网址 6

 

 

图2-2 编译过程

语法分析

接下来语法分析器( Grammar
Parser)将对由扫描器产生的记号进行语法分析,从而产生语法树( Syntax
Tree)。整个分析过程釆用了上下文无关语法( Context-free
Grammar)的分析手段,如果你对上下文无关语法及下推自动机很熟悉,那么应该很好理解。否则,可以参考一些计算理论的资料,一般都会有很详细的介绍。此处不再赘述。简单地讲,由语法分析器生成的语法树就是以表达式(
Expression)为节点的树。我们知道,C语言的一个语句是一个表达式,而复杂的语句是很多表达式的组合。上面例子中的语句就是一个由赋值表达式、加法表达式、乘法表达式、数组表达式、括号表达式组成的复杂语句。它在经过语法分析器以后形成如图2-3所示的语法树。

必发365游戏官方网址 7

从图23中我们可以看到,整个语句被看作是一个赋值表达式:赋值表达式的左边是一个数组表达式,它的右边是一个乘法表达式;数组表达式又由两个符号表达式组成,等等。符号和数字是最小的表达式,它们不是由其他的表达式来组成的,所以它们通常作为整个语法树的叶节点。在语法分析的同时,很多运算符号的优先级和含义也被确定下来了。比如乘法表达式的优先级比加法高,而圆括号表达式的优先级比乘法高,等等。另外有些符号具有多重含义,比如星号*在C语言中可以表示乘法表达式,也可以表示对指针取内容的表达式,所以语法分析阶段必须对这些内容进行区分。如果出现了表达式不合法,比如各种括号不匹等,编译器就会报告语法分析阶段的错误。

2.2 编译器做了些什么 —— 将高级的编程语言翻译成机器语言
编译步骤 :扫描 -> 语法分析 -> 语义分析 -> 源代码优化 ->
代码生成 -> 目标代码优化

2.2.1 词法分析

将源代码程序输入到扫描器,扫描器进行词法分析,运用一种类似于有限状态机的算法可以很轻松的将源代码的字符序列分割成一系列的几号。

词法分析产生的记号一般可以分为以下几类:关键字标识符字面量(数字、字符串)特殊符号(加号、等号等)。

可使用工具:lex程序

 

语义分析

接下来进行的是语义分析,由语义分析器( Semantic
Analyzer)来完成。语法分析仅仅是完成了对表达式的语法层面的分析,但是它并不了解这个语句是否真正有意义。比如C语言里面两个指针做乘法运算是没有意义的,但是这个语句在语法上是合法的;比如同样个指针和一个浮点数做乘法运算是否合法等。编译器所能分析的语义是静态语义(
Static
Semantic),所谓静态语义是指在编译期可以确定的语义,与之对应的动态语义(
Dynamic Semantic)就是只有在运行期才能确定的语义。

静态语义通常包括声明和类型的匹配,类型的转换。比如当一个浮点型的表达式赋值给个整型的表达式时,其中隐含了一个浮点型到整型转换的过程,语义分析过程中需要完成这个步骤比如将一个浮点型赋值给一个指针的时候,语义分析程序会发现这个类型不匹配编译器将会报错。动态语义一般指在运行期出现的语义相关的问题,比如将0作为除数是一个运行期语义错误。

经过语义分析阶段以后,整个语法树的表达式都被标识了类型,如果有些类型需要做隐式转换,语义分析程序会在语法树中插入相应的转换节点。上面描述的语法树在经必发365游戏官方网址 8

过语义分析阶段以后成为如图2-4所示的形式。

可以看到,每个表达式都被标识了类型。我们的例子中几乎所有的表达式都是整型的,所以无须做转换,整个分析过程很顺利。语义分析器还对符号表里的符号类型也做了更新。

原书图

2.2.2 语法分析

语法分析器将扫描器产生的记号进行语法分析,从而产生语法树,整个分析过程采用了上下文无关法的分析手段,简单的讲,由语法分析器生成的语法树就是以表达式为节点的树。如图2-3:

 

语法分析工具:yacc

必发365游戏官方网址 9

 

 

图2-3 语法树

中间语言生成

现代的编译器有着很多层次的优化,往往在源代码级别会有一个优化过程。我们这里所描述的源码级优化器(
Source Code
Optimizer)在不同编译器中可能会有不同的定义或有些其他的差异。源代码级优化器会在源代码级别进行优化,在上例中,细心的读者可能已经发现,这个表达式可以被优化掉,因为它的值在编译期就可以被确定。类似的还有很多其他复杂的优化过程,我们在这里就不详细描述了。经过优化的语法树如图2-5所示。

必发365游戏官方网址 10

我们看到这个表达式被优化成8。其实直接在语法树上作优化比较困难,所以源代码优化器往往将整个语法树转换成中间代码(
ntermediate
Code),它是语法树的顺序表示,其实它已经非常接近目标代码了。但是它一般跟目标机器和运行时环境是无关的,比如它不包含数据的尺寸、变量地址和寄存器的名字等。中间代码有很多种类型,在不同的编器中有着不同的形式,比较常见的有:三地址码(
Three-address
Code)和P代码。我们就拿最常见的三地址码来作为例子,最基本的三地址码是这样的:

必发365游戏官方网址 11

这个三地址码表示将变量y和z进行φp操作以后,赋值给x。这里p操作可以是算数算,比如加减乘除等,也可以是其他任何可以应用到y和z的操作。三地址码也得名于此因为一个三地址码语句里面有三个变量地址。我们上面的例子中的语法树可以被翻译成三地址码后是这样的:

必发365游戏官方网址 12

我们可以看到,为了使所有的操作都符合三地址码形式,这里利用了几个临时变量:t1、t2和t3。在三地址码的基础上进行优化时,优化程序会将2+6的结果计算出来,得到t1=6,然后将后面代码中的t替换成数字6。还可以省去一个临时变量t3,因为t2可以重复利用。

经过优化以后的代码如下:

t2 = index + 4;t2 = t2 * 8;array[index] = t2;

中间代码使得编译器可以被分为前端和后端。编译器前端负责产生机器无关的中间代码,编译器后端将中间代码转换成目标机器代码。这样对于一些可以跨平台的编译器而言,它们可以针对不同的平台使用同一个前端和针对不同机器平台的数个后端。

示例代码 :
array [index] = ( index + 4 ) * ( 2 + 6 )
,文件名:CompilerExpression.c

2.2.3 语义分析

编译器所能分析的语义是静态语义静态语义是指在编译器可以确定的语义,与之对应的是动态语义,就是只能在运行期才能确定的语义。

静态语义通常包括声明和类型的匹配、类型的转换。语义分析后结果如图2-4:

 必发365游戏官方网址 13

 

图 2-4 标识语义后的语法树

目标代码生成与优化

源代码级优化器产生中间代码标志着下面的过程都属于编辑器后端。编译器后端主要包括代码生成器(
Code Generator)和目标代码优化器( Target Code
Optimizer)。让我们先来看看代码生成器。代码生成器将中间代码转换成目标机器代码,这个过程十分依赖于目标机器,因为不同的机器有着不同的字长、寄存器、整数数据类型和浮点数数据类型等。对于上面例子中的中间代码,代码生成器可能会生成下面的代码序列(我们用x86的汇编语言来表示,并且假设
index的类型为int型,aray的类型为int型数组)

必发365游戏官方网址 14

最后目标代码优化器对上述的目标代码进行优化,比如选择合适的寻址方式、使用位移来代替乘法运算、删除多余的指令等。上面的例子中,乘法由一条相对复杂的基址比例变址寻址(
Base Index Scale
Addressing)的lea指令完成,随后由一条mov指令完成最后的赋值操作,这条mov指令的寻址方式与lea是一样的

必发365游戏官方网址 15

现代的编译器有着异常复杂的结构,这是因为现代高级编程语言本身非常地复杂,比如C++语言的定义就极为复杂,至今没有一个编译器能够完整支持C++语言标准所规定的所有语言特性。另外现代的计算机CPU相当地复杂,CPU本身采用了诸如流水线、多发射、超标量等诸多复杂的特性,为了支持这些特性,编译器的机器指令优化过程也变得十分复杂使得编译过程更为复杂的是有些编译器支持多种硬件平台,即允许编译器编译出多种目标CPU的代码。比如著名的GCC编译器就几乎支持所有CPU平台,这也导致了编译器的指令生成过程更为复杂。

经过这些扫描、语法分析、语义分析、源代码优化、代码生成和目标代码优化,编译器忙活了这么多个步骤以后,源代码终于被编译成了目标代码。但是这个目标代码中有一个问题是:indeⅹ和aray的地址还没有确定。如果我们要把目标代码使用汇编器编译成真正能够在机器上执行的指令,那么
index和aray的地址应该从哪儿得到呢?如果
index和array定义在跟上面的源代码同一个编译单元里面,那么编译器可以为
index和array分配空间,
确定它们的地址:那如果是定义在其他的程序模块呢?

一个看似简单的问题引出了我们一个很大的话题:目标代码中有变量定义在其他模块该怎么办?事实上,定义其他模块的全局变量和函数在最终运行时的绝对地址都要在最终链接的时候才能确定。所以现代的编译器可以将一个源代码文件编译成一个未链接的目标文件,然后由链接器最终将这些目标文件链接起来形成可执行文件。让我们带着这个问题,走进链接的世界。

2.2.1 词法分析:
源代码首先被输入到扫描器(Scanner),完成词法分析。词法分析,使用的是一种类似于
“有限状态机”的算法,将源代码的字符串分割成一系列的记号(Token):

2.2.4 中间语言生成

源码级优化器:在源代码级别进行优化。如将(2+6)表达式优化掉。一般是将整个语法树转换成中间代码,它是语法树的顺序表示。如图2-5

中间代码:接近目标代码,不同的编译器有不同的形式,常见的:三地址码P-代码

中间代码使得编译器可以分为前端和后端,编译器前端负责产生机器无关的中间代码,编译器后端将中间代码转换成目标机器代码。

 必发365游戏官方网址 16

 

图2-5 优化后的语法树

原书图

2.2.5 目标代码生成与优化

源代码级优化器产生中间代码标志着下面的过程都属于编译器后端,编译器后端主要包括:代码生成器目标代码优化器

代码生成器:将中间代码转换成目标机器代码,依赖于目标机器。

目标代码优化器:对目标代码进行优化,比如选择合适的寻址方式,使用位移来代替乘法运算、删除多余的指令等。

至今没有一个编译器能够欧完整支持C++语言标准所规定的所有语言特性。

编译完成,index和array的地址还没确定,需要使用链接器进行链接。

现代的编译器可以将一个源代码文件编译成一个未链接的目标文件,然后由连接器最终将这些目标文件链接起来形成可执行文件。

 

词法分析产生的记号,由扫描器存放到对应的表中,譬如,将标识存放到符号表,将数字存放到文字表等。

2.3 链接器年龄比编译器长

重定位:重新计算各个目标的地址过程

符号:表示一个地址,这个地址可能是一个子程序(函数)的起始地址,也可以是一个变量的起始地址。

最初程序是一个模块,后来功能越多,代码越来越多,复杂度增加,所以拆分为多个模块,在拆分为多个模块以后,这些模块之间最后如何组合形成一个单一的程序,模块之间如何组合的问题可以归结为模块之间如何通信,最常见的属于静态语言c/c++模块之间通信有两种方式:一种是模块间的函数调用,另一种是模块间的变量访问,函数访问须知道目标函数的地址,变量访问也须知道目标变量的地址,这两种方式都可以归结为一种:模块间的符号引用。

链接:各个模块的拼接过程。

 

2.2.2 语法分析
语法分析器,对由扫描器产生的记号进行语法分析,从而产生语法树。采用的是上下文无关语法的分析手段。产生的语法树:

2.4模块拼装—静态链接

链接:每个源代码模块独立编译,然后按照需要将他们“组装”起来。

链接的主要内容:把各个模块之间相互引用的部分都处理好,使得各个模块之间能够正确的衔接。

链接的过程地址和空间分配符号决议重定位.

符号决议:也叫做符号绑定,名称绑定,或者地址绑定,指令绑定。决议更倾向于静态链接,而绑定更倾向于动态链接。

重定位:假设A和B链接后,变量var的地址确定下来为0x1000,那么链接器将会把这个指令的目标地址部分修改为0x1000,这个地址修正的过程叫做重定位。每个要被修正的地方叫一个重定位入口。重定位要做的就是给程序中每个这样的绝对地址引用的位置“打补丁”,使他们指向正确的地址。


:一组目标文件的包,就是一些最常用的代码编译成目标文件后打包存放。

运行时库:一种被编译器用来实现编程语言内置函数,以提供该语言程序运行时(执行)支持的一种特殊的计算机程序库

 

本章总结

从程序源代码到最终可执行文件的4个步骤:预编译编译汇编链接

C程序源代码转变成汇编代码的若干个步骤:词法分析语法分析语义分析中间代码生成目标代码生成与优化

静态链接的一些基本概念:重定位符号符号决议目标文件必发365游戏官方网址,,运行库

 

原书图

可见,整个表达式被视作复制表达式。符号和数字是最小的表达式,是整个语法树的节点。
在语法分析的同时,运算符号的优先级 和
含义也被确定下来了。如上图所示,乘法运算的优先级 高于 加法。
有些符号拥有多重含义,譬如 * ,即可以表示乘法,有可能表示
对指针取内容。
特别注意:如果出现表达式不合法,比如各种括号不匹配,表达式中缺少操作符等,编译器就会报告语法分析阶段的错误。

2.2.3 语义分析
语义分析器,完成语义分析。语法分析,仅仅是完成了表达式语法层面的分析,但是它并不了解这个语句是否真正有意义。
譬如C语言中,两个指针做乘法运算,在语义上是合法的,但是确实没有意义的(指针取值之后做乘法是有意义的,但是指针指向的是地址,直接做乘法是无意义的)
编译器所能分析的语义是静态语义,对于动态语义编译器是无能为力的。譬如在运行时,从服务器获得一个数据,和服务器的约定是服务器传一个字符串,receiver进行强转,转成int型。然而,在运行时如果服务器传的是一个数组,那么强转必然失败,还会导致程序崩溃。
静态语义 —— 在编译期间可以确定的语义。通常包括声明和类型的匹配。
动态语义 —— 只有在运行期间才能确定的语义

经过语义分析阶段后,整个语法树的表达式都被标示了类型。如果有些类型需要做隐式转换,语义分析程序会在语法书中插入相应的转换节点。标示于以后的语法树:

原书图

2.2.4 中间语言生成 —— 源码级别的优化过程
源代码优化器 —— 会在源代码级别进行优化。上述示例代码中,(2 +
6)这个表达式可以被优化掉,因为它的值在编译期就可以被确定。优化后的语法树:

原书图

由于直接在语法树上做优化比较困难。所以,源代码优化器,往往将整个语法树转换成中间代码。
中间代码 ——
语法树中元素的顺序表示,他已经非常接近目标代码了。但是其一般跟目标机器和运行时环境是无关的。

三地址码:x = y op z 。这个三地址码表示将变量 y 和 z 进行 op
处理后赋值给x。将上述的语法树翻译成三地址码后的结果:
t1 = 2 + 6
t2 = index + 4
t3 = t2 * t1
array[index] = t3
可以看到,使用了三地址码后,整个代码全部变成了 由 3 个变量地址 和 一个
运算符 构成的 算式集合。
每一个算式 都很简单,是将原先的复杂算式做了简化,也是对
语法树的顺序翻译。
优化程序在三地址码基础上进行优化时,会将 2 + 6 的结果计算出来,得到 t1 =
8。同时,还可以省去一个临时变量 t3,因为 t2 可以重复利用。
优化结果:
t2 = index + 4
t2 = t2 * 8
array[index] = t2

相当重要的一点是 ——
中间代码使得编译器可以被分为前端和后端。前端负责产生同机器无关的中间代码,后端将中间代码转换成目标机器代码。如此,在跨平台时,编译器可以使用同一个前端,搭配不同的后端。这样一来,可以大大简化跨平台编译的工作量。

2.2.5 目标代码生成与优化
编译器后端主要包括代码生成器 和 目标代码优化器。
代码生成器 —— 将中间代码 转换成
机器代码。这个过程十分依赖于目标机器,因为各种机器的特性不同。
示例代码的机器码 :(使用 x86 的汇编语言,假设 index 的类型为 int
,array 的类型为 int 型数组)

原书图

最后目标代码优化器对于上述的目标代码进行优化 ——
譬如选择合适的寻址方式,使用位移来代替乘法运算,删除多余的指令等。
到目前为止,目标代码算是完成了,只剩下一个问题 —— array 和 index
的地址如何确定。事实上,定义其他模块的全局变量 和
函数在最终运行时的绝对地址都要在最终连接的时候才能确定。现代编译器可以将一个源代码文件,编译成一个未链接的目标文件,然后由链接器最终将这些目标文件链接起来,形成可执行文件。

2.3 链接器年龄比编译器长
重定位 ——
在最早期的计算机中,重新计算各个目标的地址(重新计算各个目标文件中的变量和方法的地址)过程被称为重定位

链接的实质 ——
通过符号,使不同模块间得以通信。之所以是符号,原因是计算机的发展上,最一开始使用的是纸带,上面直接写机器代码。而后有了汇编,汇编语言使用符号表示
变量 和 函数,以及 所做的操作。符号一词因运而生。
编译器将各个模块编译,而连接器将各个编译完了的模块链接在一起。

2.4 模块拼装 —— 静态链接
链接(Linking)就是组装模块的过程。链接的主要工作,就是讲各个模块间相互引用的部分,都处理好,使得各个模块之间能够正确的衔接。
链接器所做的事儿,从原理上来说,就是把一些指令对其他符号地址的引用加以修正。因为,每当在程序中修改了代码,会导致部分代码中,增加,减少,或者是调换了变量,函数的位置。结果是,在汇编器中,变量

函数的符号(Symbol)不变,但是位置变了,也就是符号不变,地址变了。所以,就要重新计算新的地址。
在没有链接器的时代,这个重新推算地址的过程就是重定位,是人工完成的。链接器做的,就是代替人工,根据符号,将机器代码重定位。

链接过程主要包括 —— 地址和空间分配,符号决议,重定位
最基本的静态链接过程 :从 .c 到 .o(目标文件)
是编译器做的,最后一步是链接器做的链接过程。

原书图

在链接时,目标文件 和 库
一起链接,形成最终的可执行文件。库其实是一组目标文件的包,是一些最常用的代码从编译成目标文件后打包存放。
Object 文件,中文译为 中间目标文件比较合适,简称
目标文件,很多时候也称之为模块。

了解链接器的执行过程:
假设,我们有个全局变量叫做 var ,它在目标文件 A 里面。我们在目标文件 B
里面要访问这个全局变量,比如我们在目标文件 B 里面有这么一条指令:

原书图

这条指令就是给这个 var 变量赋值 0x2a,相当于 C 语言里面的语句 var =
42。然后我们汇编目标文件 B(将汇编码 转换成
机器码),得到这条指令的机器码:

原书图

由于在汇编目标文件 B 的时候,汇编器并不知道变量 var
的目标地址,所以汇编器再没法确定地址的情况下,将这个条 mov
指令的目标地址置为 0,等待链接器将目标文件 A 和 B
连接起来的时候再将其修正。
假设 A 和 B 连接后,变量 var 的地址确定下来为
0x1000,那么链接器将会把这个指令的目标地址部分,修改成 0x1000。
这个地址修正的过程也被叫做 “重定位”, 每个被修正的地方叫做一个
“重定位入口”。

重定位所做的,就是给程序中每个这样的绝对地址引用的位置
“打补丁”,使他们指向正确的地址。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*
*
Website