学习内存管理---分段、分页

linux_Eclipse · 发表于 2009-3-12 10:35:33

posted on 2008-01-06 19:04 挑灯看剑阅读(99) 评论(0) 编辑收藏引用所属分类: Linux kernel
----------------------------
1。操作系统最大的功能就是管理功能，管理进程调度、管理内存、管理文件系统、管理I/O，...。其中最核心的功能是进程管理，但管理的基础是内存管理，只有把内存管理好了，才能使进程在这个广阔的舞台上自由表演。

2。系统工作模式有三种：实模式、保护模式、虚拟8086模式，其中保护模式又分为：分段保护模式、分段分页保护模式，不同模式下的物理内存管理方式不同。

3。分段保护模式(segmentation):
为了管理好内存，把内存分而治之，划分成小块，这样易于才易于管理。如何划分呢？分段保护模式是把物理内存分段，分成一段一段的区域，每段大小固定/不固定，每段都有不同的用途，这就需要对每个段进行描述，以记录该段有哪些属性或特点，这样在使用该段时才能操作正确。对每个段的描述信息放在“段描述符”中，所有的“段描述符”统一放在一起组成系统的“段描述符表”。“段描述符表”分为“全局描述符表GDT”，“中断描述符表IDT”，“局部描述符表LDT”。当操作系统要访问内存中的某一个段时，先在描述符表中找到该段的描述符，这样就知道了该如何使用该内存段了。简言之，分段是对物理内存分段划分，GDT，LDT，IDT是操作系统使用物理内存的参照依据。

4。段页保护模式(paging):
这是在分段保护模式的基础上，再加上分页功能。把以前的对物理内存的分段改为对虚拟地址空间的分段，把4G的虚拟地址空间分段，段信息仍保存在GDT，LDT，IDT中。然后把物理内存分页，用二级页表结构来描述和记录物理内存分页后的各个页的信息。当使用物理内存时就参照二级页表。

5。使用分页机制的目的：
(1)当系统内存被分成许多凌乱的块时，分页机制可以建立一个大而连续的内存空间映象，程序员不用操心和管理这些分散的内存块。
(2)页地址变换建立在段变换基础上，任何分页机制的保护措施并不会取代段变换的保护措施，而只是进行更进一步的检查操作。
(3)分页机制增强分段的性能。

6。虚拟内存
实现虚拟内存的手段是使用“需求加载Load on demand”和“页换入换出”。所谓的“需求加载”是指：运行一个磁盘上的文件时，操作系统为新进程创建4G线形地址空间，并为其环境参数和命令行参数分配和映射一定数量的物理页，此外并没有给执行程序分配其他任何物理内存页面，也没有从磁盘文件中加载代码和数据。但是，一旦程序从设定的入口点（mian函数）开始运行，就会立刻引起CPU产生一个缺页中断，此时内核中的缺页处理程序才会根据引起缺页异常的具体线形地址把磁盘文件中相关的代码和数据从文件系统中加载到物理内存页面中，并定位到进程逻辑地址中指定的页面位置。这种仅在需要时才加载执行文件中页面的方法称为需求加载技术或需求分页(demand paging)技术。
“页换入和换出”是指：当CPU要寻址的指令或数据不在缓存和物理内存中时，通过需求加载技术把页面加到物理内存，但此时如果物理内存已被全部占用，则必须把物理内存中最近不使用的页面换出到磁盘中，以腾出空间给新页面，这种现在就称为页换入和换出。

7。何时产生GDT，LDT，IDT、二级页目录结构，以及它们位于物理内存的什么位置？
在引导启动程序head.s中初始化GDT，IDT和二级页表，它们放在物理内存从地址0x0开始的地方。head.s代码执行完后的物理内存布局如下图：

linux_Eclipse · 发表于 2009-3-12 10:43:44

★★★1.x86 CPU 段有两个意义，

一个是早期实模式下，寄存器16位，地址线20位。为了用16位的寄存器寻址20位的地址，引入了段（segment）的概念，所有的段都在一个地址空间。

第二个是保护模式下，段(segmentation)强调的是分割，用来把内存分成不同的地址空间，每个段一个空间，而后通过CPU的MMU转换成实际物理地址。由于程序运行在不同的段里，根本上保护了CPU保护模式下的各个不相关的代码，所谓进程或者作业。

注意，x86 CPU的段是永远存在的，不论哪个模式，不能禁止，参看Intel开发手册。

（2）
理由同上，每个段都是不同的地址空间。由于段会增加编程的困难，以及32位CPU段的大小是4G，足够大。所以，win32程序抽象出了一个flat memeory model，一个程序的所有模块都在一个段里，这样普通编程人员看到的是一个4G的连续空间。会觉得没有段的概念。所以，段虽然用来分模块，但少有操作系统这么做。

（3）
可以假设不分段。那么所有进程都在一个地址空间。也就是回到了DOS。再看看windows的虚拟内存的概念。
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

★★★2.理解Linux下进程的结构

　　Linux下一个进程在内存里有三部份的数据，就是“数据段”，“堆栈段”和“代码段”，其实学过汇编
语言的人一定知道，一般的CPU象I386，都有上述三种段寄存器，以方便操作系统的运行。“代码段”，顾名
思义，就是存放了程序代码的数据，假如机器中有数个进程运行相同的一个程序，那么它们就可以使用同一
个代码段。
　　堆栈段存放的就是子程序的返回地址、子程序的参数以及程序的局部变量。而数据段则存放程序的全局
变量，常数以及动态数据分配的数据空间（比如用malloc之类的函数取得的空间）。这其中有许多细节问题，
这里限于篇幅就不多介绍了。系统如果同时运行数个相同的程序，它们之间就不能使用同一个堆栈段和数据
段。

（二）如何使用fork
　　在Linux下产生新的进程的系统调用就是fork函数，这个函数名是英文中“分叉”的意思。为什么取这个
名字呢？因为一个进程在运行中，如果使用了fork，就产生了另一个进程，于是进程就“分叉”了，所以这
个名字取得很形象。下面就看看如何具体使用fork，这段程序演示了使用fork的基本框架：

void main(){
int i;
if ( fork() == 0 ) {
/* 子进程程序 */
for ( i = 1; i " );
fgets( command, 256, stdin );
command[strlen(command)-1] = 0;
if ( fork() == 0 ) {
/* 子进程执行此命令 */
execlp( command, command );
/* 如果exec函数返回，表明没有正常执行命令，打印错误信息*/
perror( command );
exit( errorno );
}
else {
/* 父进程，等待子进程结束，并打印子进程的返回值 */
wait ( &rtn );
printf( " child process return %d\n",. rtn );
}
}
}

　　此程序从终端读入命令并执行之，执行完成后，父进程继续等待从终端读入命令。熟悉DOS和WINDOWS系统
调用的朋友一定知道DOS/WINDOWS也有exec类函数，其使用方法是类似的，但DOS/WINDOWS还有spawn类函数，
因为DOS是单任务的系统，它只能将“父进程”驻留在机器内再执行“子进程”，这就是spawn类的函数。
WIN32已经是多任务的系统了，但还保留了spawn类函数，WIN32中实现spawn函数的方法同前述UNIX中的方法
差不多，开设子进程后父进程等待子进程结束后才继续运行。UNIX在其一开始就是多任务的系统，所以从核
心角度上讲不需要spawn类函数。
　　另外，有一个更简单的执行其它程序的函数system，它是一个较高层的函数，实际上相当于在SHELL环境
下执行一条命令，而exec类函数则是低层的系统调用。

（四） Linux的进程与Win32的进程/线程有何区别
　　熟悉WIN32编程的人一定知道，WIN32的进程管理方式与UNIX上有着很大区别，在UNIX里，只有进程的概念
，但在WIN32里却还有一个“线程”的概念，那么UNIX和WIN32在这里究竟有着什么区别呢？
　　UNIX里的fork是七十年代UNIX早期的开发者经过长期在理论和实践上的艰苦探索后取得的成果，一方面，
它使操作系统在进程管理上付出了最小的代价，另一方面，又为程序员提供了一个简洁明了的多进程方法。
　　WIN32里的进程/线程是继承自OS/2的。在WIN32里，“进程”是指一个程序，而“线程”是一个“进程”
里的一个执行“线索”。从核心上讲，WIN32的多进程与UNIX并无多大的区别，在WIN32里的线程才相当于UNIX
的进程，是一个实际正在执行的代码。但是，WIN32里同一个进程里各个线程之间是共享数据段的。这才是与
UNIX的进程最大的不同。
　　下面这段程序显示了WIN32下一个进程如何启动一个线程：（请注意，这是个终端方式程序，没有图形界面
）

int g;
DWORD WINAPI ChildProcess( LPVOID lpParameter ){
int i;
for ( i = 1; i < 1000; i ++) {
g ++;
printf( "This is Child Thread: %d\n", g );
}
ExitThread( 0 );
};

void main()
{
int threadID;
int i;
g = 0;
CreateThread( NULL, 0, ChildProcess, NULL, 0, &threadID );
for ( i = 1; i < 1000; i ++) {
g ++;
printf( "This is Parent Thread: %d\n", g );
}
}

　　在WIN32下，使用CreateThread函数创建线程，与UNIX不同，线程不是从创建处开始运行的，而是由
CreateThread指定一个函数，线程就从那个函数处开始运行。此程序同前面的UNIX程序一样，由两个线程各打
印1000条信息。threadID是子线程的线程号，另外，全局变量g是子线程与父线程共享的，这就是与UNIX最大
的不同之处。大家可以看出，WIN32的进程/线程要比UNIX复杂，在UNIX里要实现类似WIN32的线程并不难，只
要fork以后，让子进程调用ThreadProc函数，并且为全局变量开设共享数据区就行了，但在WIN32下就无法实
现类似fork的功能了。所以现在WIN32下的C语言编译器所提供的库函数虽然已经能兼容大多数UNIX的库函数，
但却仍无法实现fork。
　　对于多任务系统，共享数据区是必要的，但也是一个容易引起混乱的问题，在WIN32下，一个程序员很容
易忘记线程之间的数据是共享的这一情况，一个线程修改过一个变量后，另一个线程却又修改了它，结果引
起程序出问题。但在UNIX下，由于变量本来并不共享，而由程序员来显式地指定要共享的数据，使程序变得
更清晰与安全。
　　Linux还有自己的一个函数叫clone，这个函数是其它UNIX所没有的，而且通常的Linux也并不提供此函数
（要使用此函数需自己重新编译内核，并设置CLONE_ACTUALLY_WORKS_OK选项），clone函数提供了更多的创建
新进程的功能，包括象完全共享数据段这样的功能。
　　至于WIN32的“进程”概念，其含义则是“应用程序”，也就是相当于UNIX下的exec了。

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

★★★3.多进程编程:
http://www.linuxsir.cn/forum.php?mod=viewthread&tid=44083

.

.

linux_Eclipse · 发表于 2009-3-12 10:52:10

Linux的分段和分页机制

1.分段机制
80386的两种工作模式
　　80386的工作模式包括实地址模式和虚地址模式（保护模式）。Linux主要工作在保护模式下。

分段机制
　　在保护模式下，80386虚地址空间可达16K个段，每段大小可变，最大达4GB。
　　从逻辑地址到线性地址的转换由80386分段机制管理。段寄存器CS、DS、ES、SS、FS或GS标识一个段。这些段寄存器作为段选择器，用来选择该段的描述符。

分段逻辑地址到线性地址转换图

图9_7 分段逻辑地址到线性地址转换图

2. 分页机制
分页机制的作用
　　分页机制是在段机制之后进行的，它进一步将线性地址转换为物理地址。
　　80386使用4K字节大小的页，且每页的起始地址都被4K整除。因此，80386把4GB字节线性地址空间划分为1M个页面，采用了两级表结构。
两级页表
　　两级表的第一级表称为页目录，存储在一个4K字节的页中，页目录表共有1K个表项，每个表项为4个字节，线性地址最高的10位（22-31）用来产生第一级表索引，由该索引得到的表项中的内容定位了二级表中的一个表的地址，即下级页表所在的内存块号。
第二级表称为页表，存储在一个4K字节页中，它包含了1K字节的表项，每个表项包含了一个页的物理地址。二级页表由线性地址的中间10位（12-21）位进行索引，定位页表表项，获得页的物理地址。页物理地址的高20位与线性地址的低12位形成最后的物理地址。

利用两级页表转换地址

图9_8 利用两级页表转换地址

3. 内核空间和用户空间
用户空间
　　在Linux中，每个用户进程都可以访问4GB的线性虚拟内存空间。其中从0到3GB的虚存地址是用户空间，用户进程可以直接访问。
内核空间
　　从3GB到4GB的虚存地址为内核态空间，存放供内核访问的代码和数据，用户态进程不能访问。所有进程从3GB到4GB的虚拟空间都是一样的，linux以此方式让内核态进程共享代码段和数据段。

保护模式（1）---存储方式

Writen By Dangerman

保护模式现代操作系统的基础，理解他是我们要翻越的第一座山。保护模式是相对实模式而言的，他们是处理器的两种工作方式。很久以前大家使用的dos就是运行在实模式下，而现在的windows操作系统则是运行在保护模式下。两种运行模式有着较大的不同，
实模式由于是由8086/8088发展而来因此他更像是一个运行单片机的简单模式，计算机启动后首先进入的就是实模式，通过8086/8088只有20根地址线所以它的寻址范围只有2的20次幂，即1M。内存的访问方式就是我们熟悉的seg

ffset逻辑地址方式，例如我们给出地址逻辑地址它将在cpu内转换为20的物理地址，即将seg左移4位再加上offset值。例如地址1000h:5678h，则物理地址为10000h+5678h=15678h。实模式在后续的cpu中被保留了下来，但实模式的局限性是很明显的，由于使用seg

ffset逻辑地址只能访问1M多一点的内存空间，在拥有32根地址线的cpu中访问1M以上的空间则变得很困难。而且随着计算机的不断发展实模式的工作方式越来越不能满足计算机对资源（存储资源和cpu资源等等）的管理，由此产生了新的管理方式——保护模式。
80386及以上的处理器功能要大大超过其先前的处理器，但只有在保护模式下，处理器才能发挥作用。在保护模式下，全部32根地址线有效，可寻址4G的物理地址空间；扩充的存储分段机制和可选的存储器分页机制，不仅为存储器共享和保护提供了硬件支持，而且为实现虚拟存储器提供了硬件支持；支持多任务；4个特权级和完善的特权级检查机制，实现了数据的安全和保密。计算机启动后首先进入的就是实模式，通过设置相应的寄存器才能进入保护模式（以后介绍）。保护模式是一个整体的工作方式，但分步讨论由浅入深更利于学习。
一．存储方式
存储方式主要体现在内存访问方式上，由于兼容和IA32框架的限制，保护模式在内存访问上延用了实模式下的seg

ffset的形式（即：逻辑地址），其实seg

ffset的形式在保护模式下只是一个躯壳，内部的存储方式与实模式截然不同。在保护模式下逻辑地址并不是直接转换为物理地址，而是将逻辑地址首先转换为线性地址，再将线性地址转换为物理地址。如图一：

线性地址是个新概念，但大家不要把它想的过于复杂，简单的说他就是0000000h~ffffffffh(即0~4G)的线性结构，是32个bite位能表示的一段连续的地址，但他是一个概念上的地址，是个抽象的地址，并不存在在现实之中。线性地址地址主要是为分页机制而产生的。处理器在得到逻辑地址后首先通过分段机制转换为线性地址，线性地址再通过分页机制转换为物理地址最后读取数据。如图二：

分段机制是必须的，分页机制是可选的，当不使用分页的时候线性地址将直接映射为物理地址，设立分页机制的目的主要是为了实现虚拟存储（分页机制在后面介绍）。先来介绍一下分段机制，以下文字是介绍如何由逻辑地址转换为线性地址。
分段机制在保护模式中是不能被绕过得，回到我们的seg

ffset地址结构，在保护模式中seg有个新名字叫做“段选择子”（seg..selector）。段选择子、GDT、LDT构成了保护模式的存储结构，如图三

`，GDT、LDT分别叫做全局描述符表和局部描述符表，描述符表是一个线性表（数组），表中存放的是描述符。

“描述符”是保护模式中的一个新概念，它是一个8字节的数据结构，它的作用主要是描述一个段（还有其他作用以后再说），用描述表中记录的段基址加上逻辑地址(sel

ffset)的offset转换成线性地址。描述符主要包括三部分：段基址（Base）、段限制（Limit）、段属性（Attr）。一个任务会涉及多个段，每个段需要一个描述符来描述，为了便于组织管理，80386及以后处理器把描述符组织成表，即描述符表。在保护模式中存在三种描述符表 “全局描述符表”（GDT）、“局部描述符表”（LDT）和中断描述符表（IDT）(IDT在以后讨论)。
（1）全局描述符表GDT（Global Descriptor Table）在整个系统中，全局描述符表GDT只有一张，GDT可以被放在内存的任何位置，但CPU必须知道GDT的入口，也就是基地址放在哪里，Intel的设计者门提供了一个寄存器GDTR用来存放GDT的入口地址，程序员将GDT设定在内存中某个位置之后，可以通过LGDT指令将GDT的入口地址装入此积存器，从此以后，CPU就根据此寄存器中的内容作为GDT的入口来访问GDT了。GDTR中存放的是GDT在内存中的基地址和其表长界限。

（2）段选择子（Selector）由GDTR访问全局描述符表是通过“段选择子”（实模式下的段寄存器）来完成的，如图三①步。段选择子是一个16位的寄存器（同实模式下的段寄存器相同）如图四

  段选择子包括三部分：描述符索引（index）、TI、请求特权级（RPL）。他的index（描述符索引）部分表示所需要的段的描述符在描述符表的位置，由这个位置再根据在GDTR中存储的描述符表基址就可以找到相应的描述符（如图三①步）。然后用描述符表中的段基址加上逻辑地址（SEL:OFFSET）的OFFSET就可以转换成线性地址（如图三②步），段选择子中的TI值只有一位0或1，0代表选择子是在GDT选择，1代表选择子是在LDT选择。请求特权级（RPL）则代表选择子的特权级，共有4个特权级（0级、1级、2级、3级）。例如给出逻辑地址：21h:12345678h转换为线性地址
   a. 选择子SEL=21h=0000000000100 0 01b 他代表的意思是：选择子的index=4即100b选择GDT中的第4个描述符；TI=0代表选择子是在GDT选择；左后的01b代表特权级RPL=1
   b. OFFSET=12345678h若此时GDT第四个描述符中描述的段基址（Base）为11111111h，则线性地址=11111111h+12345678h=23456789h
  （3）局部描述符表LDT（Local Descriptor Table）局部描述符表可以有若干张，每个任务可以有一张。我们可以这样理解GDT和LDT：GDT为一级描述符表，LDT为二级描述符表。如图五

  LDT和GDT从本质上说是相同的，只是LDT嵌套在GDT之中。LDTR记录局部描述符表的起始位置，与GDTR不同LDTR的内容是一个段选择子。由于LDT本身同样是一段内存，也是一个段，所以它也有个描述符描述它，这个描述符就存储在GDT中，对应这个表述符也会有一个选择子，LDTR装载的就是这样一个选择子。LDTR可以在程序中随时改变，通过使用lldt指令。如图五，如果装载的是Selector 2则LDTR指向的是表LDT2。举个例子：如果我们想在表LDT2中选择第三个描述符所描述的段的地址12345678h。
      1. 首先需要装载LDTR使它指向LDT2 使用指令lldt将Select2装载到LDTR
      2. 通过逻辑地址（SEL:OFFSET）访问时SEL的index=3代表选择第三个描述符；TI=1代表选择子是在LDT选择，此时LDTR指向的是LDT2,所以是在LDT2中选择，此时的SEL值为1Ch(二进制为11 1 00b)。OFFSET=12345678h。逻辑地址为1C:12345678h
      3. 由SEL选择出描述符，由描述符中的基址（Base）加上OFFSET可得到线性地址，例如基址是11111111h，则线性地址=11111111h+12345678h=23456789h
      4. 此时若再想访问LDT1中的第三个描述符，只要使用lldt指令将选择子Selector 1装入再执行2、3两步就可以了（因为此时LDTR又指向了LDT1）
由于每个进程都有自己的一套程序段、数据段、堆栈段，有了局部描述符表则可以将每个进程的程序段、数据段、堆栈段封装在一起，只要改变LDTR就可以实现对不同进程的段进行访问。
存储方式是保护模式的基础，学习他主要注意与实模式下的存储模式的对比，总的思想就是首先通过段选择子在描述符表中找到相应段的描述符，根据描述符中的段基址首先确定段的位置，再通过OFFSET加上段基址计算出线性地址。

neubuffalo · 发表于 2009-3-12 11:09:23

能不能好好整理一下，你到底是想想讲什么呢？

linux_Eclipse · 发表于 2009-3-12 12:42:44

看了微机里面提到，内存分段和分页我就找找资料看看到底有什么用，，，，现在还没头绪。

		自动登录	找回密码
密码			注册

学习内存管理---分段、分页

本帖子中包含更多资源

本帖子中包含更多资源