linux应用程序内存分配_linux 查看应用程序分配和占用内存 - CSDN
精华内容
参与话题
  • linux 内存分配机制

    千次阅读 2015-10-28 17:06:23
    这几天在观察apache使用内存情况,所以特意了解了下linux内存机制,发现一篇写得还不错。转来看看。 一般来说在ps aux中看到的rss就是进程所占用的物理内存。但是如果将所有程序的rss加起来的话。会发现比实际的...
    这几天在观察apache使用内存情况,所以特意了解了下linux的内存机制,发现一篇写得还不错。转来看看。
    一般来说在ps aux中看到的rss就是进程所占用的物理内存。但是如果将所有程序的rss加起来的话。会发现比实际的内存还要大很多,这个是由于rss还包括了共享的部分。这个可以通过pmap -d PID来看到具体情况。
    一. 内存使用说明
    Free 命令相对于top 提供了更简洁的查看系统内存使用情况:
    1 [root@rac1 ~]# free
    2 total       used       free     shared    buffers     cache
    3 Mem:       1035108   1008984      26124      0     124212     413000
    4 -/+ buffers/cache:        471772      563336
    5 Swap:       2096472   842320     1254152
    这里显示的单位是KB。
    在linux的内存分配机制中,优先使用物理内存,当物理内存还有空闲时(还够用),不会释放其占用内存,就算占用内存的程序已经被关闭了,该程序所占用的内存用来做缓存使用,对于开启过的程序、或是读取刚存取过得数据会比较快。
    Mem:表示物理内存统计。
    -/+ buffers/cached:表示物理内存的缓存统计
    Swap:表示硬盘上交换分区的使用情况。只有mem被当前进程实际占用完,即没有了buffers和cache时,才会使用到swap。
    Mem 行(第一行)数据说明:
    Total:1035108KB。表示物理内存总大小。
    Used:1008984KB。表示总计分配给缓存(包含buffers 与cache )使用的数量,但其中可能部分缓存并未实际使用。
    Free:26124KB。表示未被分配的内存。
    Shared:0kb。共享内存,一般系统不会用到。
    Buffers:124212KB。系统分配但未被使用的buffers 数量。
    Cached:413000KB。系统分配但未被使用的cache 数量。
    -/+ buffers/cache 行(第二行)数据说明:
    Used:471772kb,实际使用的buffers 与cache 总量,也是实际使用的内存总量。
    Free: 563336kb, 未被使用的buffers 与cache 和未被分配的内存之和,这就是系统当前实际可用内存。
    根据以上分析,可以得出一下结论:
    1.  实际可用内存大小:
    Free(-/+ buffers/cache行)= Free(Mem)+buffers(Mem)+Cached(Mem);
    563336 = 26124 + 124212+ 413000
    2.  已经分配的内存大小:
    Used(Mem) = Used(-/+ buffers/cache)+ buffers(Mem) + Cached(Mem)
    1008984kb = 471772 + 124212 +413000
    3.  物理内存总大小
    total(Mem) = used(-/+ buffers/cache) + free(-/+ buffers/cache)
    1035108 = 471772 + 563336
    二. Swap配置对性能的影响
    分配太多的Swap空间会浪费磁盘空间,而Swap空间太少,则系统会发生错误。 如果系统的物理内存用光了,系统就会跑得很慢,但仍能运行;如果Swap空间用光了,那么系统就会发生错误。例如,Web服务器能根据不同的请求数量衍生 出多个服务进程(或线程),如果Swap空间用完,则服务进程无法启动,通常会出现“application is out of memory”的错误,严重时会造成服务进程的死锁。因此Swap空间的分配是很重要的。
    通常情况下,Swap空间应大于或等于物理内存的大小,最小不应小于64M,通常Swap空间的大小应是物理内存的2-2.5倍。但根据不同的应用,应有 不同的配置:如果是小的桌面系统,则只需要较小的Swap空间,而大的服务器系统则视情况不同需要不同大小的Swap空间。特别是数据库服务器和Web服 务器,随着访问量的增加,对Swap空间的要求也会增加,一般来说对于4G 以下的物理内存,配置2倍的swap,4G 以上配置1倍。
    另外,Swap分区的数量对性能也有很大的影响。因为Swap交换的操作是磁盘IO的操作,如果有多个Swap交换区,Swap空间的分配会以轮流 的方式操作于所有的Swap,这样会大大均衡IO的负载,加快Swap交换的速度。如果只有一个交换区,所有的交换操作会使交换区变得很忙,使系统大多数 时间处于等待状态,效率很低。用性能监视工具就会发现,此时的CPU并不很忙,而系统却慢。这说明,瓶颈在IO上,依靠提高CPU的速度是解决不了问题 的。
    三.  Linux 内存机制
    Linux支持虚拟内存(Virtual Mmemory),虚拟内存是指使用磁盘当作RAM的扩展,这样可用的内存的大小就相应地增大了。内核会将暂时不用的内存块的内容写到硬盘上,这样一来, 这块内存就可用于其它目的。当需要用到原始的内容时,它们被重新读入内存。这些操作对用户来说是完全透明的;Linux下运行的程序只是看到有大量的内存 可供使用而并没有注意到时不时它们的一部分是驻留在硬盘上的。当然,读写硬盘要比直接使用真实内存慢得多(要慢数千倍),所以程序就不会象一直在内存中运 行的那样快。用作虚拟内存的硬盘部分被称为交换空间(Swap Space)。
    一般,在交换空间中的页面首先被换入内存;如果此时没有足够的物理内存来容纳它们又将被交换出来(到其他的交换空间中)。如果没有足够的虚拟内存来容纳所有这些页面,Linux就会波动而不正常;但经过一段较长的时间Linux会恢复,但此时系统已不可用了。
    有 时,尽管有许多的空闲内存,仍然会有许多的交换空间正被使用。这种情况是有可能发生的,例如如果在某一时刻有进行交换的必要,但后来一个占用很多物理内存 的大进程结束并释放内存时。被交换出的数据并不会自动地交换进内存,除非有这个需要时。此时物理内存会在一段时间内保持空闲状态。对此并没有什么可担心 的,但是知道了是怎么一回事,也就无所谓了。
    许多操作系统使用了虚拟内存的方法。因为它们仅在运行时才需要交换空间,以解决不会在同一时间使用交换空间,因此,除了当前正在运行的操作系统的交换空间,其它的就是一种浪费。所以让它们共享一个交换空间将会更有效率。
    注意:如果会有几个人同时使用这个系统,他们都将消耗内存。然而,如果两个人同时运行一个程序,内存消耗的总量并不是翻倍,因为代码页以及共享的库只存在一份。
    Linux系统常常动不动就使用交换空间,以保持尽可能多的空闲物理内存。即使并没有什么事情需要内存,Linux也会交换出暂时不用的内存页面。这可以 避免等待交换所需的时间:当磁盘闲着,就可以提前做好交换。可以将交换空间分散在几个硬盘之上。针对相关磁盘的速度以及对磁盘的访问模式,这样做可以提高 性能。
    与访问物理内存相比,磁盘的读写是很慢的。另外,在相应较短的时间内多次读磁盘同样的部分也是常有的事。例如,某人也许首先阅读了一段E-mail消息, 然后为了答复又将这段消息读入编辑器中,然后又在将这个消息拷贝到文件夹中时,使得邮件程序又一次读入它。或者考虑一下在一个有着许多用户的系统中 ls命令会被使用多少次。通过将信息从磁盘上仅读入一次并将其存于内存中,除了第一次读以外,可以加快所有其它读的速度。这叫作磁盘缓冲(Disk Buffering),被用作此目的的内存称为高速缓冲(Buffer Cache)。但是,由于内存是一种有限而又不充足的资源,高速缓冲不可能做的很大(它不可能包容要用到的所有数据)。当缓冲充满了数据时,其中最长时间 不用的数据将被舍弃以腾出内存空间用于新的数据。
    对写磁盘操作来说磁盘缓冲技术同样有效。一方面,被写入磁盘的数据常常会很快地又被读出(例如,原代码文件被保存到一个文件中,又被编译器读入),所以将 要被写的数据放入缓冲中是个好主意。另一方面,通过将数据放入缓冲中,而不是将其立刻写入磁盘,程序可以加快运行的速度。以后,写的操作可以在后台完成, 而不会拖延程序的执行。
    大多数操作系统都有高速缓冲(尽管可能称呼不同),但是并不是都遵守上面的原理。有些是直接写(Write-Through):数据将被立刻写入磁 盘(当然,数据也被放入缓存中)。如果写操作是在以后做的,那么该缓存被称为后台写(Write-Back)。后台写比直接写更有效,但也容易出错:如果 机器崩溃,或者突然掉电,缓冲中改变过的数据就被丢失了。如果仍未被写入的数据含有重要的薄记信息,这甚至可能意味着文件系统(如果有的话)已不完整。
    针对以上的原因,出现了很多的日志文件系统,数据在缓冲区修改后,同时会被文件系统记录修改信息,这样即使此时系统掉电,系统重启后会首先从日志记录中恢复数据,保证数据不丢失。当然这些问题不再本文的叙述范围。
    由于上述原因,在使用适当的关闭过程之前,绝对不要关掉电源,Sync命令倾空(Flushes)缓冲,也即,强迫所有未被写的数据写入磁盘,可用以确定 所有的写操作都已完成。在传统的UNIX系统中,有一个叫做update的程序运行于后台,每隔30秒做一次sync操作,因此通常无需手工使用sync 命令了。Linux另外有一个后台程序,Bdflush,这个程序执行更频繁的但不是全面的同步操作,以避免有时sync的大量磁盘I/O操作所带来的磁 盘的突然冻结。
    在Linux中,Bdflush是由update启动的。通常没有理由来担心此事,但如果由于某些原因bdflush进程死掉了,内核会对此作出警告,此时你就要手工地启动它了(/sbin/update)。
    缓存(Cache)实际并不是缓冲文件的,而是缓冲块的,块是磁盘I/O操作的最小单元(在Linux中,它们通常是1KB)。 这样,目录、超级块、其它文件系统的薄记数据以及非文件系统的磁盘数据都可以被缓冲了。缓冲的效力主要是由它的大小决定的。缓冲太小的话等于没用。它只能 容纳一点数据,因此在被重用时,所有缓冲的数据都将被倾空。实际的大小依赖于数据读写的频次、相同数据被访问的频率。只有用实验的方法才能知道。
    如果缓存有固定的大小,那么缓存太大了也不好,因为这会使得空闲的内存太小而导致进行交换操作(这同样是慢的)。为了最有效地使用实际内存,Linux自动地使用所有空闲的内存作为高速缓冲,当程序需要更多的内存时,它也会自动地减小缓冲的大小。
    这就是一般情况下Linux内存的一般机制,真正的Linux内存的运行机制远远比这个复杂。
    展开全文
  • 常见的Linux内核中内存分配

    千次阅读 2018-08-07 21:56:09
     Linux内核中采 用了一种同时适用于32位和64位系统的内 存分页模型,对于32位系统来说,两级页表足够用了,而在x86_64系 统中,用到了四级页表,如图2-1所示四级页表分别为:  * 页全局目录(Page Global ...

      1.原理说明

      Linux内核中采 用了一种同时适用于32位和64位系统的内 存分页模型,对于32位系统来说,两级页表足够用了,而在x86_64系 统中,用到了四级页表,如图2-1所示常见的Linux内核中内存分配 - leon - 我的奋斗四级页表分别为:

      * 页全局目录(Page Global Directory)

      * 页上级目录(Page Upper Directory)

      * 页中间目录(Page Middle Directory)

      * 页表(Page Table)

      页全局目录包含若干页上级目录的地址,页上级目录又依次包含若干页中间目录的地址,而页中间目录又包含若干页表的地址,每一个页表项指 向一个页框常见的Linux内核中内存分配 - leon - 我的奋斗Linux中采用4KB大小的 页框作为标准的内存分配单元常见的Linux内核中内存分配 - leon - 我的奋斗

      多级分页目录结构

      1.1.伙伴系统算法

      在实际应用中,经常需要分配一组连续的页框,而频繁地申请和释放不同大小的连续页框,必然导致在已分配页框的内存块中分散了许多小块的 空闲页框常见的Linux内核中内存分配 - leon - 我的奋斗这样,即使这些页框是空闲的,其他需要分配连续页框的应用也很难得到满足常见的Linux内核中内存分配 - leon - 我的奋斗

      为了避免出现这种情况,Linux内核中引入了伙伴系统算法(buddy system)常见的Linux内核中内存分配 - leon - 我的奋斗把所有的空闲页框分组为11个 块链表,每个块链表分别包含大小为1,2,4,8,16,32,64,128,256,512和1024个连续页框的页框块常见的Linux内核中内存分配 - leon - 我的奋斗最大可以申请1024个连 续页框,对应4MB大小的连续内存常见的Linux内核中内存分配 - leon - 我的奋斗每个页框块的第一个页框的物理地址是该块大小的整数倍常见的Linux内核中内存分配 - leon - 我的奋斗

      假设要申请一个256个页框的块,先从256个页框的链表中查找空闲块,如果没有,就去512个 页框的链表中找,找到了则将页框块分为2个256个 页框的块,一个分配给应用,另外一个移到256个页框的链表中常见的Linux内核中内存分配 - leon - 我的奋斗如果512个页框的链表中仍没有空闲块,继续向1024个页 框的链表查找,如果仍然没有,则返回错误常见的Linux内核中内存分配 - leon - 我的奋斗

      页框块在释放时,会主动将两个连续的页框块合并为一个较大的页框块常见的Linux内核中内存分配 - leon - 我的奋斗

      1.2.slab分 配器

      slab分配器源于 Solaris 2.4 的 分配算法,工作于物理内存页框分配器之上,管理特定大小对象的缓存,进行快速而高效的内存分配常见的Linux内核中内存分配 - leon - 我的奋斗

      slab分配器为每种使用的内核对象建立单独的缓冲区常见的Linux内核中内存分配 - leon - 我的奋斗Linux 内核已经采用了伙伴系统管理物理内存页框,因此 slab分配器直接工作于伙伴系 统之上常见的Linux内核中内存分配 - leon - 我的奋斗每种缓冲区由多个 slab 组成,每个 slab就是一组连续的物理内存页框,被划分成了固定数目的对象常见的Linux内核中内存分配 - leon - 我的奋斗根据对象大小的不同,缺省情况下一个 slab 最多可以由 1024个页框构成常见的Linux内核中内存分配 - leon - 我的奋斗出于对齐 等其它方面的要求,slab 中分配给对象的内存可能大于用户要求的对象实际大小,这会造成一定的 内存浪费常见的Linux内核中内存分配 - leon - 我的奋斗

     

    2.常用内存分配函数

      2.1.__get_free_pages

      unsigned long __get_free_pages(gfp_t gfp_mask, unsigned int order)

      __get_free_pages函数是最原始的内存分配方式,直接从伙伴系统中获取原始页框,返回值为第一个页框的起始地址常见的Linux内核中内存分配 - leon - 我的奋斗__get_free_pages在实现上只是封装了alloc_pages函 数,从代码分析,alloc_pages函数会分配长度为1<<order的 连续页框块常见的Linux内核中内存分配 - leon - 我的奋斗order参数的最大值由include/Linux/Mmzone.h文 件中的MAX_ORDER宏决定,在默认的2.6.18内 核版本中,该宏定义为10常见的Linux内核中内存分配 - leon - 我的奋斗也就是说在理论上__get_free_pages函 数一次最多能申请1<<10 * 4KB也就是4MB的 连续物理内存常见的Linux内核中内存分配 - leon - 我的奋斗但是在实际应用中,很可能因为不存在这么大量的连续空闲页框而导致分配失败常见的Linux内核中内存分配 - leon - 我的奋斗测试中,order为10时分配成功,order为11则返回错误常见的Linux内核中内存分配 - leon - 我的奋斗

      2.2.kmem_cache_alloc

      struct kmem_cache *kmem_cache_create(const char *name, size_t size,

      size_t align, unsigned long flags,

      void (*ctor)(void*, struct kmem_cache *, unsigned long),

      void (*dtor)(void*, struct kmem_cache *, unsigned long))

      void *kmem_cache_alloc(struct kmem_cache *c, gfp_t flags)

      kmem_cache_create/ kmem_cache_alloc是基于slab分配器的一种内存分配方式,适用于反复分配释放同一大小内存块的场合常见的Linux内核中内存分配 - leon - 我的奋斗首先用kmem_cache_create创建一个高速缓存区域,然后用kmem_cache_alloc从 该高速缓存区域中获取新的内存块常见的Linux内核中内存分配 - leon - 我的奋斗 kmem_cache_alloc一次能分配的最大内存由mm/slab.c文件中的MAX_OBJ_ORDER宏 定义,在默认的2.6.18内核版本中,该宏定义为5, 于是一次最多能申请1<<5 * 4KB也就是128KB的 连续物理内存常见的Linux内核中内存分配 - leon - 我的奋斗分析内核源码发现,kmem_cache_create函数的size参数大于128KB时会调用BUG()常见的Linux内核中内存分配 - leon - 我的奋斗测试结果验证了分析结果,用kmem_cache_create分 配超过128KB的内存时使内核崩溃常见的Linux内核中内存分配 - leon - 我的奋斗

      2.3.kmalloc

      void *kmalloc(size_t size, gfp_t flags)

      kmalloc是内核中最常用的一种内存分配方式,它通过调用kmem_cache_alloc函 数来实现常见的Linux内核中内存分配 - leon - 我的奋斗kmalloc一次最多能申请的内存大小由include/Linux/Kmalloc_size.h的 内容来决定,在默认的2.6.18内核版本中,kmalloc一 次最多能申请大小为131702B也就是128KB字 节的连续物理内存常见的Linux内核中内存分配 - leon - 我的奋斗测试结果表明,如果试图用kmalloc函数分配大于128KB的内存,编译不能通过常见的Linux内核中内存分配 - leon - 我的奋斗

      2.4.vmalloc

      void *vmalloc(unsigned long size)

      前面几种内存分配方式都是物理连续的,能保证较低的平均访问时间常见的Linux内核中内存分配 - leon - 我的奋斗但是在某些场合中,对内存区的请求不是很频繁,较高的内存访问时间也 可以接受,这是就可以分配一段线性连续,物理不连续的地址,带来的好处是一次可以分配较大块的内存常见的Linux内核中内存分配 - leon - 我的奋斗图3-1表 示的是vmalloc分配的内存使用的地址范围常见的Linux内核中内存分配 - leon - 我的奋斗vmalloc对 一次能分配的内存大小没有明确限制常见的Linux内核中内存分配 - leon - 我的奋斗出于性能考虑,应谨慎使用vmalloc函数常见的Linux内核中内存分配 - leon - 我的奋斗在测试过程中, 最大能一次分配1GB的空间常见的Linux内核中内存分配 - leon - 我的奋斗

      Linux内核部分内存分布

      2.5.dma_alloc_coherent

      void *dma_alloc_coherent(struct device *dev, size_t size,

      ma_addr_t *dma_handle, gfp_t gfp)

      DMA是一种硬件机制,允许外围设备和主存之间直接传输IO数据,而不需要CPU的参与,使用DMA机制能大幅提高与设备通信的 吞吐量常见的Linux内核中内存分配 - leon - 我的奋斗DMA操作中,涉及到CPU高速缓 存和对应的内存数据一致性的问题,必须保证两者的数据一致,在x86_64体系结构中,硬件已经很 好的解决了这个问题, dma_alloc_coherent和__get_free_pages函数实现差别不大,前者实际是调用__alloc_pages函 数来分配内存,因此一次分配内存的大小限制和后者一样常见的Linux内核中内存分配 - leon - 我的奋斗__get_free_pages分配的内 存同样可以用于DMA操作常见的Linux内核中内存分配 - leon - 我的奋斗测试结果证明,dma_alloc_coherent函 数一次能分配的最大内存也为4M常见的Linux内核中内存分配 - leon - 我的奋斗

      2.6.ioremap

      void * ioremap (unsigned long offset, unsigned long size)

      ioremap是一种更直接的内存“分配”方式,使用时直接指定物理起始地址和需要分配内存的大小,然后将该段 物理地址映射到内核地址空间常见的Linux内核中内存分配 - leon - 我的奋斗ioremap用到的物理地址空间都是事先确定的,和上面的几种内存 分配方式并不太一样,并不是分配一段新的物理内存常见的Linux内核中内存分配 - leon - 我的奋斗ioremap多用于设备驱动,可以让CPU直接访问外部设备的IO空间常见的Linux内核中内存分配 - leon - 我的奋斗ioremap能映射的内存由原有的物理内存空间决定,所以没有进行测试常见的Linux内核中内存分配 - leon - 我的奋斗

      2.7.Boot Memory

      如果要分配大量的连续物理内存,上述的分配函数都不能满足,就只能用比较特殊的方式,在Linux内 核引导阶段来预留部分内存常见的Linux内核中内存分配 - leon - 我的奋斗

      2.7.1.在内核引导时分配内存

      void* alloc_bootmem(unsigned long size)

      可以在Linux内核引导过程中绕过伙伴系统来分配大块内存常见的Linux内核中内存分配 - leon - 我的奋斗使用方法是在Linux内核引导时,调用mem_init函数之前 用alloc_bootmem函数申请指定大小的内存常见的Linux内核中内存分配 - leon - 我的奋斗如果需要在其他地方调用这块内存,可以将alloc_bootmem返回的内存首地址通过EXPORT_SYMBOL导 出,然后就可以使用这块内存了常见的Linux内核中内存分配 - leon - 我的奋斗这种内存分配方式的缺点是,申请内存的代码必须在链接到内核中的代码里才能使用,因此必须重新编译内核,而且内存管理系统 看不到这部分内存,需要用户自行管理常见的Linux内核中内存分配 - leon - 我的奋斗测试结果表明,重新编译内核后重启,能够访问引导时分配的内存块常见的Linux内核中内存分配 - leon - 我的奋斗

      2.7.2.通过内核引导参数预留顶部内存

      在Linux内核引导时,传入参数“mem=size”保留顶部的内存区间常见的Linux内核中内存分配 - leon - 我的奋斗比如系统有256MB内 存,参数“mem=248M”会预留顶部的8MB内存,进入系统后可以调用ioremap(0xF800000,0x800000)来申请这段内存常见的Linux内核中内存分配 - leon - 我的奋斗

      3.几种分配函数的比较

     

    1.kmalloc

       kmalloc内存分配和malloc相似,除非被阻塞否则他执行的速度非常快,而且不对获得空间清零.

    说明:在用kmalloc申请函数后,要清零用memset()函数对申请的内存进行清零。

     

    2.kamlloc函数原型:

    #include

    Void *kmalloc(size_t size, int flags);

    (1)第一个参数是要分配的块的大小

    (2)第二个参数是分配标志(flags),他提供了多种kmalloc的行为。

    (3)第三个最常用的GFP_KERNEL;
     

    A.表示内存分配(最终总是调用get_free_pages来实现实际的分配;这就是GFP前缀的由来)是代表运行在内核空间的进程执行的。使用GFP_KERNEL容许kmalloc在分配空闲内存时候如果内存不足容许把当前进程睡眠以等待。因此这时分配函数必须是可重入的。如果在进程上下文之外如:中断处理程序、tasklet以及内核定时器中这种情况下current进程不该睡眠,驱动程序该使用GFP_ATOMIC.

    B.GFP_ATOMIC

    用来从中断处理和进程上下文之外的其他代码中分配内存. 从不睡眠.

    C.GFP_KERNEL

    内核内存的正常分配. 可能睡眠.

    D.GFP_USER

    用来为用户空间页来分配内存; 它可能睡眠.

    E.GFP_HIGHUSER

    如同 GFP_USER, 但是从高端内存分配, 如果有. 高端内存在下一个子节描述.

    F.GFP_NOFS,GFP_NOIO

    这个标志功能如同 GFP_KERNEL, 但是它们增加限制到内核能做的来满足请求. 一个 GFP_NOFS 分配不允许进行任何文件系统调用, 而 GFP_NOIO 根本不允许任何 I/O 初始化. 它们主要地用在文件系统和虚拟内存代码, 那里允许一个分配睡眠, 但是递归的文件系统调用会是一个坏注意.

    上面列出的这些分配标志可以是下列标志的相或来作为参数, 这些标志改变这些分配如何进行:

    __GFP_DMA

    这个标志要求分配在能够 DMA 的内存区. 确切的含义是平台依赖的并且在下面章节来解释.

    __GFP_HIGHMEM

    这个标志指示分配的内存可以位于高端内存.

    __GFP_COLD

    正常地, 内存分配器尽力返回\"缓冲热\"的页 -- 可能在处理器缓冲中找到的页. 相反, 这个标志请求一个\"冷\"页, 它在一段时间没被使用. 它对分配页作 DMA 读是有用的, 此时在处理器缓冲中出现是无用的. 一个完整的对如何分配 DMA 缓存的讨论看\"直接内存存取\"一节在第 1 章.

    __GFP_NOWARN

    这个很少用到的标志阻止内核来发出警告(使用 printk ), 当一个分配无法满足.

    __GFP_HIGH

    这个标志标识了一个高优先级请求, 它被允许来消耗甚至被内核保留给紧急状况的最后的内存页.

    __GFP_REPEAT

    __GFP_NOFAIL

    __GFP_NORETRY

    这些标志修改分配器如何动作, 当它有困难满足一个分配. __GFP_REPEAT 意思是\" 更尽力些尝试\" 通过重复尝试 -- 但是分配可能仍然失败. __GFP_NOFAIL 标志告诉分配器不要失败; 它尽最大努力来满足要求. 使用 __GFP_NOFAIL 是强烈不推荐的; 可能从不会有有效的理由在一个设备驱动中使用它. 最后, __GFP_NORETRY 告知分配器立即放弃如果得不到请求的内存.

    Ø  内存区段

         __GFP_DMA和__GFP_HIGHMEM的使用与平台相关,Linux把内存分成3个区段:可用于DMA的内存、常规内存、以及高端内存。X86平台上ISA设备DMA区段是内存的前16MB,而PCI设备无此限制。

    内存区后面的机制在 mm/page_alloc.c 中实现, 而内存区的初始化在平台特定的文件中, 常常在 arch 目录树的 mm/init.c。

    3.kamlloc的使用方法:

         Linux 处理内存分配通过创建一套固定大小的内存对象池. 分配请求被这样来处理, 进入一个持有足够大的对象的池子并且将整个内存块递交给请求者. 驱动开发者应当记住的一件事情是, 内核只能分配某些预定义的, 固定大小的字节数组.

    如果你请求一个任意数量内存, 你可能得到稍微多于你请求的, 至多是 2 倍数量. 同样, 程序员应当记住 kmalloc 能够处理的最小分配是 32 或者 64 字节, 依赖系统的体系所使用的页大小. kmalloc 能够分配的内存块的大小有一个上限. 这个限制随着体系和内核配置选项而变化. 如果你的代码是要完全可移植, 它不能指望可以分配任何大于 128 KB. 如果你需要多于几个 KB, 但是, 有个比 kmalloc 更好的方法来获得内存。在设备驱动程序或者内核模块中动态开辟内存,不是用malloc,而是kmalloc ,vmalloc,或者用get_free_pages直接申请页。释放内存用的是kfree,vfree,或free_pages. kmalloc函数返回的是虚拟地址(线性地址). kmalloc特殊之处在于它分配的内存是物理上连续的,这对于要进行DMA的设备十分重要. 而用vmalloc分配的内存只是线性地址连续,物理地址不一定连续,不能直接用于DMA.

      注意kmalloc最大只能开辟128k-16,16个字节是被页描述符结构占用了。

      内存映射的I/O口,寄存器或者是硬件设备的RAM(如显存)一般占用F0000000以上的地址空间。在驱动程序中不能直接访问,要通过kernel函数vremap获得重新映射以后的地址。

      另外,很多硬件需要一块比较大的连续内存用作DMA传送。这块内存需要一直驻留在内存,不能被交换到文件中去。但是kmalloc最多只能开辟大小为32XPAGE_SIZE的内存,一般的PAGE_SIZE=4kB,也就是128kB的大小的内存。

    3.kmalloc和vmalloc的区别

    • vmalloc()与 kmalloc()都可用于分配内存

    • kmalloc()分配的内存处于3GB~high_memory之 间,这段内核空间与物理内存的映射一一对应

    •vmalloc()分配的内存在 VMALLOC_START~4GB之间,这段非连续内 存区映射到物理内存也可能是非连续的

    • 在内核空间中调用kmalloc()分配连续物理空间,而调用vmalloc()分配非物理连续空间。

    • 把kmalloc()所分配内核空间中的地址称为内核逻辑地址

    • 把vmalloc()分配的内核空间中的地址称 为内核虚拟地址

    • vmalloc()在分配过程中须更新内核页表

    总结:

    1.kmalloc和vmalloc分配的是内核的内存,malloc分配的是用户的内存

    2.kmalloc保证分配的内存在物理上是连续的, kmalloc()分配的内存在0xBFFFFFFF-0xFFFFFFFF以上的内存中,driver一般是用它来完成对DS的分配,更适合于类似设备驱动的程序来使用;

    3.vmalloc保证的是在虚拟地址空间上的连续,vmalloc()则是位于物理地址非连续,虚地址连续区,起始位置由VMALLOL_START来决定,一般作为交换区、模块的分配。

    3.kmalloc能分配的大小有限,vmalloc和malloc能分配的大小相对较大(因为vmalloc还可以处理交换空间)。

    4.内存只有在要被DMA访问的时候才需要物理上连续,vmalloc比kmalloc要慢

    5.vmalloc使用的正确场合是分配一大块,连续的,只在软件中存在的,用于缓冲的内存区域。不能在微处理器之外使用。

    6.vmalloc 中调用了 kmalloc (GFP—KERNEL),因此也不能应用于原子上下文。

    7.kmalloc和 kfree管理内核段内分配的内存,这是真实地址已知的实际物理内存块。

    8.vmalloc对应于vfree,分配连续的虚拟内存,但是物理上不一定连续。
    9.kmalloc分配内存是基于slab,因此slab的一些特性包括着色,对齐等都具备,性能较好。物理地址和逻辑地址都是连续的

    展开全文
  • Linux 应用程序在被内核调入内存中运行后就成为一个进程,因此分析应用程序的地址空间实际上就是分析进程的地址空间分布。 应用程序的地址空间实际上由以下几个部分组成:代码段、初始化数据段、未初始化数据段(bss...

     (1)内存组成



     (2)内存布局


     Linux所有应用程序都是从0x80480000开始,

    其中0x80480000是一个虚拟地址


     1)下面来测试一下应用程序的地址分布

    #include <stdio.h>
    #include <stdlib.h>

    int global_init_a=1; //全局的,初始化的变量 : 数据段
    int global_uninit_a; //全局的,没有初始化的变量 : 数据段
    static int static_global_init_a = 1; //全局的,静态的,初始化的变量 : 数据段
    static int static_global_uninit_a; //全局的,静态的,未初始化的变量 : 数据段
    const int const_global_a = 1; //全局的,常量 : 代码段

    int global_init_b=1; //全局的,初始化的变量 : 数据段
    int global_uninit_b; //全局的,没有初始化的变量 : 数据段
    static int static_global_init_b = 1; //全局的,静态的,初始化的变量 : 数据段
    static int static_global_uninit_b; //全局的,静态的,未初始化的变量 : 数据段
    const int const_global_b = 1; //全局的,常量 : 代码段

    int main(void)
    {
    int local_init_a=1;//局部的,初始化的变量  : 栈
    int local_uninit_a;//局部的,没有初始化的变量 : 栈
    static int static_local_init_a = 1; //局部的,静态的,初始化的变量 : 数据段
    static int static_local_uninit_a; //局部的,静态的,未初始化的变量 : 数据段
    const int const_local_a = 1; //局部的,常量 : 栈

    int local_init_b=1;//局部的,初始化的变量 : 栈
    int local_uninit_b;//局部的,没有初始化的变量 : 栈
    static int static_local_init_b = 1; //局部的,静态的,初始化的变量 : 数据段
    static int static_local_uninit_b; //局部的,静态的,未初始化的变量 : 数据段
    const int const_local_b = 1; //局部的,常量 : 栈

    int * malloc_p_a;//局部的,指针
    malloc_p_a=malloc(sizeof(int)); //通过malloc分配得到的,局部 : 堆

    printf(“&global_init_a=%p, global_init_a=%d\n”,&global_init_a,global_init_a);
    printf(“&global_uninit_a=%p, global_uninit_a=%d\n”,&global_uninit_a,global_uninit_a);
    printf(“&static_global_init_a=%p, static_global_init_a=%d\n”,&static_global_init_a,static_global_init_a);
    printf(“&static_global_uninit_a=%p, static_global_uninit_a=%d\n”,&static_global_uninit_a,static_global_uninit_a);
    printf(“&const_global_a=%p, const_global_a=%d\n”,&const_global_a,const_global_a);

    printf(“&global_init_b=%p, global_init_b=%d\n”,&global_init_b,global_init_b);
    printf(“&global_uninit_b=%p, global_uninit_b=%d\n”,&global_uninit_b,global_uninit_b);
    printf(“&static_global_init_b=%p, static_global_init_b=%d\n”,&static_global_init_b,static_global_init_b);
    printf(“&static_global_uninit_b=%p, static_global_uninit_b=%d\n”,&static_global_uninit_b,static_global_uninit_b);
    printf(“&const_global_b=%p, const_global_b=%d\n”,&const_global_b,const_global_b);

    printf(“&local_init_a=%p, local_init_a=%d\n”,&local_init_a,local_init_a);
    printf(“&local_uninit_a=%p, local_uninit_a=%d\n”,&local_uninit_a,local_uninit_a);
    printf(“&static_local_init_a=%p, static_local_init_a=%d\n”,&static_local_init_a,static_local_init_a);
    printf(“&static_local_uninit_a=%p, static_local_uninit_a=%d\n”,&static_local_uninit_a,static_local_uninit_a);
    printf(“&const_local_a=%p, const_local_a=%d\n”,&const_local_a,const_local_a);

    printf(“&local_init_b=%p, local_init_b=%d\n”,&local_init_b,local_init_b);
    printf(“&local_uninit_b=%p, local_uninit_b=%d\n”,&local_uninit_b,local_uninit_b);
    printf(“&static_local_init_b=%p, static_local_init_b=%d\n”,&static_local_init_b,static_local_init_b);
    printf(“&static_local_uninit_b=%p, static_local_uninit_b=%d\n”,&static_local_uninit_b,static_local_uninit_b);
    printf(“&const_local_b=%p, const_local_b=%d\n”,&const_local_b,const_local_b);

    printf(“malloc_p_a=%p, malloc_p_a=%d\n”,malloc_p_a,*malloc_p_a);

    while(1)
    ;

    return 0;
    }

     2) 编译并运行程序,这里不过多介绍


     3) 另开起一个终端

         ps -axu 查看系统所有进程,找到我们刚才运行的程序./addr

         cat /proc/进程PID/maps 查看内存分布情况

     结果如下:



    两张图的地址段对比就可以知道程序中的变量在内存中如何存放的!

    已经将对比的结果写到程序的注释中了.

     

    4)BSS段去哪里了?

       1>首先查看程序的格式 file addr

    由此可知应用程序addr是elf属性的文件

        2> 使用readelf -S addr 来查看bss的地址段


     由此可知BSS(未初始化的数据段):

    全局未初始化的变量(静态的,非静态的)

    局部未初始化的变量(静态的)

    另一种方法:(就是麻烦点微笑)

    先判断出所有变量的分布,再找出未初始化的数据段的变量,即属于BSS段


     5) 总结:

      5. BSS段: 

    全局未初始化的变量(静态的,非静态的)

    局部未初始化的变量(静态的)







    展开全文
  • Linux内存管理(最透彻的一篇)

    万次阅读 多人点赞 2018-07-27 17:46:02
    摘要:本章首先以应用程序开发者的角度审视Linux的进程内存管理,在此基础上逐步深入到内核中讨论系统物理内存管理和内核内存的使用方法。力求从外到内、水到渠成地引导网友分析Linux内存管理与使用。在本章最后,...

    摘要:本章首先以应用程序开发者的角度审视Linux的进程内存管理,在此基础上逐步深入到内核中讨论系统物理内存管理和内核内存的使用方法。力求从外到内、水到渠成地引导网友分析Linux的内存管理与使用。在本章最后,我们给出一个内存映射的实例,帮助网友们理解内核内存管理与用户内存管理之间的关系,希望大家最终能驾驭Linux内存管理。

    前言

    内存管理一向是所有操作系统书籍不惜笔墨重点讨论的内容,无论市面上或是网上都充斥着大量涉及内存管理的教材和资料。因此,我们这里所要写的Linux内存管理采取避重就轻的策略,从理论层面就不去班门弄斧,贻笑大方了。我们最想做的和可能做到的是从开发者的角度谈谈对内存管理的理解,最终目的是把我们在内核开发中使用内存的经验和对Linux内存管理的认识与大家共享。

    当然,这其中我们也会涉及到一些诸如段页等内存管理的基本理论,但我们的目的不是为了强调理论,而是为了指导理解开发中的实践,所以仅仅点到为止,不做深究。

    遵循“理论来源于实践”的“教条”,我们先不必一下子就钻入内核里去看系统内存到底是如何管理,那样往往会让你陷入似懂非懂的窘境(我当年就犯了这个错误!)。所以最好的方式是先从外部(用户编程范畴)来观察进程如何使用内存,等到大家对内存的使用有了较直观的认识后,再深入到内核中去学习内存如何被管理等理论知识。最后再通过一个实例编程将所讲内容融会贯通。

    进程与内存

    进程如何使用内存?

    毫无疑问,所有进程(执行的程序)都必须占用一定数量的内存,它或是用来存放从磁盘载入的程序代码,或是存放取自用户输入的数据等等。不过进程对这些内存的管理方式因内存用途不一而不尽相同,有些内存是事先静态分配和统一回收的,而有些却是按需要动态分配和回收的。

    对任何一个普通进程来讲,它都会涉及到5种不同的数据段。稍有编程知识的朋友都能想到这几个数据段中包含有“程序代码段”、“程序数据段”、“程序堆栈段”等。不错,这几种数据段都在其中,但除了以上几种数据段之外,进程还另外包含两种数据段。下面我们来简单归纳一下进程对应的内存空间中所包含的5种不同的数据区。

    代码段:代码段是用来存放可执行文件的操作指令,也就是说是它是可执行程序在内存中的镜像。代码段需要防止在运行时被非法修改,所以只准许读取操作,而不允许写入(修改)操作——它是不可写的。

    数据段:数据段用来存放可执行文件中已初始化全局变量,换句话说就是存放程序静态分配[1]的变量和全局变量。

    BSS段[2]:BSS段包含了程序中未初始化的全局变量,在内存中 bss段全部置零。

    堆(heap):堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张);当利用free等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)

    :栈是用户存放程序临时创建的局部变量,也就是说我们函数括弧“{}”中定义的变量(但不包括static声明的变量,static意味着在数据段中存放变量)。除此以外,在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。由于栈的先进先出特点,所以栈特别方便用来保存/恢复调用现场。从这个意义上讲,我们可以把堆栈看成一个寄存、交换临时数据的内存区。

    进程如何组织这些区域?

    上述几种内存区域中数据段、BSS和堆通常是被连续存储的——内存位置上是连续的,而代码段和栈往往会被独立存放。有趣的是,堆和栈两个区域关系很“暧昧”,他们一个向下“长”(i386体系结构中栈向下、堆向上),一个向上“长”,相对而生。但你不必担心他们会碰头,因为他们之间间隔很大(到底大到多少,你可以从下面的例子程序计算一下),绝少有机会能碰到一起。

    下图简要描述了进程内存区域的分布:

    “事实胜于雄辩”,我们用一个小例子(原形取自《User-Level Memory Management》)来展示上面所讲的各种内存区的差别与位置。

    #include<stdio.h>

    #include<malloc.h>

    #include<unistd.h>

    int bss_var;

    int data_var0=1;

    int main(int argc,char **argv)

    {

      printf("below are addresses of types of process's mem\n");

      printf("Text location:\n");

      printf("\tAddress of main(Code Segment):%p\n",main);

      printf("____________________________\n");

      int stack_var0=2;

      printf("Stack Location:\n");

      printf("\tInitial end of stack:%p\n",&stack_var0);

      int stack_var1=3;

      printf("\tnew end of stack:%p\n",&stack_var1);

      printf("____________________________\n");

      printf("Data Location:\n");

      printf("\tAddress of data_var(Data Segment):%p\n",&data_var0);

      static int data_var1=4;

      printf("\tNew end of data_var(Data Segment):%p\n",&data_var1);

      printf("____________________________\n");

      printf("BSS Location:\n");

      printf("\tAddress of bss_var:%p\n",&bss_var);

      printf("____________________________\n");

      char *b = sbrk((ptrdiff_t)0);

      printf("Heap Location:\n");

      printf("\tInitial end of heap:%p\n",b);

      brk(b+4);

      b=sbrk((ptrdiff_t)0);

      printf("\tNew end of heap:%p\n",b);

    return 0;

     }

    它的结果如下

    below are addresses of types of process's mem

    Text location:

       Address of main(Code Segment):0x8048388

    ____________________________

    Stack Location:

       Initial end of stack:0xbffffab4

       new end of stack:0xbffffab0

    ____________________________

    Data Location:

       Address of data_var(Data Segment):0x8049758

       New end of data_var(Data Segment):0x804975c

    ____________________________

    BSS Location:

       Address of bss_var:0x8049864

    ____________________________

    Heap Location:

       Initial end of heap:0x8049868

       New end of heap:0x804986c

    利用size命令也可以看到程序的各段大小,比如执行size example会得到

    text data bss dec hex filename

    1654 280   8 1942 796 example

    但这些数据是程序编译的静态统计,而上面显示的是进程运行时的动态值,但两者是对应的。

     

    通过前面的例子,我们对进程使用的逻辑内存分布已先睹为快。这部分我们就继续进入操作系统内核看看,进程对内存具体是如何进行分配和管理的。

    从用户向内核看,所使用的内存表象形式会依次经历“逻辑地址”——“线性地址”——“物理地址”几种形式(关于几种地址的解释在前面已经讲述了)。逻辑地址经段机制转化成线性地址;线性地址又经过页机制转化为物理地址。(但是我们要知道Linux系统虽然保留了段机制,但是将所有程序的段地址都定死为0-4G,所以虽然逻辑地址和线性地址是两种不同的地址空间,但在Linux中逻辑地址就等于线性地址,它们的值是一样的)。沿着这条线索,我们所研究的主要问题也就集中在下面几个问题。

    1.     进程空间地址如何管理?

    2.     进程地址如何映射到物理内存?

    3.     物理内存如何被管理?

    以及由上述问题引发的一些子问题。如系统虚拟地址分布;内存分配接口;连续内存分配与非连续内存分配等。

     

    进程内存空间

    Linux操作系统采用虚拟内存管理技术,使得每个进程都有各自互不干涉的进程地址空间。该空间是块大小为4G的线性虚拟空间,用户所看到和接触到的都是该虚拟地址,无法看到实际的物理内存地址。利用这种虚拟地址不但能起到保护操作系统的效果(用户不能直接访问物理内存),而且更重要的是,用户程序可使用比实际物理内存更大的地址空间(具体的原因请看硬件基础部分)。

    在讨论进程空间细节前,这里先要澄清下面几个问题:

    l         第一、4G的进程地址空间被人为的分为两个部分——用户空间与内核空间。用户空间从0到3G(0xC0000000),内核空间占据3G到4G。用户进程通常情况下只能访问用户空间的虚拟地址,不能访问内核空间虚拟地址。只有用户进程进行系统调用(代表用户进程在内核态执行)等时刻可以访问到内核空间。

    l         第二、用户空间对应进程,所以每当进程切换,用户空间就会跟着变化;而内核空间是由内核负责映射,它并不会跟着进程改变,是固定的。内核空间地址有自己对应的页表(init_mm.pgd),用户进程各自有不同的页表。

    l         第三、每个进程的用户空间都是完全独立、互不相干的。不信的话,你可以把上面的程序同时运行10次(当然为了同时运行,让它们在返回前一同睡眠100秒吧),你会看到10个进程占用的线性地址一模一样。

     

    进程内存管理

    进程内存管理的对象是进程线性地址空间上的内存镜像,这些内存镜像其实就是进程使用的虚拟内存区域(memory region)。进程虚拟空间是个32或64位的“平坦”(独立的连续区间)地址空间(空间的具体大小取决于体系结构)。要统一管理这么大的平坦空间可绝非易事,为了方便管理,虚拟空间被划分为许多大小可变的(但必须是4096的倍数)内存区域,这些区域在进程线性地址中像停车位一样有序排列。这些区域的划分原则是“将访问属性一致的地址空间存放在一起”,所谓访问属性在这里无非指的是“可读、可写、可执行等”。

    如果你要查看某个进程占用的内存区域,可以使用命令cat /proc/<pid>/maps获得(pid是进程号,你可以运行上面我们给出的例子——./example &;pid便会打印到屏幕),你可以发现很多类似于下面的数字信息。

    由于程序example使用了动态库,所以除了example本身使用的的内存区域外,还会包含那些动态库使用的内存区域(区域顺序是:代码段、数据段、bss段)。

    我们下面只抽出和example有关的信息,除了前两行代表的代码段和数据段外,最后一行是进程使用的栈空间。

    -------------------------------------------------------------------------------

    08048000 - 08049000 r-xp 00000000 03:03 439029                               /home/mm/src/example

    08049000 - 0804a000 rw-p 00000000 03:03 439029                               /home/mm/src/example

    ……………

    bfffe000 - c0000000 rwxp ffff000 00:00 0

    ----------------------------------------------------------------------------------------------------------------------

    每行数据格式如下:

    (内存区域)开始-结束 访问权限  偏移  主设备号:次设备号 i节点  文件。

    注意,你一定会发现进程空间只包含三个内存区域,似乎没有上面所提到的堆、bss等,其实并非如此,程序内存段和进程地址空间中的内存区域是种模糊对应,也就是说,堆、bss、数据段(初始化过的)都在进程空间中由数据段内存区域表示。

     

    在Linux内核中对应进程内存区域的数据结构是: vm_area_struct, 内核将每个内存区域作为一个单独的内存对象管理,相应的操作也都一致。采用面向对象方法使VMA结构体可以代表多种类型的内存区域--比如内存映射文件或进程的用户空间栈等,对这些区域的操作也都不尽相同。

    vm_area_strcut结构比较复杂,关于它的详细结构请参阅相关资料。我们这里只对它的组织方法做一点补充说明。vm_area_struct是描述进程地址空间的基本管理单元,对于一个进程来说往往需要多个内存区域来描述它的虚拟空间,如何关联这些不同的内存区域呢?大家可能都会想到使用链表,的确vm_area_struct结构确实是以链表形式链接,不过为了方便查找,内核又以红黑树(以前的内核使用平衡树)的形式组织内存区域,以便降低搜索耗时。并存的两种组织形式,并非冗余:链表用于需要遍历全部节点的时候用,而红黑树适用于在地址空间中定位特定内存区域的时候。内核为了内存区域上的各种不同操作都能获得高性能,所以同时使用了这两种数据结构。

    下图反映了进程地址空间的管理模型:

    进程的地址空间对应的描述结构是“内存描述符结构”,它表示进程的全部地址空间,——包含了和进程地址空间有关的全部信息,其中当然包含进程的内存区域。

    进程内存的分配与回收

    创建进程fork()、程序载入execve()、映射文件mmap()、动态内存分配malloc()/brk()等进程相关操作都需要分配内存给进程。不过这时进程申请和获得的还不是实际内存,而是虚拟内存,准确的说是“内存区域”。进程对内存区域的分配最终都会归结到do_mmap()函数上来(brk调用被单独以系统调用实现,不用do_mmap()),

    内核使用do_mmap()函数创建一个新的线性地址区间。但是说该函数创建了一个新VMA并不非常准确,因为如果创建的地址区间和一个已经存在的地址区间相邻,并且它们具有相同的访问权限的话,那么两个区间将合并为一个。如果不能合并,那么就确实需要创建一个新的VMA了。但无论哪种情况, do_mmap()函数都会将一个地址区间加入到进程的地址空间中--无论是扩展已存在的内存区域还是创建一个新的区域。

    同样,释放一个内存区域应使用函数do_ummap(),它会销毁对应的内存区域。

    如何由虚变实!

        从上面已经看到进程所能直接操作的地址都为虚拟地址。当进程需要内存时,从内核获得的仅仅是虚拟的内存区域,而不是实际的物理地址,进程并没有获得物理内存(物理页面——页的概念请大家参考硬件基础一章),获得的仅仅是对一个新的线性地址区间的使用权。实际的物理内存只有当进程真的去访问新获取的虚拟地址时,才会由“请求页机制”产生“缺页”异常,从而进入分配实际页面的例程。

    该异常是虚拟内存机制赖以存在的基本保证——它会告诉内核去真正为进程分配物理页,并建立对应的页表,这之后虚拟地址才实实在在地映射到了系统的物理内存上。(当然,如果页被换出到磁盘,也会产生缺页异常,不过这时不用再建立页表了)

    这种请求页机制把页面的分配推迟到不能再推迟为止,并不急于把所有的事情都一次做完(这种思想有点像设计模式中的代理模式(proxy))。之所以能这么做是利用了内存访问的“局部性原理”,请求页带来的好处是节约了空闲内存,提高了系统的吞吐率。要想更清楚地了解请求页机制,可以看看《深入理解linux内核》一书。

    这里我们需要说明在内存区域结构上的nopage操作。当访问的进程虚拟内存并未真正分配页面时,该操作便被调用来分配实际的物理页,并为该页建立页表项。在最后的例子中我们会演示如何使用该方法。

     

     

    系统物理内存管理 

    虽然应用程序操作的对象是映射到物理内存之上的虚拟内存,但是处理器直接操作的却是物理内存。所以当应用程序访问一个虚拟地址时,首先必须将虚拟地址转化成物理地址,然后处理器才能解析地址访问请求。地址的转换工作需要通过查询页表才能完成,概括地讲,地址转换需要将虚拟地址分段,使每段虚地址都作为一个索引指向页表,而页表项则指向下一级别的页表或者指向最终的物理页面。

    每个进程都有自己的页表。进程描述符的pgd域指向的就是进程的页全局目录。下面我们借用《linux设备驱动程序》中的一幅图大致看看进程地址空间到物理页之间的转换关系。

     

     

         上面的过程说起来简单,做起来难呀。因为在虚拟地址映射到页之前必须先分配物理页——也就是说必须先从内核中获取空闲页,并建立页表。下面我们介绍一下内核管理物理内存的机制。

     

    物理内存管理(页管理)

    Linux内核管理物理内存是通过分页机制实现的,它将整个内存划分成无数个4k(在i386体系结构中)大小的页,从而分配和回收内存的基本单位便是内存页了。利用分页管理有助于灵活分配内存地址,因为分配时不必要求必须有大块的连续内存[3],系统可以东一页、西一页的凑出所需要的内存供进程使用。虽然如此,但是实际上系统使用内存时还是倾向于分配连续的内存块,因为分配连续内存时,页表不需要更改,因此能降低TLB的刷新率(频繁刷新会在很大程度上降低访问速度)。

    鉴于上述需求,内核分配物理页面时为了尽量减少不连续情况,采用了“伙伴”关系来管理空闲页面。伙伴关系分配算法大家应该不陌生——几乎所有操作系统方面的书都会提到,我们不去详细说它了,如果不明白可以参看有关资料。这里只需要大家明白Linux中空闲页面的组织和管理利用了伙伴关系,因此空闲页面分配时也需要遵循伙伴关系,最小单位只能是2的幂倍页面大小。内核中分配空闲页面的基本函数是get_free_page/get_free_pages,它们或是分配单页或是分配指定的页面(2、4、8…512页)。

     注意:get_free_page是在内核中分配内存,不同于malloc在用户空间中分配,malloc利用堆动态分配,实际上是调用brk()系统调用,该调用的作用是扩大或缩小进程堆空间(它会修改进程的brk域)。如果现有的内存区域不够容纳堆空间,则会以页面大小的倍数为单位,扩张或收缩对应的内存区域,但brk值并非以页面大小为倍数修改,而是按实际请求修改。因此Malloc在用户空间分配内存可以以字节为单位分配,但内核在内部仍然会是以页为单位分配的。

       另外,需要提及的是,物理页在系统中由页结构struct page描述,系统中所有的页面都存储在数组mem_map[]中,可以通过该数组找到系统中的每一页(空闲或非空闲)。而其中的空闲页面则可由上述提到的以伙伴关系组织的空闲页链表(free_area[MAX_ORDER])来索引。

     

    文本框: 伙伴关系维护

    内核内存使用

    Slab

        所谓尺有所长,寸有所短。以页为最小单位分配内存对于内核管理系统中的物理内存来说的确比较方便,但内核自身最常使用的内存却往往是很小(远远小于一页)的内存块——比如存放文件描述符、进程描述符、虚拟内存区域描述符等行为所需的内存都不足一页。这些用来存放描述符的内存相比页面而言,就好比是面包屑与面包。一个整页中可以聚集多个这些小块内存;而且这些小块内存块也和面包屑一样频繁地生成/销毁。

      为了满足内核对这种小内存块的需要,Linux系统采用了一种被称为slab分配器的技术。Slab分配器的实现相当复杂,但原理不难,其核心思想就是“存储池[4]”的运用。内存片段(小块内存)被看作对象,当被使用完后,并不直接释放而是被缓存到“存储池”里,留做下次使用,这无疑避免了频繁创建与销毁对象所带来的额外负载。

    Slab技术不但避免了内存内部分片(下文将解释)带来的不便(引入Slab分配器的主要目的是为了减少对伙伴系统分配算法的调用次数——频繁分配和回收必然会导致内存碎片——难以找到大块连续的可用内存),而且可以很好地利用硬件缓存提高访问速度。

        Slab并非是脱离伙伴关系而独立存在的一种内存分配方式,slab仍然是建立在页面基础之上,换句话说,Slab将页面(来自于伙伴关系管理的空闲页面链表)撕碎成众多小内存块以供分配,slab中的对象分配和销毁使用kmem_cache_alloc与kmem_cache_free。

     

    Kmalloc

    Slab分配器不仅仅只用来存放内核专用的结构体,它还被用来处理内核对小块内存的请求。当然鉴于Slab分配器的特点,一般来说内核程序中对小于一页的小块内存的请求才通过Slab分配器提供的接口Kmalloc来完成(虽然它可分配32 到131072字节的内存)。从内核内存分配的角度来讲,kmalloc可被看成是get_free_page(s)的一个有效补充,内存分配粒度更灵活了。

    有兴趣的话,可以到/proc/slabinfo中找到内核执行现场使用的各种slab信息统计,其中你会看到系统中所有slab的使用信息。从信息中可以看到系统中除了专用结构体使用的slab外,还存在大量为Kmalloc而准备的Slab(其中有些为dma准备的)。

     

    内核非连续内存分配(Vmalloc)

     

    伙伴关系也好、slab技术也好,从内存管理理论角度而言目的基本是一致的,它们都是为了防止“分片”,不过分片又分为外部分片和内部分片之说,所谓内部分片是说系统为了满足一小段内存区(连续)的需要,不得不分配了一大区域连续内存给它,从而造成了空间浪费;外部分片是指系统虽有足够的内存,但却是分散的碎片,无法满足对大块“连续内存”的需求。无论何种分片都是系统有效利用内存的障碍。slab分配器使得一个页面内包含的众多小块内存可独立被分配使用,避免了内部分片,节约了空闲内存。伙伴关系把内存块按大小分组管理,一定程度上减轻了外部分片的危害,因为页框分配不在盲目,而是按照大小依次有序进行,不过伙伴关系只是减轻了外部分片,但并未彻底消除。你自己比划一下多次分配页面后,空闲内存的剩余情况吧。

    所以避免外部分片的最终思路还是落到了如何利用不连续的内存块组合成“看起来很大的内存块”——这里的情况很类似于用户空间分配虚拟内存,内存逻辑上连续,其实映射到并不一定连续的物理内存上。Linux内核借用了这个技术,允许内核程序在内核地址空间中分配虚拟地址,同样也利用页表(内核页表)将虚拟地址映射到分散的内存页上。以此完美地解决了内核内存使用中的外部分片问题。内核提供vmalloc函数分配内核虚拟内存,该函数不同于kmalloc,它可以分配较Kmalloc大得多的内存空间(可远大于128K,但必须是页大小的倍数),但相比Kmalloc来说,Vmalloc需要对内核虚拟地址进行重映射,必须更新内核页表,因此分配效率上要低一些(用空间换时间)

    与用户进程相似,内核也有一个名为init_mm的mm_strcut结构来描述内核地址空间,其中页表项pdg=swapper_pg_dir包含了系统内核空间(3G-4G)的映射关系。因此vmalloc分配内核虚拟地址必须更新内核页表,而kmalloc或get_free_page由于分配的连续内存,所以不需要更新内核页表。

     

    文本框: 伙伴关系维护文本框: vmalloc文本框: Kmalloc

     

    vmalloc分配的内核虚拟内存与kmalloc/get_free_page分配的内核虚拟内存位于不同的区间,不会重叠。因为内核虚拟空间被分区管理,各司其职。进程空间地址分布从0到3G(其实是到PAGE_OFFSET,在0x86中它等于0xC0000000),从3G到vmalloc_start这段地址是物理内存映射区域(该区域中包含了内核镜像、物理页面表mem_map等等)比如我使用的系统内存是64M(可以用free看到),那么(3G——3G+64M)这片内存就应该映射到物理内存,而vmalloc_start位置应在3G+64M附近(说"附近"因为是在物理内存映射区与vmalloc_start期间还会存在一个8M大小的gap来防止跃界),vmalloc_end的位置接近4G(说"接近"是因为最后位置系统会保留一片128k大小的区域用于专用页面映射,还有可能会有高端内存映射区,这些都是细节,这里我们不做纠缠)。

     

     

     

    上图是内存分布的模糊轮廓

     

       由get_free_page或Kmalloc函数所分配的连续内存都陷于物理映射区域,所以它们返回的内核虚拟地址和实际物理地址仅仅是相差一个偏移量(PAGE_OFFSET),你可以很方便的将其转化为物理内存地址,同时内核也提供了virt_to_phys()函数将内核虚拟空间中的物理映射区地址转化为物理地址。要知道,物理内存映射区中的地址与内核页表是有序对应的,系统中的每个物理页面都可以找到它对应的内核虚拟地址(在物理内存映射区中的)。

    而vmalloc分配的地址则限于vmalloc_start与vmalloc_end之间。每一块vmalloc分配的内核虚拟内存都对应一个vm_struct结构体(可别和vm_area_struct搞混,那可是进程虚拟内存区域的结构),不同的内核虚拟地址被4k大小的空闲区间隔,以防止越界——见下图)。与进程虚拟地址的特性一样,这些虚拟地址与物理内存没有简单的位移关系,必须通过内核页表才可转换为物理地址或物理页。它们有可能尚未被映射,在发生缺页时才真正分配物理页面。

     

    这里给出一个小程序帮助大家认清上面几种分配函数所对应的区域。

    #include<linux/module.h>

    #include<linux/slab.h>

    #include<linux/vmalloc.h>

    unsigned char *pagemem;

    unsigned char *kmallocmem;

    unsigned char *vmallocmem;

    int init_module(void)

    {

     pagemem = get_free_page(0);

     printk("<1>pagemem=%s",pagemem);

     kmallocmem = kmalloc(100,0);

     printk("<1>kmallocmem=%s",kmallocmem);

     vmallocmem = vmalloc(1000000);

     printk("<1>vmallocmem=%s",vmallocmem);

    }

    void cleanup_module(void)

    {

     free_page(pagemem);

     kfree(kmallocmem);

     vfree(vmallocmem);

    }

     

    实例

    内存映射(mmap)是Linux操作系统的一个很大特色,它可以将系统内存映射到一个文件(设备)上,以便可以通过访问文件内容来达到访问内存的目的。这样做的最大好处是提高了内存访问速度,并且可以利用文件系统的接口编程(设备在Linux中作为特殊文件处理)访问内存,降低了开发难度。许多设备驱动程序便是利用内存映射功能将用户空间的一段地址关联到设备内存上,无论何时,只要内存在分配的地址范围内进行读写,实际上就是对设备内存的访问。同时对设备文件的访问也等同于对内存区域的访问,也就是说,通过文件操作接口可以访问内存。Linux中的X服务器就是一个利用内存映射达到直接高速访问视频卡内存的例子。

    熟悉文件操作的朋友一定会知道file_operations结构中有mmap方法,在用户执行mmap系统调用时,便会调用该方法来通过文件访问内存——不过在调用文件系统mmap方法前,内核还需要处理分配内存区域(vma_struct)、建立页表等工作。对于具体映射细节不作介绍了,需要强调的是,建立页表可以采用remap_page_range方法一次建立起所有映射区的页表,或利用vma_struct的nopage方法在缺页时现场一页一页的建立页表。第一种方法相比第二种方法简单方便、速度快, 但是灵活性不高。一次调用所有页表便定型了,不适用于那些需要现场建立页表的场合——比如映射区需要扩展或下面我们例子中的情况。

     

    我们这里的实例希望利用内存映射,将系统内核中的一部分虚拟内存映射到用户空间,以供应用程序读取——你可利用它进行内核空间到用户空间的大规模信息传输。因此我们将试图写一个虚拟字符设备驱动程序,通过它将系统内核空间映射到用户空间——将内核虚拟内存映射到用户虚拟地址。从上一节已经看到Linux内核空间中包含两种虚拟地址:一种是物理和逻辑都连续的物理内存映射虚拟地址;另一种是逻辑连续但非物理连续的vmalloc分配的内存虚拟地址。我们的例子程序将演示把vmalloc分配的内核虚拟地址映射到用户地址空间的全过程。

    程序里主要应解决两个问题:

    第一是如何将vmalloc分配的内核虚拟内存正确地转化成物理地址?

    因为内存映射先要获得被映射的物理地址,然后才能将其映射到要求的用户虚拟地址上。我们已经看到内核物理内存映射区域中的地址可以被内核函数virt_to_phys转换成实际的物理内存地址,但对于vmalloc分配的内核虚拟地址无法直接转化成物理地址,所以我们必须对这部分虚拟内存格外“照顾”——先将其转化成内核物理内存映射区域中的地址,然后在用virt_to_phys变为物理地址。

    转化工作需要进行如下步骤:

    a)         找到vmalloc虚拟内存对应的页表,并寻找到对应的页表项。

    b)        获取页表项对应的页面指针

    c)        通过页面得到对应的内核物理内存映射区域地址

    如下图所示:

    第二是当访问vmalloc分配区时,如果发现虚拟内存尚未被映射到物理页,则需要处理“缺页异常”。因此需要我们实现内存区域中的nopaga操作,以能返回被映射的物理页面指针,在我们的实例中就是返回上面过程中的内核物理内存映射区域中的地址由于vmalloc分配的虚拟地址与物理地址的对应关系并非分配时就可确定,必须在缺页现场建立页表,因此这里不能使用remap_page_range方法,只能用vma的nopage方法一页一页的建立。

     

     

    程序组成

    map_driver.c,它是以模块形式加载的虚拟字符驱动程序。该驱动负责将一定长的内核虚拟地址(vmalloc分配的)映射到设备文件上。其中主要的函数有——vaddress_to_kaddress()负责对vmalloc分配的地址进行页表解析,以找到对应的内核物理映射地址(kmalloc分配的地址);map_nopage()负责在进程访问一个当前并不存在的VMA页时,寻找该地址对应的物理页,并返回该页的指针。

    test.c 它利用上述驱动模块对应的设备文件在用户空间读取读取内核内存。结果可以看到内核虚拟地址的内容(ok!),被显示在了屏幕上。

     

    执行步骤

    编译map_driver.c为map_driver.o模块,具体参数见Makefile

    加载模块 :insmod map_driver.o

    生成对应的设备文件

    1 在/proc/devices下找到map_driver对应的设备命和设备号:grep mapdrv /proc/devices

    2 建立设备文件mknod  mapfile c 254 0  (在我的系统里设备号为254)

        利用maptest读取mapfile文件,将取自内核的信息打印到屏幕上。

     

    转自https://blog.csdn.net/hustyangju/article/details/46330259

    展开全文
  • 1.linux应用程序内存布局从低地址到高地址分别为:代码段,数据段,BSS段,堆,栈对向高内存地址生长,栈想低内存地址生长Linux的中所有的应用程序都是这个布局,每个应用程序都是从0x80480000这个地址开始的,这样...
  • linux应用程序内存布局

    千次阅读 2015-11-10 18:15:44
    1.linux应用程序内存布局 从低地址到高地址分别为:代码段、数据段、BSS段、堆、栈 对向高内存地址生长,栈想低内存地址生长 linux中所有的应用程序都是这个布局,每个应用程序都是从0x80480000这个地址开始的,这样...
  • 关于linux 内存分配

    千次阅读 2019-06-01 08:35:56
    摘要:本章首先以应用程序开发者的角度审视Linux的进程内存管理,在此基础上逐步深入到内核中讨论系统物理内存管理和内核内存的使用方法。力求从外到内、水到渠成地引导网友分析Linux内存管理与使用。在本章最后,...
  • Linux应用程序内存地址布局

    千次阅读 2015-08-02 18:58:34
    一个典型的Linux C程序内存空间由如下几部分组成: 代码段(.text):这里存放代码、全局常量(const)、字符串常量。代码段是可共享的,相同的代码在内存中只会有一个拷贝,同时这个段是只读可执行的,防止程序由于...
  • c 程序内存分配管理

    千次阅读 2018-09-23 15:44:33
    静态内存分配属于编译时给变量分配的空间,动态分配属于在程序运行时给变量分配的空间 静态分配属于栈分配,动态分配属于堆分配 运行效率上,静态内存比动态内存要快 int a[10] 属于静态分配 int a[n] 或 int *a...
  • 测试时发现当系统中空闲内存还有很多时,就报内存分配失败了,所有进程都报内存分配失败: free" style="word-wrap:break-word; text-decoration:none; color:rgb(86,86,86); font-family:宋体,Arial; font-size:16...
  • Linux 下几款程序内存泄漏检查工具

    万次阅读 多人点赞 2016-07-23 10:15:06
    内存管理是否正确(因为这个程序本身开辟很多内存空间进行缓存管理,同时这个程序程序本身就是基于C/C++开发的,内存管理机制一直是程序员头痛的东西) 2.程序的健硕性如何(服务器任何程序的基本要求就是要满足高并发...
  • 问题描述Linux内存使用量超过阈值,使得Java应用程序无可用内存,最终导致程序崩溃。即使在程序没有挂掉时把程序停掉,系统内存也不会被释放。找原因的过程这个问题已经困扰我好几个月了,分析过好多次都没有找到...
  • LinuxLinux的虚拟内存详解(MMU、页表结构)

    万次阅读 多人点赞 2019-02-05 17:27:06
    如何在有限的内存空间运行较大的应用程序,曾是困扰人们的一个难题。为解决这个问题,人们设计了许多的方案,其中最成功的当属虚拟内存技术。Linux作为一个以通用为目的的现代大型操作系统,当然也毫不例外的采用了...
  • 内存分配方式与内存分配算法

    千次阅读 2018-03-14 20:24:56
    内存分配方式有两种,连续内存分配方式和离散内存分配方式。不同的分配方式又有不同的分配算法。 内存分配算法,其实就是:有一大块空闲的资源,如何合理地分配资源?内存分配的思想可以用到很多其他的领域。比如...
  • Linux系统如何为进程分配内存

    千次阅读 2016-07-21 15:48:59
    可执行程序内存分布 GNU编译器生成的目标文件默认格式为elf(executive linked file)格式,这是Linux系统所采用的可执行链接文件的通用文件格式。elf格式由若干个段(section)组成,由标准c源代码生成的...
  • Linux 查看进程消耗内存情况总结

    万次阅读 2018-09-29 13:53:50
    Linux中,有很多命令或工具查看内存使用情况,今天我们来看看如何查看进程消耗、占用的内存情况,Linux内存管理和相关概念要比Windows复杂一些。在此之前,我们需要了解一下Linux系统下面有关内存的专用名词和...
  • C语言中内存分配

    万次阅读 多人点赞 2013-09-03 19:17:42
    在任何程序设计环境及语言中,内存管理都十分重要。在目前的计算机系统或嵌入式系统中,内存资源仍然是有限的。...第2节主要介绍C语言中内存分配及释放函数、函数的功能,以及如何调用这些函数申请
  • Android应用程序被限制了内存使用上限,一般为16M或24M(具体看系统设置),当应用的使用内存超过这个上限时,就会被系统认为内存泄漏,被kill掉。所以在Android开发时,管理好内存分配及使用十分重要,而首先要做...
  • Linux驱动开发之分配连续内存

    千次阅读 2020-08-26 23:04:06
    通过uboot传入bootargs/cmdline,参考常用知识——linux内核中常见的内存分配方法,在Linux内核引导时,传入参数“mem=size”保留顶部的内存区间。比如系统有256MB内存,参数“mem=248M”会预留顶部的8MB内存,...
  • Linux中动态内存分配与回收

    千次阅读 2018-05-16 20:10:20
    1.malloc 和free的原理(http://m.blog.csdn.net/article/details?id=39496057)从操作系统角度来看,进程分配内存有两种方式,分别由两个系统调用完成:brk和mmap(不考虑共享内存)。1、brk是将数据段(.data)的...
1 2 3 4 5 ... 20
收藏数 175,112
精华内容 70,044
关键字:

linux应用程序内存分配