今日更新
技术新闻
精彩专题
IBM软件技术专区
微软开发专区
技术文档中心
编程语言
网络通信
网络安全
LINUX/UNIX
软件工程与管理
数据库开发
WEB开发
企业应用与开发
移动开发
资源中心
原创专栏
开放系统世界
人才与培训
技术天地论坛
厂商列表
社区推荐

· 女性身体内部人体受孕..
· 十部顶级的变态与情色..
· 感情放纵让我毁了两个..
· 当我撞见姐姐和男友在..
· 卖淫少女惨遭泄愤民工..
· 偷拍街上的走光mm绝对..
· 百度打击google的广告
· 港娱乐圈与黑社会揭秘
赛迪网>>技术应用>>最新更新
关键字: Linux,NUMA 技术
来  源: IBM DW
Linux的NUMA 技术(1)
作者:吴庆波 发文时间:2004.09.01
NUMA(Non-Uniform Memory Access Architecture)系统在市场上的应用越来越广泛,许多厂商都成功推出了基于 NUMA 架构的服务器,本文重点讨论了当前 Linux 的 NUMA 技术,主要包括:存储管理、NUMA 调度和用户层的 API,并在 SGI 的 Altix 350 系统上进行了 NUMA 基本测试,对进行 Linux NUMA 技术的研究具有参考价值。

一、引言

随着科学计算、事务处理对计算机性能要求的不断提高,SMP(对称多处理器)系统的应用越来越广泛,规模也越来越大,但由于传统的 SMP 系统中,所有处理器都共享系统总线,因此当处理器的数目增大时,系统总线的竞争冲突加大,系统总线将成为瓶颈,所以目前 SMP 系统的 CPU 数目一般只有数十个,可扩展能力受到极大限制。NUMA 技术有效结合了 SMP 系统易编程性和 MPP(大规模并行)系统易扩展性的特点,较好解决了 SMP 系统的可扩展性问题,已成为当今高性能服务器的主流体系结构之一。目前国外著名的服务器厂商都先后推出了基于 NUMA 架构的高性能服务器,如 HP 的 Superdome、SGI 的 Altix 3000、IBM 的 x440、NEC 的 TX7、AMD 的Opteron 等。随着 Linux 在服务器平台上的表现越来越成熟,Linux 内核对 NUMA 架构的支持也越来越完善,特别是从 2.5 开始,Linux 在调度器、存储管理、用户级 API 等方面进行了大量的 NUMA 优化工作,目前这部分工作还在不断地改进,如新近推出的 2.6.7-RC1 内核中增加了 NUMA 调度器。本文主要从存储管理、调度器和 CpuMemSets 三个方面展开讨论。

二、NUMA 存储管理

NUMA 系统是由多个结点通过高速互连网络连接而成的,如图 1 是 SGI Altix 3000 ccNUMA 系统中的两个结点。



图 1 SGI Altix3000 系统的两个结点

NUMA 系统的结点通常是由一组 CPU(如,SGI Altix 3000 是 2 个Itanium2 CPU)和本地内存组成,有的结点可能还有I/O子系统。由于每个结点都有自己的本地内存,因此全系统的内存在物理上是分布的,每个结点访问本地内存和访问其它结点的远地内存的延迟是不同的,为了减少非一致性访存对系统的影响,在硬件设计时应尽量降低远地内存访存延迟(如通过 Cache 一致性设计等),而操作系统也必须能感知硬件的拓扑结构,优化系统的访存。

目前 IA64 Linux 所支持的 NUMA 架构服务器的物理拓扑描述是通过 ACPI(Advanced Configuration and Power Interface)实现的。ACPI 是由 Compaq、Intel、Microsoft、Phoenix 和 Toshiba 联合制定的 BIOS 规范,它定义了一个非常广泛的配置和电源管理,目前该规范的版本已发展到 2.0,3.0 版本正在制定中,具体信息可以从 http://www.acpi.info 网站上获得。ACPI 规范也已广泛应用于 IA-32 架构的至强服务器系统中。

Linux 对 NUMA 系统的物理内存分布信息是从系统 firmware 的 ACPI 表中获得的,最重要的是 SRAT(System Resource Affinity Table)和 SLIT(System Locality Information Table)表,其中 SRAT 包含两个结构:
  • Processor Local APIC/SAPIC Affinity Structure:记录某个 CPU 的信息;
  • Memory Affinity Structure:记录内存的信息;
    SLIT 表则记录了各个结点之间的距离,在系统中由数组 node_distance[ ] 记录。

    Linux 采用 Node、Zone 和页三级结构来描述物理内存的,如图 2 所示,



    图 2 Linux 中 Node、Zone 和页的关系

    2.1 结点

    Linux 用一个 struct pg_data_t 结构来描述系统的内存,系统中每个结点都挂接在一个 pgdat_list 列表中,对 UMA 体系结构,则只有一个静态的 pg_data_t 结构 contig_page_data。对 NUMA 系统来说则非常容易扩充,NUMA 系统中一个结点可以对应 Linux 存储描述中的一个结点,具体描述见 linux/mmzone.h。

    typedef struct pglist_data {
    zone_t node_zones[MAX_NR_ZONES];
    zonelist_t node_zonelists[GFP_ZONEMASK+1];
    int nr_zones;
    struct page *node_mem_map;
    unsigned long *valid_addr_bitmap;
    struct bootmem_data *bdata;
    unsigned long node_start_paddr;
    unsigned long node_start_mapnr;
    unsigned long node_size;
    int node_id;
    struct pglist_data *node_next;
    } pg_data_t;


    下面就该结构中的主要域进行说明,

    说明
    Node_zones 该结点的 zone 类型,一般包括 ZONE_HIGHMEM、ZONE_NORMAL 和 ZONE_DMA 三类
    Node_zonelists 分配时内存时 zone 的排序。它是由 free_area_init_core() 通过 page_alloc.c 中的 build_zonelists() 设置 zone 的顺序
    nr_zones 该结点的 zone 个数,可以从 1 到 3,但并不是所有的结点都需要有 3 个 zone
    node_mem_map 它是 struct page 数组的第一页,该数组表示结点中的每个物理页框。根据该结点在系统中的顺序,它可在全局 mem_map 数组中的某个位置
    Valid_addr_bitmap 用于描述结点内存空洞的位图
    node_start_paddr 该结点的起始物理地址
    node_start_mapnr 给出在全局 mem_map 中的页偏移,在free_area_init_core() 计算在 mem_map 和 lmem_map 之间的该结点的页框数目
    node_size 该 zone 内的页框总数
    node_id 该结点的 ID,全系统结点 ID 从 0 开始


    系统中所有结点都维护在 pgdat_list 列表中,在 init_bootmem_core 函数中完成该列表初始化工作。

    2.2 Zone

    每个结点的内存被分为多个块,称为zones,它表示内存中一段区域。一个zone用struct_zone_t结构描述,zone的类型主要有ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM。ZONE_DMA位于低端的内存空间,用于某些旧的ISA设备。ZONE_NORMAL的内存直接映射到Linux内核线性地址空间的高端部分,许多内核操作只能在ZONE_NORMAL中进行。例如,在X86中,zone的物理地址如下:

    类型 地址范围
    ZONE_DMA 前16MB内存
    ZONE_NORMAL 16MB - 896MB
    ZONE_HIGHMEM 896 MB以上


    Zone是用struct zone_t描述的,它跟踪页框使用、空闲区域和锁等信息,具体描述如下:

    typedef struct zone_struct {
    spinlock_t lock;
    unsigned long free_pages;
    unsigned long pages_min, pages_low, pages_high;
    int need_balance;
    free_area_t free_area[MAX_ORDER];
    wait_queue_head_t * wait_table;
    unsigned long wait_table_size;
    unsigned long wait_table_shift;
    struct pglist_data *zone_pgdat;
    struct page *zone_mem_map;
    unsigned long zone_start_paddr;
    unsigned long zone_start_mapnr;
    char *name;
    unsigned long size;
    } zone_t;


    下面就该结构中的主要域进行说明,

    说明
    Lock 旋转锁,用于保护该zone
    free_pages 该zone空闲页总数
    pages_min,

    pages_low,

    pages_high

    Zone的阈值
    need_balance 该标志告诉kswapd需要对该zone的页进行交换
    Free_area 空闲区域的位图,用于buddy分配器
    wait_table 等待释放该页进程的队列散列表,这对wait_on_page()和unlock_page()是非常重要的。当进程都在一条队列上等待时,将引起进程的抖动
    zone_mem_map 全局mem_map中该zone所引用的第一页
    zone_start_paddr 含义与node_start_paddr类似
    zone_start_mapnr 含义与node_start_mapnr类似
    Name 该zone的名字。如,“DMA”,“Normal”或“HighMem”
    Size Zone的大小,以页为单位


    当系统中可用的内存比较少时,kswapd将被唤醒,并进行页交换。如果需要内存的压力非常大,进程将同步释放内存。如前面所述,每个zone有三个阈值,称为pages_low,pages_min和pages_high,用于跟踪该zone的内存压力。pages_min的页框数是由内存初始化free_area_init_core函数,根据该zone内页框的比例计算的,最小值为20页,最大值一般为255页。当到达pages_min时,分配器将采用同步方式进行kswapd的工作;当空闲页的数目达到pages_low时,kswapd被buddy分配器唤醒,开始释放页;当达到pages_high时,kswapd将被唤醒,此时kswapd不会考虑如何平衡该zone,直到有pages_high空闲页为止。一般情况下,pages_high缺省值是pages_min的3倍。

    Linux存储管理的这种层次式结构可以将ACPI的SRAT和SLIT信息与Node、Zone实现有效的映射,从而克服了传统Linux中平坦式结构无法反映NUMA架构的缺点。当一个任务请求分配内存时,Linux采用局部结点分配策略,首先在自己的结点内寻找空闲页;如果没有,则到相邻的结点中寻找空闲页;如果还没有,则到远程结点中寻找空闲页,从而在操作系统级优化了访存性能。

    T111




  • 赛迪网推出“IT博客”,花不到一分钟就完成注册
    评论】 【推荐】 【 】 【打印】 【关闭

    ·Linux专区· ·黑客攻防·
    · Linux下添加硬盘、分区、格式化任务详解
    · FreeBSD服务器的安装与优化之优化篇
    · 初学者入门:FreeBSD服务器的安装与优化
    · 金企鹅杯两岸四地开源软件大赛圆满结束
    · 如何提高Linux系统安全性的十大招数
    · 构筑Linux防火墙之为个人用户设置防火墙
    · 谁更安全?黑客眼中的防火墙与路由器
    · 识破骗局 练就识别QQ活动真伪火眼金睛
    · 应用安全大有可为:目的、挑战、总结
    · 道高一尺魔高一丈:安全防御的动感魅力
    · 警惕网络“内”院起火 积极谋求安内之路
    · HHCTRL漏洞被黑客利用 疯狂传播木马
    ·中国信息化· ·成功案例·
    · ERP普及化是饮鸩止渴 精细化才是应用之道
    · 赛门铁克第八期《互联网安全威胁报告》解析
    · 抢食“数字工商” 国产中间件杀出血路
    · 从IBM等操作系统的发展看软件创新的启示
    · 服务成就蓝色快车 品牌是怎样炼成的?
    · 三大技术应用大会合为一体甲骨文上演三重奏
    · 南阳教育城域网 拆掉学校间的“围墙”
    · 金算盘助申意美步入信息化快车道
    · 不为人知的索尼信息化 谁是幕后英雄?
    · InforBus/Q在穗高速路联网收费系统中的应用
    · J2EE构建最新金融理念和运作模式的网上银行
    · 食品安全令人担心 信息化能否保驾护航
    *姓  名: 更多资料 了解方案 认识厂商
    *单位名称:
    *联系电话:
    *电子邮件:
        
    ◆ 相关文章   ◆ 站内热点推荐
    · 网管员论坛
    · 开发者之家
    · WLAN无限未来
    · 我是如何掉进C#的……
    · 中国“人件”非正式调查

       
    合作网站: IBM dW中国网站 LinuxAID 软件工程专家网 中国系统分析员 UMLChina MATRIX Mobile2008 JavaResearch 华储网 UML软件工程组织 中国JAVA手机网 JAVA中文站 金山在线 海量科技