/*--------------------------- _init_box -------------------------------------*/
int  _init_box  (void *box_mem, U32 box_size, U32 blk_size)
{
/* Initialize memory block system, returns 0 if OK, 1 if fails. */
void *end;
void *blk;
void *next;
U32  sizeof_bm;
/* Create memory structure. */
if (blk_size & BOX_ALIGN_8) {
/* Memory blocks 8-byte aligned. */
blk_size = ((blk_size & ~BOX_ALIGN_8) + 7) & ~7;
sizeof_bm = (sizeof (struct OS_BM) + 7) & ~7;
}
else {
/* Memory blocks 4-byte aligned. */
blk_size = (blk_size + 3) & ~3;
sizeof_bm = sizeof (struct OS_BM);
}
if (blk_size == 0) {
return (1);
}
if ((blk_size + sizeof_bm) > box_size) {
return (1);
}
/* Create a Memory structure. */
blk = ((U8 *) box_mem) + sizeof_bm;
((P_BM) box_mem)->free = blk;
end = ((U8 *) box_mem) + box_size;
((P_BM) box_mem)->end      = end;
((P_BM) box_mem)->blk_size = blk_size;
/* Link all free blocks using offsets. */
end = ((U8 *) end) - blk_size;
while (1)  {
next = ((U8 *) blk) + blk_size;
if (next > end)  break;
*((void **)blk) = next;
blk = next;
}
/* end marker */
*((void **)blk) = 0;
return (0);
}
  至于函数中的(blk_size + 3) & ~3;是做什么用的,看注释知道了,对齐用的。可以把这个代码摘出来调试一下,
  确实是这样,不管你定义的任务控制快是多大,是否是4字节的倍数,通过(blk_size + 3) & ~3;,终的大小肯定
  是4的倍数。
  看下这个调用:
  rt_init_box (&mp_tcb, mp_tcb_size, sizeof(struct OS_TCB));
  U16 const mp_tcb_size = sizeof(mp_tcb);
  OS_TCB是任务控制块的结构体,他的大小并不一定是4的倍数,但是经过(blk_size + 3) & ~3;终每个分配的大小都是4的倍数。
  mp_tcb_size肯定也是4的倍数,因为sizeof(mp_tcb)取出来的大小是结构体自动内存对齐过的。
  接下来是内存分配的,其实是链表的插入与删除操作罢了。
/*--------------------------- rt_alloc_box ----------------------------------*/
void *rt_alloc_box (void *box_mem) {
/* Allocate a memory block and return start address. */
void **free;
int  irq_dis;
irq_dis = __disable_irq ();
free = ((P_BM) box_mem)->free;
if (free) {
((P_BM) box_mem)->free = *free;
}
if (!irq_dis) __enable_irq ();
return (free);
}
/*--------------------------- _calloc_box -----------------------------------*/
void *_calloc_box (void *box_mem)  {
/* Allocate a 0-initialized memory block and return start address. */
void *free;
U32 *p;
U32 i;
free = _alloc_box (box_mem);
if (free)  {
p = free;
for (i = ((P_BM) box_mem)->blk_size; i; i -= 4)  {
*p = 0;
p++;
}
}
return (free);
}
/*--------------------------- rt_free_box -----------------------------------*/
int rt_free_box (void *box_mem, void *box) {
/* Free a memory block, returns 0 if OK, 1 if box does not belong to box_mem */
int irq_dis;
if (box < box_mem || box > ((P_BM) box_mem)->end) {
return (1);
}
irq_dis = __disable_irq ();
*((void **)box) = ((P_BM) box_mem)->free;
((P_BM) box_mem)->free = box;
if (!irq_dis) __enable_irq ();
return (0);
}
  Keil的RTX内核关于内存管理的这些了,很少很独立吧。比较简单,这块可以单独摘出来为自己学习和使用。
  包括Linux源码中的双向循环链表,也是很经典很不错的,实际上都可以单独摘出来,,说不定哪天的项目中可以用上了。