人气 220

[行业观察] 真彩色转成高彩色的快速算法 [复制链接]

九艺网 2017-3-10 17:00:56

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

x

为什么要实时转换颜色深度?
通常, 2D 游戏中的位图, 无论在外存中按什么颜色深度存放, 加栽后都被转换成了需要的颜色深度. 我们不太注意颜色深度转换说需要的时间.
但是, 现在不同了. 云风未来的计划中, 最重要的一项是制作一个超级 2D 引擎. 将支持 Voxel 物体和实时光线处理这样的特性, 而且在光线处理中, 32 级的光线亮度级别也远远不够, 所以, 未来的 2D 游戏的发展趋势应该是采用真彩色, 至少是在内部运算时使用. 在某些场合下, 我们可能需要做 15/16bit 高彩色的输出, 所以有必要找到更快的方法实时处理.
下面, 我们对此做一些探讨, 虽然显卡可以支持 15 或 16 bit 色中的一种, 但这里全部用 16bit 色举例:
先来看看 C 版本:
  1. red=(truecolor>>8)&0xf800;
  2. green=(truecolor>>5)&0x7e0;
  3. blue=(truecolor>>3)&0x1f;
  4. hicolor=red|green|blue;
  5.                                                
复制代码
这样当然是相当慢的, 所以我们还是要借助汇编. 而汇编能极大的优化它:
  1. lodsd                ;RRRRRRRR
  2.                                                         GGGGGGGG
  3.                                                         BBBBBBBB
  4. shr eax,3                ;000RRRRR RRRGGGGG GGGBBBBB
  5. shl al,2                ;000RRRRR RRRGGGGG GBBBBBxx
  6. shl ax,3                ;000RRRRR
  7.                                                         GGGGGGBBB BBxxxxx
  8. dec esi
  9. shr eax,5                ;00000000 RRRRRGGG GGGBBBBB
  10. stosw
复制代码
是不是精简了很多? 但不幸的是, 虽然看起来很简洁, 但由于大量使用部分寄存器, 对流水线的冲击很大. 代码几乎把流水线的效率减到了最低. 优化方案很多, 我们可以在一次循环里处理两个点, 分别使用 eax 和 ebx, 然后交错那些代码; 又或者将上面代码的后半部分改为查表, 相信都能提高速度. 但是下面我还想提出另一种方案, 采用 MMX 指令级:
  1. mm7=F800F800F800F800
  2. mm6=FC00FC00FC00FC00
  3. ------------------------------
  4. punpcklbw mm0,[red+edx]
  5. ;mm0=RRRRRRRR 00000000 RRRRRRRR 00000000 RRRRRRRR 00000000 RRRRRRRR 00000000
  6. punpcklbw mm1,[green+edx]
  7. ;mm1=GGGGGGGG 00000000 GGGGGGGG 00000000 GGGGGGGG 00000000 GGGGGGGG 00000000
  8. punpcklbw mm2,[blue+edx]
  9. ;mm2=BBBBBBBB 00000000 BBBBBBBB 00000000 BBBBBBBB 00000000 BBBBBBBB 00000000
  10. pand mm0,mm7
  11. ;mm0=RRRRR000 00000000 RRRRR000 00000000 RRRRR000 00000000 RRRRR000 00000000
  12. pand mm1,mm6
  13. ;mm1=GGGGGG00 00000000 GGGGGG00 00000000 GGGGGG00 00000000 GGGGGG00 00000000
  14. psrlw mm2,11
  15. ;mm2=00000000 000BBBBB 00000000 000BBBBB 00000000 000BBBBB 00000000 000BBBBB
  16. psrlw mm1,5
  17. ;mm1=00000GGG GGG00000 00000GGG GGG00000 00000GGG GGG00000 00000GGG GGG00000
  18. por mm0,mm2
  19. por mm0,mm1
  20. ;mm0=RRRRRGGG GGGBBBBB
  21.                                                         RRRRRGGG GGGBBBBB
  22.                                                         RRRRRGGG GGGBBBBB
  23.                                                         RRRRRGGG GGGBBBBB
  24. movq [dis+edx*2],mm0
  25. add edx,4
  26.                                                
复制代码
我们对 MMX 的运用是针对它的并行运算, 直接从 RGB888 格式利用并行处理变成 RGB565 似乎不可能, 但是, 如果我们将 RGB 三个色素分开存放, 就将其变为了可能. 可以同时读入 4 个色素, 并行处理, 然后合并, 这样便在一个循环内处理了 4 个点. 考虑到 CACHE 的效率, 最好不要将 RGB 三块内存分的太开. 我的建议是, 位图的每一行分成三个部分, 即为 Red 段, Green 段 和 Blue 段.上面的方法都是可以继续优化的, 本文旨在启发朋友们的灵感, 找出更好的方法.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

QQ|手机版|小黑屋|九艺游戏动画论坛 ( 津ICP备2022000452号-1 )

GMT+8, 2024-4-19 16:40 , Processed in 0.118670 second(s), 23 queries .

Powered by Discuz! X3.4  © 2001-2017 Discuz Team.