软硬件结合, OCR融入Intel CPU

关键字 : intelOCR

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,现阶段各类文件、身份证、路标、文档检索、字幕识别等,可以说统统都离不开OCR。 而随着需求的不断发展,OCR也要不断的改进,现在的OCR可以凭借自身将文本从图片、扫描文档或其他图像形式提取出来,成为大语言模型的一个重要入口。

过去大家会普遍认为,像OCR这种涉及图像预处理、字符分割、特征提取等步骤的技术,堆GPU肯定是首选;现在intel为了节约成本和部署的问题,释放CPU的计算潜能,一样可以达到同样的效果。

英特尔第四代至强® 可扩展处理器增加了每个时钟周期的指令,每个插槽多达60个核心,支持8通道DDR5内存。 在内存宽带方面实现了50%的性能提升,并通过每PCIe 5.0(80个通道)实现了2倍的PCIe带宽提升,整体可实现60%的代际性能提升。

解锁这个能力,只靠硬件是无法达到最优的,还需要英特尔软件层面上的优化;就是“软硬一体”后的结果。 第四代至强® 可扩展处理器及其内置的AI加速器,以及OpenVINO™ 推理框架打辅助。 当前影响AI应用性能的要素无非两个:算力和数据访问速度。第四代至强® 可扩展处理器的单颗CPU核数已经增长到最高60核。 而在数据访问速度上,各级缓存大小、内存通道数、内存访问速度等都有一定程度的优化,另外部分型号还集成了HBM高带宽内存技术。

此外,在CPU指令集上也做了优化,内置了英特尔® 高级矩阵扩展(英特尔® AMX)等硬件加速器,负责矩阵计算,加速深度学习工作负载。 AMX由两部分组成,一部分是1kb大小的2D寄存器文件,另一部分是TMUL模块,用来执行矩阵乘法指令。

它可同时支持INT8和BF16数据类型,且BF16相较于FP32计算性能更优。 有了AMX指令集加持,性能比矢量神经网络指令集VNNI增加达8倍。

除了核心硬件平台外,实际情况中帮助OCR在CPU上落地的,还有推理框架。 前者对单次推理要求高,后者需要整个系统吞吐量的优化, 英特尔充分释放了CPU计算潜力,在实际场景中也实现了与GPU同等性能。

软硬件融合协同,从底层到应用的一整套技术创新, 随着大模型时代的到来和深入,这种解决思路也正在成为共识。一方面摆脱不了摩尔定律的极限,另一方面要在应用场景中充分释放计算潜力,就需要与软件适配快速部署。

★博文内容参考自 网站,与平台无关,如有违法或侵权,请与网站管理员联系。

★文明上网,请理性发言。内容一周内被举报5次,发文人进小黑屋喔~

参考来源

Intel: https://mp.weixin.qq.com/s/Ydf9Zh5_CxA5DqS_HBl_Wg

评论