软硬件结合， OCR融入Intel CPU

关键字 : intel OCR

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程,现阶段各类文件、身份证、路标、文档检索、字幕识别等，可以说统统都离不开OCR。而随着需求的不断发展，OCR也要不断的改进，现在的OCR可以凭借自身将文本从图片、扫描文档或其他图像形式提取出来，成为大语言模型的一个重要入口。

过去大家会普遍认为，像OCR这种涉及图像预处理、字符分割、特征提取等步骤的技术，堆GPU肯定是首选；现在intel为了节约成本和部署的问题，释放CPU的计算潜能，一样可以达到同样的效果。

英特尔第四代至强® 可扩展处理器增加了每个时钟周期的指令，每个插槽多达60个核心，支持8通道DDR5内存。在内存宽带方面实现了50%的性能提升，并通过每PCIe 5.0（80个通道）实现了2倍的PCIe带宽提升，整体可实现60%的代际性能提升。

解锁这个能力，只靠硬件是无法达到最优的，还需要英特尔软件层面上的优化；就是“软硬一体”后的结果。第四代至强® 可扩展处理器及其内置的AI加速器，以及OpenVINO™ 推理框架打辅助。当前影响AI应用性能的要素无非两个：算力和数据访问速度。第四代至强® 可扩展处理器的单颗CPU核数已经增长到最高60核。而在数据访问速度上，各级缓存大小、内存通道数、内存访问速度等都有一定程度的优化，另外部分型号还集成了HBM高带宽内存技术。

此外，在CPU指令集上也做了优化，内置了英特尔^® 高级矩阵扩展（英特尔^® AMX）等硬件加速器，负责矩阵计算，加速深度学习工作负载。 AMX由两部分组成，一部分是1kb大小的2D寄存器文件，另一部分是TMUL模块，用来执行矩阵乘法指令。

它可同时支持INT8和BF16数据类型，且BF16相较于FP32计算性能更优。有了AMX指令集加持，性能比矢量神经网络指令集VNNI增加达8倍。

除了核心硬件平台外，实际情况中帮助OCR在CPU上落地的，还有推理框架。前者对单次推理要求高，后者需要整个系统吞吐量的优化，英特尔充分释放了CPU计算潜力，在实际场景中也实现了与GPU同等性能。

软硬件融合协同，从底层到应用的一整套技术创新，随着大模型时代的到来和深入，这种解决思路也正在成为共识。一方面摆脱不了摩尔定律的极限，另一方面要在应用场景中充分释放计算潜力，就需要与软件适配快速部署。

★博文内容参考自网站，与平台无关，如有违法或侵权，请与网站管理员联系。

★文明上网，请理性发言。内容一周内被举报5次，发文人进小黑屋喔~

参考来源

Intel: https://mp.weixin.qq.com/s/Ydf9Zh5_CxA5DqS_HBl_Wg

软硬件结合， OCR融入Intel CPU

参考来源

评论