华体会-后摩尔时代的创新:在米尔FPGA上实现Tiny YOLO V4,助力AIoT应用

[导读]在全球半导体系体例程限制和高端 GPU 受限的年夜情况下,FPGA 成了中国企业成长的主要路径之一。它可撑持矫捷的 AIoT 利用,其矫捷性与可编程性使其可以在国内成熟的 28nm 工艺乃至更低节点的制程下实现高效的硬件加快。 Tip:进修若何在 MYIR 的 ZU3EG FPGA 开辟板上摆设 Tiny YOLO v4,对照 FPGA、GPU、CPU 的机能,助力 AIoT 边沿计较利用。(文末有彩蛋) 1、 为何选择 FPGA:应对 7nm 制程与 AI 限制 在全球半导体系体例程限制和高端 GPU 受限的年夜情况下,FPGA 成了中国企业成长的主要路径之一。它可撑持矫捷的 AIoT 利用,其矫捷性与可编程性使其可以在国内成熟的 28nm 工艺乃至更低节点的制程下实现高效的硬件加快。 米尔的 ZU3EG 开辟板凭仗其可重构架构为 AI 和计较密集型使命供给了撑持,同时避免了 7nm 工艺对国产芯片设计的制约。经由过程在 ZU3EG 上摆设 Tiny YOLO v4,我们可觉得智能家居、聪明城市等 AIoT 利用供给高效的解决方案。 CPU GPU FPGA 架构对照 2、 领会 Tiny YOLO 模子和其合用性 YOLO(You Only Look Once)是一种及时物体检测模子,它经由过程一次性扫描全部图象,实现高效的对象辨认。 而其简化版 Tiny YOLO v4 更合适嵌入式装备,具有较少的层数和参数。其轻量化特征更合适在资本受限的装备上运行,特别在低功耗、及时检测的边沿计较装备中表示超卓。 比拟传统 GPU,FPGA 能在小面积和低功耗下实现近似的推理机能,很是契合 AIoT 利用。像米尔 ZU3EG 如许的 FPGA 开辟板,经由过程底板和丰硕接口的载板设计,很是合适高效的嵌入式低功耗数据处置。 Yolo V4 收集布局图 Tiny Yolo V4 收集布局图 (经由过程优化收集布局和参数,连结较高检测精度的同时,下降模子的计较量和内存占用) 3、 获得数据集和模子 可下载开源练习集或预练习模子。为了确保兼容性,建议将模子转换为 ONNX 格局,以便后续能在 FPGA 上完成优化。 1. 下载 Tiny YOLO v4 模子:从 Darknet 的 GitHub 仓库 获得 Tiny YOLO 的预练习权重,或在 COCO 等数据集上自行练习模子。自界说的模子合用在特定利用场景(如车辆检测、人脸检测等)。 2. 数据预备:若要自界说模子,可以使用 LabelImg 等东西对数据集进行标注,将数据转为 YOLO 格局。以后,可将 YOLO 格局转换为 ONNX 格局,以便兼容 FPGA 优化东西链。 Tiny YOLO 在 Darknet 上练习的截图 4、 经由过程 Vivado HLS 为 FPGA 预备模子 要将模子摆设到 FPGA,需要将神经收集操作转换为硬件级描写。利用 Xilinx 的 Vitis HLS(高级综合)可以将 Tiny YOLO v4 的 C++ 模子代码的转化为 Verilog RTL(寄放器传输级)代码,从而将模子从软件世界带入硬件实现。 具体步调: 1. 模子层映照和优化: • 将 YOLO 的每层(如卷积层、池化层)映照为硬件友爱的 C/C++ 布局。例如,将卷积映照为乘累加(MAC)数组,经由过程流水线实现并行化。 2. 算子加快与指令优化: • 流水线(Pipelining):操纵流水线来处置多项操作并行,削减延迟。 • 轮回睁开(Loop Unrolling):睁开轮回,以每周期处置更大都据,特别在卷积操作中有用。 • 设置 DATAFLOW 指令,使层间自力处置。 3. 量化与位宽调剂: • 将激活值和权重量化为定点精度(例如 INT8),而非浮点数。这在保持正确度的同时显著下降计较量,特别合适 FPGA 的固定点运算撑持。 Tiny YOLO 模子在 Vivado HLS 中的层层转化流程图 5、 利用 Vivado 综合与摆设 Verilog 到 米尔的ZU3EG FPGA开辟板 当 HLS 生成的 RTL 代码预备停当后,可使用 Vivado 将模子摆设到 FPGA。 1. Vivado 中的设置: • 将 HLS 输出的 RTL 文件导入 Vivado。 • 在 Vivado 中建立模块设计,包罗毗连AXI 接口与 ZU3EG 的 ARM 核毗连。 2. I/O 束缚与时序: • 界说 FPGA 的 I/O 引脚束缚,以匹配 ZU3EG 板的特定管脚设置装备摆设。设置装备摆设时钟束缚以知足适合的数据速度(如视频数据 100-200 MHz)。 • 进行时序阐发,确保延迟和响应速度到达及时要求。 3. 生成比特流并下载到 ZU3EG: • 生成的比特流可以直接经由过程 JTAG 或以太网接口下载到 ZU3EG。 将 Tiny YOLO 处置模块毗连到 米尔ZU3EG开辟板 的外设和接口 6、 在 FPGA 上测试并运行推理 此刻 Tiny YOLO 已摆设,可以验证其及时对象检测机能。 1. 数据收集: • 经由过程毗连的相机模块捕获图象或视频帧,或利用存储的测试视频。 • 利用 ZU3EG 的 ARM 核上的 OpenCV 对帧进行预处置,再将它们传入 FPGA 预处置落后行推理。 2. 后处置与显示: • 模子检测对象后,输出边框和种别标签。利用 OpenCV 将边框映照回原始帧,并在每一个检测到的对象四周显示种别和置信度。 3. 机能测试: • 丈量帧速度(FPS)和检测正确度。微调量化位宽或数据流参数,以优化及时需求。 Tiny YOLO 模子在 ZU3EG 上显示检测成果的及时输出,视频帧中标注了检测到的对象 7、 机能优化与调试技能 为提高机能,可以进行以下调剂: • 内存拜候:设计数据存储体例,最年夜限度操纵缓存并削减数据传输,下降内存瓶颈。 • 下降延迟:从头评估要害路径延迟。若延迟太高,调剂 Vitis HLS 中的流水线深度,并验证层间的数据依靠性。 • 量化改良:测验考试 INT8 量化。Xilinx 的 Vitis AI 可帮忙微调量化参数,以均衡正确性与速度。 分歧优化设置装备摆设对资本利用的影响 图:米尔MYC-CZU3EG/4EV/5EV-V2焦点板和开辟板 在MYIR 的 ZU3EG 开辟平台上供给了一种高效的解决方案。操纵 FPGA 怪异的矫捷性和低功耗优势,助力将来 AIoT 装备的普和和智能进级。

欲知详情,请下载word文档 下载文档

北京2024年8月27日 /美通社/ -- 在8月23日举行的2024年长三角生态绿色一体化成长示范区结合招商会上,软通动力信息手艺(团体)股分有限公司(以下简称 软通动力 )与长三角投资(上海)有限...

要害字: BSP 信息手艺

上海2024年8月26日 /美通社/ -- 本日,高端全合成润滑油品牌美孚1号联袂品牌体验官周冠宇,开启全新路程,助力泛博车主经由过程驾驶去摸索更广漠的世界。在全新发布的品牌视频中,周冠宇和分歧布景的消费者表达了对驾驶的酷爱...

要害字: BSP 汽车制造

上一篇:华体会-3年烧光近百亿,折叠屏手机“鼻祖”宣告破产! 下一篇:华体会-FPGA