他们说一张图片抵得上一千个字,但是一千个字抵得上一张图吗?制造商和开发人员 Diego Trujillo Pisanty 试图通过他的Raspberry Pi驱动的盲人相机项目找到答案。它不是使用镜头捕捉光线来拍摄照片,而是聆听声音并根据检测到的音频构建周围环境的近似值。
该设备的工作原理与普通相机类似,您可以将相机对准您想要拍摄的对象,然后按下按钮生成图像。然而,在这种情况下,它的前部有一个巨大的号角,用于帮助放大声音的捕获。在按下按钮之前,用户应将此喇叭对准他们想要捕获的方向。然后,摄像头通过 AI 过滤器解析音频并生成图像。
根据 Pisanty 的说法,他专门为这个项目开发了一个定制的人工神经网络(或 ANN)。他根据在墨西哥城拍摄的一组视频,用自己的模型训练人工智能。
该模型是通过拍摄每一帧视频并伴随最后一秒的音频创建的。这有助于建立系统可用于创建图像的声音和视频关联。因为它是以这种方式训练的,所以它创造的一切都大致基于墨西哥城的市中心图像。