我们觉得(真的一本正经)这孩子缺一个投资人,或是猎头。
编译 | Rik R
来源 | Techcrunch
几年前,我十分想要一个能够识别出任何东西的 App。事实证明,解决这个问题的困难程度远超想象,但这没能阻止高中毕业生 Michael Royzen 的尝试。
他的 SmartLens App 便试图解决这一问题,对指定物体进行识别,并获取更深入的信息。当然,这款 App 并非完美无缺,但多安装一个也无妨。
之前 Royzen 找到我,我对这个想法既好奇又怀疑——迄今为止,谷歌和苹果都双双失利(至少尚未发布任何好产品),一个利用业余时间的高中生会成功吗?
我与他约在一家咖啡馆见面,想亲自体验一下这款 App。我很惊喜,还有点困惑。
当然,这个想法很简单:你把手机摄像头对着某物,这个 App 就会试图对其进行识别,它利用的是一个巨大的分类代理,但被高度优化过,是基于数千万张图像训练而成。
它可以链接到维基百科和亚马逊,让你立即了解有关产品的更多信息,或者把它买了。
它能识别超过 17000 个物体——比如不同种类的水果和花、地标、工具等等。这款 App 可以轻松区分出(长相奇特的)芒果与香蕉,甚至能够识别出我买的开心果。
后来我用它来识别社区里的植物:周旋、银莲花、木酢浆草。它竟然把它们全部识别了出来,真的很有用,即便有时会稍作犹豫。
而且最有趣的是,所有这一切都是离线完成的,没有通过蜂窝网络或 Wi-Fi 来给服务器发送图像。一切都在设备上进行,只需一两秒钟的时间。
Royzen 通过各种渠道搜刮素材,建立了自己的图像数据库,并花费数天利用 AWS EC2 进行计算,以训练多卷积神经网络。
相较于通过读取条目文本和查询亚马逊数据库的方式,这种方法识别出的产品数量要多得多。
它几乎立刻就能够识别出书籍、一瓶药丸和其它包装商品,同时提供了购买链接。如果你也在线,界面就会弹出维基百科的链接,不过设备中也存储有详细的产品信息。
但关于这一点必须说明的是,SmartLens 的装机内存超过 500 M。
Royzen 的模型很大,因为它必须在手机中存储所有的识别数据和离线内容。这种解决方案不同于亚马逊给 Fire Phone(已卒)开发的产品识别引擎,或是 Google Goggles(已卒),以及 Google Photos 的扫描功能(完全比不上 SmartLens 的识别速度和准确度)。
Royzen 在一封电子邮件中写道:「随着带有桌面类处理器的智能手机的迭代,以及能够对其(以及 GPU)进行利用的本地机器学习 API 的出现,响应快速的视觉搜索引擎应运而生。」
但没有一家大公司这样做了。为什么?
当然,App 的大小和处理器上的收费不可忽略,但它的边缘处理和离线识别的功能不容小觑,毕竟 Royzen 才刚刚起步。
但它可能会面临两个问题:1. 很难赚钱;2. 搜索质量还不够高。
必须指出的是,SmartLens 虽然聪明,但准确性还远远不够。它的识别参考几乎总是离正确答案存在一步之遥。
譬如,它将我的一本书识别成了《White Whale(白鲸)》,不过那并不是《Moby Dick(白鲸)》。被它认作鲸脂镇纸的其实是一把小铲刀。
在获得更为确信的结果前,许多条目只是简要地闪过诸如「人」或「产品设计」等参考结果。它将一种开花的灌木鉴定为 4~5 五种不同的植物——当然,包括人类。
我的显示屏识别参考是「计算机显示器」、「液晶显示器」、「计算机显示屏」、「计算机」、「计算机屏幕」、「显示设备」等等。
游戏控制器的识别结果是「控制」。一把铲子被认为是一个木勺(已经够接近了),还配了一个莫名其妙的副标题「安慰奖」。(下图,此处应有黑人问号脸,what?!)
如果是谷歌或苹果所发布的独立产品,这种表现水平(一般称为怪诞,尽管有趣)是不可容忍的。Google Lens 响应缓慢,体验糟糕,但它只是某个实用的 App 中的一个可选功能。
如果它发布了一个视觉搜索 App,将花卉识别成了人类,这家公司将被口水淹没。
另一个是变现问题。
虽然从理论上说,你可以在拍下书籍封面的同时就即刻下单,但这并不比拍照搜索或谷歌/亚马逊搜索来得更为方便。
同时,用户仍然对此心存困惑。它能识别哪些东西?不能识别哪些?我需要它来识别什么?它可以识别很多东西,从犬类品种到商品店面,但可能无法识别其他一些东西,例如一个很酷的蓝牙音箱,或是你朋友戴的机械手表,或当地画廊里展出的某幅画作的作者(不过有些可以被识别出来)。
|