eNewsTree.com

 找回密码
 立即注册
查看: 3867|回复: 0
打印 上一主题 下一主题

一个高中生开发的全域图像搜索App让人赞不绝口, 这是谷歌和苹果还没做到的事情

[复制链接]
跳转到指定楼层
楼主
发表于 2018-5-3 00:07:21 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

 我们觉得(真的一本正经)这孩子缺一个投资人,或是猎头。


  编译 | Rik R


  来源 | Techcrunch


  几年前,我十分想要一个能够识别出任何东西的 App。事实证明,解决这个问题的困难程度远超想象,但这没能阻止高中毕业生 Michael Royzen 的尝试。


  他的 SmartLens App 便试图解决这一问题,对指定物体进行识别,并获取更深入的信息。当然,这款 App 并非完美无缺,但多安装一个也无妨。


  之前 Royzen 找到我,我对这个想法既好奇又怀疑——迄今为止,谷歌和苹果都双双失利(至少尚未发布任何好产品),一个利用业余时间的高中生会成功吗?


  我与他约在一家咖啡馆见面,想亲自体验一下这款 App。我很惊喜,还有点困惑。


  当然,这个想法很简单:你把手机摄像头对着某物,这个 App 就会试图对其进行识别,它利用的是一个巨大的分类代理,但被高度优化过,是基于数千万张图像训练而成。


  它可以链接到维基百科和亚马逊,让你立即了解有关产品的更多信息,或者把它买了。


  它能识别超过 17000 个物体——比如不同种类的水果和花、地标、工具等等。这款 App 可以轻松区分出(长相奇特的)芒果与香蕉,甚至能够识别出我买的开心果。


  后来我用它来识别社区里的植物:周旋、银莲花、木酢浆草。它竟然把它们全部识别了出来,真的很有用,即便有时会稍作犹豫。


  


  而且最有趣的是,所有这一切都是离线完成的,没有通过蜂窝网络或 Wi-Fi 来给服务器发送图像。一切都在设备上进行,只需一两秒钟的时间。


  Royzen 通过各种渠道搜刮素材,建立了自己的图像数据库,并花费数天利用 AWS EC2 进行计算,以训练多卷积神经网络。


  相较于通过读取条目文本和查询亚马逊数据库的方式,这种方法识别出的产品数量要多得多。


  它几乎立刻就能够识别出书籍、一瓶药丸和其它包装商品,同时提供了购买链接。如果你也在线,界面就会弹出维基百科的链接,不过设备中也存储有详细的产品信息。


  但关于这一点必须说明的是,SmartLens 的装机内存超过 500 M。


  Royzen 的模型很大,因为它必须在手机中存储所有的识别数据和离线内容。这种解决方案不同于亚马逊给 Fire Phone(已卒)开发的产品识别引擎,或是 Google Goggles(已卒),以及 Google Photos 的扫描功能(完全比不上 SmartLens 的识别速度和准确度)。


  


  Royzen 在一封电子邮件中写道:「随着带有桌面类处理器的智能手机的迭代,以及能够对其(以及 GPU)进行利用的本地机器学习 API 的出现,响应快速的视觉搜索引擎应运而生。」


  但没有一家大公司这样做了。为什么?


  当然,App 的大小和处理器上的收费不可忽略,但它的边缘处理和离线识别的功能不容小觑,毕竟 Royzen 才刚刚起步。


  但它可能会面临两个问题:1. 很难赚钱;2. 搜索质量还不够高。


  必须指出的是,SmartLens 虽然聪明,但准确性还远远不够。它的识别参考几乎总是离正确答案存在一步之遥。


  譬如,它将我的一本书识别成了《White Whale(白鲸)》,不过那并不是《Moby Dick(白鲸)》。被它认作鲸脂镇纸的其实是一把小铲刀。


  在获得更为确信的结果前,许多条目只是简要地闪过诸如「人」或「产品设计」等参考结果。它将一种开花的灌木鉴定为 4~5 五种不同的植物——当然,包括人类。


  我的显示屏识别参考是「计算机显示器」、「液晶显示器」、「计算机显示屏」、「计算机」、「计算机屏幕」、「显示设备」等等。


  游戏控制器的识别结果是「控制」。一把铲子被认为是一个木勺(已经够接近了),还配了一个莫名其妙的副标题「安慰奖」。(下图,此处应有黑人问号脸,what?!)


  


  如果是谷歌或苹果所发布的独立产品,这种表现水平(一般称为怪诞,尽管有趣)是不可容忍的。Google Lens 响应缓慢,体验糟糕,但它只是某个实用的 App 中的一个可选功能。


  如果它发布了一个视觉搜索 App,将花卉识别成了人类,这家公司将被口水淹没。


  另一个是变现问题。


  虽然从理论上说,你可以在拍下书籍封面的同时就即刻下单,但这并不比拍照搜索或谷歌/亚马逊搜索来得更为方便。


  同时,用户仍然对此心存困惑。它能识别哪些东西?不能识别哪些?我需要它来识别什么?它可以识别很多东西,从犬类品种到商品店面,但可能无法识别其他一些东西,例如一个很酷的蓝牙音箱,或是你朋友戴的机械手表,或当地画廊里展出的某幅画作的作者(不过有些可以被识别出来)。


收藏收藏 分享分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|手机版|消息树

GMT-8, 2024-4-19 13:18 , Processed in 0.041070 second(s), 15 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表