微信扫物上线,全面揭秘扫一扫背后的识物技术!

12月23 日,微信扫物  iOS 版本正式上线。从识别特定编码形态的图片,到精准识别自然场景中商品图片,有哪些难点需要去克服? 扫物以图片作为媒介,聚合微信内部有价值的生态内容如电商,百科,资讯进行展示, 会催生哪些新的落地场景?本文将细细道来。

微信长期招收计算机视觉和OCR方向的人才, 欢迎简历breezecheng@tencent.com

一. 扫一扫识物概述

1.1 扫一扫识物是做什么的?

扫一扫识物是指以图片或者视频(商品图:鞋子/箱包/美妆/服装/家电/玩具/图书/食品/珠宝/家具/其他商品)作为输入媒介来挖掘微信内容生态中有价值的信息(电商+百科+资讯,如图 1 所示),并展示给用户。这里我们基本覆盖了微信全量优质小程序电商涵盖上亿商品 SKU,可以支持用户货比 N 家并直接下单购买,百科和资讯则是聚合了微信内的搜一搜、搜狗、百度等头部媒体,向用户展示和分享与该拍摄商品相关的资讯内容。

回顾 softmax 分类的决策边界:

我们将 W 和 x 都进行归一化,因而决策边界只取决于角度,迫使模型训练收敛后特征分布更加扇形化,有利于余弦检索。但是两者同时归一化,会造成模型难于收敛,大家可以思考一番为何?参考图 23 中的 softmax 特性,由于权重和特征都进行了归一化,分类逻辑值最大为 1,最小为-1,同样的三类分类学习中 gt 类目对应的 softmax 概率最大只到 0.78,远小于 1,导致模型仍有较大 loss,不好收敛。解决方法比价简单,对逻辑值乘以一个尺度值 s 即可,扩大差异化,有利于模型收敛。

2.3.2.3 同款检索之分类模型改进 2 角度 Margin

增加角度 Margin 的核心目的是让 softmax 分类的扇形分布更加有利于检索:即为同类更加聚集,不同类更加远离。常见的 3 种增加角度 margin 的策略入下图 25 所示:乘性 margin[10,11],加性余弦 margin[12],加性角度 margin[13]。

图49.手机移动端ncnn部署

2.4.4 任务调度系统平台

任务调动平台由我们的后台大神们开发,主要用于各个任务的有效调用,考虑到我们的检索库是上亿的数据库,需要保证平台具有较好的容错、容灾,以及鲁棒机制。如下图 50 所示,当然这里展示的只是冰山一角,后面等后台大神们在 KM 里给大家详细解释。

图50 亿级检索任务调度平台

三. 扫一扫识物展望

最后,我们对我们的扫一扫识物进行未来展望,还是那句话,我们期待扫一扫识物成为大家的一个生活习惯:扫一扫,知你所看;扫一扫,新生活,新姿势。

图51 扫一扫识物未来展望

参考文献

[1] 公司内部文档

[2] https://blog.csdn.net/Notzuonotdied/article/details/95727107

[3] Learning Deep Features for Discriminative Localization,CVPR16

[4] Weakly Supervised Object Localization with Latent Category Learning, ECCV14

[5] Weakly Supervised Deep Detection Networks, arXiv16

[6] Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation, arXiv16

[7] https://scikit-learn.org/stable/modules/clustering.html

[8] Focal Loss for Dense Object Detection, arXiv18

[9]https://zhuanlan.zhihu.com/p/76391405

[10] SphereFace: Deep Hypersphere Embedding for Face Recognition,arXiv18

[11] Large-Margin Softmax Loss for Convolutional Neural Networks, arXiv17

[12] CosFace: Large Margin Cosine Loss for Deep Face Recognition, arXiv18

[13] ArcFace: Additive Angular Margin Loss for Deep Face Recognition, arXiv18

[14] Adaptively Weighted Multi-task Deep Network for Person A!ribute
Classification, MM17

[15] Concurrent Spatial and Channel ‘Squeeze & Excitation’ in Fully
Convolutional Networks, arXiv18

[16] Hard-Aware Deeply Cascaded Embedding, ICCV17

[17] Re-ranking Person Re-identification with k-reciprocal Encoding, CVPR17

本站文章资源均来源自网络,除非特别声明,否则均不代表站方观点,并仅供查阅,不作为任何参考依据!
如有侵权请及时跟我们联系,本站将及时删除!
如遇版权问题,请查看 本站版权声明
THE END
分享
二维码
海报
微信扫物上线,全面揭秘扫一扫背后的识物技术!
12月23 日,微信扫物  iOS 版本正式上线。从识别特定编码形态的图片,到精准识别自然场景中商品图片,有哪些难点需要去克服? 扫物以图片作为媒介,聚合微信内...
<<上一篇
下一篇>>