您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

大数据商业实战(I):Yelp是如何筛选精美照片的?

2022/6/18 23:30:00发布93次查看
在尝试使用数据建模的思维模式来解决复杂问题、优化结果时,很重要的一点就是从业务场景出发,明确需求,先对需要探索的问题进行定义和分类,以便应用最合适的模型手段来解决问题。
一个最典型而常见的讨论就是分类问题,也就是利用数据来预测一个分类。分类算法如决策树、随机森林、贝叶斯估计乃至神经网络在商业实践中应用非常广泛,比如对用户是否会产生某个行为(点击、注册、下单等等)进行预测,用户画像和分组,信用风险评估,甚至是对图片、视频、文本等非结构化数据按需求进行分类筛选等等。
今天我们就分享一个美国最大的点评网站yelp在照片分类上的探索经验。
yelp拥有一个亿量级的图片库,用户每天上传照片约10万张,照片的增长速度甚至超过了评论的速度。这些图片也为本地商家的服务内容和质量提供了丰富的参考信息。
照片首先能告诉我们物品种类。2015年8月,yelp技术团队就推出了一套将餐厅照片分类为食物、饮料、外部、内部或菜单的系统。之后,他们为咖啡店和酒吧训练出一套相似的分类系统,从而帮助用户更快地找到他们需要的照片。最近,他们进一步研究了如何筛选展示更美观的照片和改进照片排序,从而改善用户体验。
了解照片质量
评价照片的好坏其实是一个非常主观的任务。使一张照片优于另一张照片的可以有许多因素,并且可能因人而异。为了实现更好的用户体验,技术团队需要确定什么样的品质使照片吸引人,并开发一种可靠评估照片质量的算法。
他们首先尝试从日志中挖掘点击数据来预测照片的点击率。这里假设,那些更经常点击的照片更好。然而这个想法并不现实,原因有二:首先,人们习惯于点击模糊或文字多的图片来放大内容;由于yelp上显示照片的方式比较多样,对特定的照片很难进行有意义的比较。
接下来,他们转而考虑各种计算机视觉技术,试图寻找可能与质量得分相关联的图像内在特征。例如,摄影的一个重要概念是景深,它衡量了图像的聚焦程度。一定的景深可以巧妙地将图像主体与背景区分开来,上传到yelp的照片也不例外。许多情况下,一家餐厅最美的照片会鲜明地对焦到一个特定的菜品。
人们感知图像的另一个重要特征就是对比度。它衡量图片主体与其附近物体的亮度和颜色差异。计算对比度的公式大多涉及比较图像相邻区域的亮度或光强度。
最后,图像中物体的相对位置也是一个重要的美学考量。研究表明,人们对艺术中的对称性有天然的向往。此外,一些摄影师还会推荐所谓的“三分法则”,将图像中的重要元素沿着某些轴线排列。
深度学习构建图片打分模型
所有这些考虑都依赖于于照片区域间关系的理解。所以在确定照片评分算法时,yelp团队想找到一种强调这种关系的方法。因此,他们最终选取了卷积神经网络模型(cnns)。
在过去十年中,cnns在图像分类和处理任务方面取得了巨大成功,如面部识别和分子疾病检测。与普通神经网络类似,它们对输入向量应用一系列变换,并用输出误差来动态改进未来的预测。不过,cnns有一些额外的层次,服务于上面讨论的空间特征。具体来说,卷积层在图像上平铺了一组滤波器,而汇集层缩减了先前层次的输出量来减少计算。
开发这个模型首先需要收集训练数据。一种方法是将数十万张照片手动标记为美或不美。然而,这显然太昂贵、耗时、且高度依赖于标注师的喜好。相反,他们发现可以利用一点,即当照片上传到yelp时,通常包含的称为exif数据的附加信息。
团队发现,由单反相机拍摄的照片往往可以作为高质量图片的近似。通过调整镜头类型和光圈尺寸,单反相机可以让摄影师更好地控制图像变焦。此外,单反传感器更大、对光更敏感,使其在昏暗环境下也能拍摄出优质照片。经常使用单反相机的人也往往有更多经验和技能来捕捉更高质量图像。
在这些照片上训练模型可以使其学习到重要的照片特征,不论是不是由单反拍摄,都能够识别出其中精美的照片。
(尽管这张照片是iphone拍摄,yelp模型给出了一个高分)
yelp团队尝试了几种训练模型的方法:最初,他们收集了10万张单反和非单反相机拍摄图片,分别用正负号标注,输入alexnet模型(由多伦多大学研究人员在2012年开发)。为了提高模型精确度,他们又用超以往十倍的数据量训练出另一个模型(alexnet 1m)。最后,他们测试了googlenet模型,它由谷歌研究人员于2014年开发,在以往顶尖模型基础上加深层次,实现了最先进的性能。
在每种情况下,他们进一步利用yelp工程师手动标注组成的上万张图像数据集来评估模型,其中只包括那些绝对好或绝对糟糕的图像。通过多次迭代,模型正确识别优劣照片的能力大幅改善。
宏观层面
经过初步分析,由算法选出的照片确实更聚焦、明亮和有美感。不过,一些特殊情况促使他们寻找重新加权和排序某些照片的方法。为此,他们建立了一套整合多种信息的系统,确保向用户展示一户商家最精彩的照片。
(商业图片 -> 深度学习模型 -> 质量得分)
(商业图片 -> 综合得分逻辑 -> 多样性逻辑( 排序后的商业图片)
在目前的管道中,他们首先检索出上述模型生成的商家全部质量得分,然后根据以下特征做调整:
1. 商标过滤:他们注意到,即使用户没什么兴趣查看或点击,商标图片(比如只包括餐厅名字在图片上)经常获得较高的模型得分。因此,他们根据图像强度直方图的熵值单独训练了一个分类模型,来降低这些图像的得分。
2. 分辨率:为了标准化对神经网络的输入并加快计算,他们将每个图像缩小到227×227像素。但是,这意味着该模型不能识别照片是否过小而无法为用户提供优质内容。为了解决这个问题,他们把低于一定大小阈值的照片进行了降级处理。
最终,他们使用由分类算法确定的标签,来确保不同类型的照片(内部、街景、食物、菜单和饮品等等)都显示在商家的顶部结果中。
应用:封面图片排序
在yelp,每个商家的页面都展示了他们最好的照片,也就是封面照片。多年来,yelp纯粹通过综合计算喜好、投票、上传日期和图片标题来选择这些照片。然而这种方法有一些明显缺陷。
首先,这个体系受选择性偏差影响深重。 封面照片的浏览点击次数远高于平均水平。于是,一旦照片被放在商家页面上,即使稍后有更有吸引力、有用的照片上传,原有的照片也很可能排序在原处。另外,仅仅依靠喜好来确定突出的照片,可能会导致“点击诱饵”的出现。也就是说,某些低相关性和低质量的图片可能由于其挑衅和煽动性质而受追捧,然后被置顶。而现在,应用新的计分算法,餐馆的封面照片质量有了显着的提高。不信你看:
小结
很多公司如今都面临着处理消化庞大图库的挑战,然而图片作为非结构化数据也因其复杂性和高技术门槛这一资源鲜少被充分利用。实际上,借助神经网络模型的推广普及,数据专家们对于图片的商业应用已经有了比较成熟的算法框架,针对图片的分类问题,已经不仅局限于识别图像主体,而进一步延伸到美学范畴。相信未来这一领域的实践会孕育出更多商机。

该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product