facebook最新研究,使用ai技术,只需要一张食物的图片就可以洞悉它的烹饪方法。
该系统通过新颖的架构预测成分作为集合,在不强加任何顺序的情况下对其依赖性进行建模,然后通过同时处理图像及其推断成分来生成烹饪指令。
ai变身大厨:看一眼就知道这道菜怎么做的
一份优秀的菜谱不仅能够写清楚配料,还要有清晰的烹饪步骤,例如大火爆炒几分钟,小火慢炖几分钟,是切丝还是切块等等。
之前,传统的做法是将图片转图谱问题看做一种“检索任务”,即根据图片的相似度从食谱谱数据集中匹配烹饪方案。
这类系统的性能在很大程度上取决于数据集的大小和多样性,以及图片的质量。如果数据集中压根没有图片对应食谱的时候,显然这个系统非常失败。
将图片到食谱看成条件生成问题可以很好的解决传统系统的难题。换句话说,与直接的图片匹配不同,后者更多的是预测配料的成分,然后根据配料和其对应的美食图片生成烹饪步骤。
更重要的进步:除了食谱,之后可能还能识别卡路里
从食品图片到菜谱,需要获得超越仅仅是可见的图片之外的信息,这对于当前的计算机视觉系统无疑是一个巨大挑战。
与单纯理解自然图像相比,视觉成分预测需要的还有高级推理和先验知识,例如,羊角面包中含有黄油。 因为食品具有比较高的类别内可变性 intra-class variability,食物的形态在烹饪过程中发生改变,一道煮熟的菜肴和生的原料的样子可能天差地别。
逆烹饪的实现是迈向更广泛的食品理解系统的第一步,接下来也许就可以通过照片实现系统对于食物的卡路里估算和自动创建食谱。
成分预测也可以用于解决更广泛的问题,例如实现图像到集合的预测。