图像标题生成器模型结合了计算机视觉和机器翻译的最新进展,利用神经网络生成现实的 图像标题。神经图像标题模型被训练,以最大限度地产生给定输入图像的字幕的可能性。并且可以用来生成新的图像描述。例如,下面是使用 MS COCO数据集.训练的神经图像标题生成器可能生成的标题。
生成结果:在田野里骑马的人
在这篇文章中,我们将通过一个中级水平的教程,介绍如何使用谷歌的 Show和Tell 模型在Flickr30k数据集上训练图像标题生成器。我们使用 TensorFlow框架来构建、培训和测试我们的模型,因为它相对容易使用,并且拥有一个不断增长的在线社区。
为什么生成标题?
最近在计算机视觉和自然语言处理任务中应用深度神经网络的成功,启发了人工智能研究人员在这些以前分离领域的交集中探索新的研究机会。标题生成模型必须平衡对视觉线索和自然语言的理解。 这两个传统上不相关领域的交叉点有可能在很大程度上实现变革。虽然这项技术有一些简单的应用,比如为YouTube视频生成摘要,或为未标注的图像加标题,但更有创意的应用程序可以极大地提高大部分人的生活质量。与传统的计算机视觉试图使世界更容易访问和理解计算机一样,这项技术有潜力使我们的世界更容易理解。它可以作为一名导游,甚至可以作为日常生活的视觉辅助工具,比如来自意大利人工智能公司Eyra.的Horus 可穿戴设备
图像描述生成(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。
演示:https://www.xiaohuaerai.com/trail/img2txt
转载自原文链接, 如需删除请联系管理员。
原文链接:人工智能生成图片标题描述(看图说话),转载请注明来源!