Author: Fenglin Liu, X. W., Shen Ge, Wei Fan, Yuexian Zou
Title: Federated Learning for Vision-and-Language Grounding Problems
BookTitle: The Thirty-Fourth AAAI Conference on Artificial Intelligence
Year: 2020
原文地址:https://ojs.aaai.org/index.php/AAAI/article/view/6824
这篇文章面对的问题:
视觉语言(vision-and-language)领域最近受到越来越多的关注,比如说image caption问题和VQA(visual question answering)问题,尽管深度神经网络已经取得了很大的成功,但是大部分深度学习的框架仍然是聚焦于单独的任务(individual tasks),事实上如果将这些任务放在一起来考虑,有很大的概率获得更好的效果。实际上已经有这样的工作了,但是这些方法需要将所有的下游任务数据(downstream tasks data)进行共享,这样会导致数据泄露;而且当任务跨数据集时,这些方法就没有办法起效了。
这篇文章的贡献:
作者打算采用联邦学习的思路来解决以上问题,作出了以下贡献:
1、提出了一个联邦学习框架。通过生成细粒度的图像表征,提高了各种视觉和语言基础问题的性能,而不需要共享下游的任务数据。
2、在框架中实现了集中式模型,即设计的对齐、整合和映射网络(aimNet),它将从图像中提取的视觉和文本特征有效地自动转换为细粒度的图像表示。
3、在三个联合学习环境中验证了这些方法。在MSCOCO图像标题数据集、Flickr30k图像标题数据集和VQA v2.0数据集上进行的广泛实验证明了方法的有效性和普遍性。
我的理解:
这篇文章的背景是这样的,首先我的每个客户端输入的都是图像,这些图像可以是不同类型的,作者在实验中是用了两个不同的数据集来表示这一点。其次是每个客户端的任务也可以是不同的,比如一部分做视觉问答,另一部分做图像描述。因为他们的任务不一样,所以传统的联邦学习方法就不适用了。作者的方法概括的说就是让服务端去学习一个对应于不同任务的图像表示。
文章可能存在的问题:
这里服务端虽然没有直接获取客户端输入的图像,但是却可以得到所有输入图像的两种表示,而每个客户端得到这两种表示的网络模型是完全固定的。如果这个模型被获取到,或者是通过反向计算得到输入的图像,就会造成客户端数据的泄露。