El cross-silo federated learning admite más flexibilidad en ciertos aspectos del diseño general, pero al mismo tiempo presenta un entorno en el que lograr otras propiedades puede ser más difícil.
La configuración de silos cruzados puede ser relevante cuando varias empresas u organizaciones comparten incentivos para entrenar un modelo basado en todos sus datos, pero no pueden compartir sus datos directamente. Esto podría deberse a restricciones impuestas por la confidencialidad o debido a restricciones legales, o incluso dentro de una sola empresa cuando no pueden centralizar sus datos entre diferentes regiones geográficas.
Data partitioning
En la configuración cross-device, se supone que los datos se particionarán mediante ejemplos. En el entorno de cross-silo, además de la partición por ejemplos, la partición por features es de relevancia práctica.
Un ejemplo podría ser cuando dos empresas en diferentes negocios tienen el mismo conjunto de clientes o se superponen, como un banco local y una empresa minorista local en la misma ciudad.
Cross-silo FL con datos particionados por features emplea una arquitectura de entrenamiento muy diferente en comparación con la configuración con datos particionados por ejemplo. Puede o no involucrar a un servidor central como una parte neutral, y según las especificaciones del algoritmo de entrenamiento, los clientes intercambian resultados intermedios específicos en lugar de parámetros del modelo, para ayudar a los cálculos de gradiente de otras partes.
En este contexto, se ha propuesto la aplicación de técnicas como el multi-party computation o homomorphic encryption para limitar la cantidad de información que otros participantes pueden inferir al observar el proceso de capacitación. La desventaja de este enfoque es que el algoritmo de entrenamiento generalmente depende del tipo de objetivo de aprendizaje automático que se persigue.
El Federated transfer learning es otro concepto que considera escenarios desafiantes en los que las partes de datos comparten solo una superposición parcial en el espacio del usuario o el espacio de características, y aprovechan las técnicas de aprendizaje de transferencia existentes para construir modelos en colaboración.
La partición por ejemplos suele ser relevante en cross-silo FL cuando una sola empresa no puede centralizar sus datos debido a restricciones legales, o cuando organizaciones con objetivos similares desean mejorar sus modelos de forma colaborativa. Por ejemplo, diferentes bancos pueden entrenar en colaboración modelos de clasificación o detección de anomalías para la detección de fraudes , los hospitales pueden construir mejores modelos de diagnóstico, etc.
Una plataforma de código abierto que admite las aplicaciones descritas anteriormente está disponible actualmente como Federated AI Technology Enabler (FATE). Otras plataformas centradas en una variedad de aplicaciones médicas, como NVIDIA Clara o para casos de uso empresarial como IBM.
Incentive mechanisms
El diseño de mecanismos de incentivos para la participación honesta es una cuestión de investigación práctica importante, ya que es particularmente relevante tanto en la configuración de cross-device como cross-silo, donde los participantes pueden ser al mismo tiempo competidores comerciales.
El incentivo puede ser en forma de pago monetario o modelos finales con diferentes niveles de rendimiento.
La opción de entregar modelos con desempeño acorde a las contribuciones de cada cliente es especialmente relevante en situaciones de aprendizaje colaborativo en las que existen competencias entre los participantes de FL. Ya que de lo contrario, los clientes pueden preocuparse de que contribuir con sus datos para entrenar modelos de federated learning beneficie a sus competidores, quienes no contribuyen tanto pero reciben el mismo modelo final de todos modos (free-rider problem).
Los objetivos relacionados incluyen cómo dividir las ganancias generadas por el modelo de federated learning entre los propietarios de datos contribuyentes para mantener la participación a largo plazo, y también cómo vincular los incentivos con las decisiones sobre la defensa contra los propietarios de datos adversarios para mejorar la seguridad del sistema, optimizando la participación de propietarios de datos para mejorar la eficiencia del sistema.
Differential privacy
La discusión de actores y modelos de amenazas es en gran medida relevante, sin embargo, la protección contra diferentes actores puede tener diferentes prioridades.
Por ejemplo, en muchos escenarios prácticos, el modelo final capacitado se entregaría solo a aquellos que participan en la capacitación, lo que hace que las preocupaciones sobre «the rest of the world» sean menos importantes.
En los casos en que los clientes no se consideren una amenaza significativa, cada cliente podría controlar los datos de varios de sus respectivos usuarios, y podría ser necesaria una garantía de privacidad formal a nivel de usuario.
Tensor factorization
La factorización de tensores donde múltiples sitios (cada uno con un conjunto de datos con la misma característica, particionados horizontalmente) realizan conjuntamente la factorización de tensores compartiendo solo factores intermedios con el servidor de coordinación mientras mantienen los datos privados en cada sitio.
Entre los trabajos existentes, existen estudios basados en dirección alternating direction method of multipliers (ADMM), asi como metodos que mejran la eficiencia con el algoritmo elastic averaging SGD (EASGD) y además asegura la privacidad diferencial para los factores intermedios.