Apache Spark | |||
---|---|---|---|
![]() | |||
![]() | |||
Información general | |||
Tipo de programa | Data analytics, machine learning algorithms | ||
Desarrollador | Matei Zaharia | ||
Lanzamiento inicial | 30 de mayo de 2014 | ||
Licencia | Apache License 2.0 | ||
Estado actual | Activo | ||
Idiomas | inglés | ||
Información técnica | |||
Programado en | Scala, Java, Python, R | ||
Plataformas admitidas | Java | ||
Versiones | |||
Última versión estable | 3.5.417 de diciembre de 2024 | ||
Archivos legibles | |||
| |||
Archivos editables | |||
| |||
Enlaces | |||
Apache Spark es un framework de computación (entorno de trabajo) en clúster open-source. Fue desarrollada originariamente en la Universidad de California, en el AMPLab de Berkeley. El código base del proyecto Spark fue donado más tarde a la Apache Software Foundation que se encarga de su mantenimiento desde entonces. Spark proporciona una interfaz para la programación de clusters completos con Paralelismo de Datos implícito y tolerancia a fallos.
Apache Spark se puede considerar un sistema de computación en clúster de propósito general y orientado a la velocidad. Proporciona APIs en Java, Scala, Python y R. También proporciona un motor optimizado que soporta la ejecución de gráficos en general. También soporta un conjunto extenso y rico de herramientas de alto nivel entre las que se incluyen Spark SQL (para el procesamiento de datos estructurados basada en SQL), MLlib para implementar machine learning, GraphX para el procesamiento de graficos y Spark Streaming.