Apache Spark

Apache Spark
Información general
Tipo de programa	Data analytics, machine learning algorithms
Desarrollador	Matei Zaharia
Lanzamiento inicial	30 de mayo de 2014
Licencia	Apache License 2.0
Estado actual	Activo
Idiomas	inglés
Información técnica
Programado en	Scala, Java, Python, R
Plataformas admitidas	Java
Versiones
Última versión estable	3.5.417 de diciembre de 2024
Archivos legibles
varios	JavaScript Object Notation; valores separados por comas; documento de texto; Apache Parquet; Optimized Row Columnar; Apache Avro;
	JavaScript Object Notation; valores separados por comas; documento de texto; Apache Parquet; Optimized Row Columnar; Apache Avro;
Archivos editables
	valores separados por comas; JavaScript Object Notation; Apache Parquet; documento de texto; Optimized Row Columnar; Apache Avro;
Enlaces
	Sitio web oficial Repositorio de código Seguimiento de errores
	[editar datos en Wikidata]

Apache Spark es un framework de computación (entorno de trabajo) en clúster open-source. Fue desarrollada originariamente en la Universidad de California, en el AMPLab de Berkeley. El código base del proyecto Spark fue donado más tarde a la Apache Software Foundation que se encarga de su mantenimiento desde entonces. Spark proporciona una interfaz para la programación de clusters completos con Paralelismo de Datos implícito y tolerancia a fallos.

Apache Spark se puede considerar un sistema de computación en clúster de propósito general y orientado a la velocidad. Proporciona APIs en Java, Scala, Python y R. También proporciona un motor optimizado que soporta la ejecución de gráficos en general. También soporta un conjunto extenso y rico de herramientas de alto nivel entre las que se incluyen Spark SQL (para el procesamiento de datos estructurados basada en SQL), MLlib para implementar machine learning, GraphX para el procesamiento de graficos y Spark Streaming.

Apache Spark

From Wikipedia, the free encyclopedia · View on Wikipedia