Apache Spark

Apache Spark
Información general
Tipo de programa Data analytics, machine learning algorithms
Desarrollador Matei Zaharia
Lanzamiento inicial 30 de mayo de 2014
Licencia Apache License 2.0
Estado actual Activo
Idiomas inglés
Información técnica
Programado en Scala, Java, Python, R
Plataformas admitidas Java
Versiones
Última versión estable 3.5.417 de diciembre de 2024
Archivos legibles
Archivos editables
  • valores separados por comas
  • JavaScript Object Notation
  • Apache Parquet
  • documento de texto
  • Optimized Row Columnar
  • Apache Avro
Enlaces

Apache Spark es un framework de computación (entorno de trabajo) en clúster open-source. Fue desarrollada originariamente en la Universidad de California, en el AMPLab de Berkeley. El código base del proyecto Spark fue donado más tarde a la Apache Software Foundation que se encarga de su mantenimiento desde entonces. Spark proporciona una interfaz para la programación de clusters completos con Paralelismo de Datos implícito y tolerancia a fallos.

Apache Spark se puede considerar un sistema de computación en clúster de propósito general y orientado a la velocidad. Proporciona APIs en Java, Scala, Python y R. También proporciona un motor optimizado que soporta la ejecución de gráficos en general. También soporta un conjunto extenso y rico de herramientas de alto nivel entre las que se incluyen Spark SQL (para el procesamiento de datos estructurados basada en SQL), MLlib para implementar machine learning, GraphX para el procesamiento de graficos y Spark Streaming.


From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne