Microsoft donosi .NET dev u Apache Spark

Microsoft i .NET Foundation objavili su verziju 1.0 .NET za Apache Spark, paket otvorenog koda koji donosi .NET razvoj u analitički mehanizam Spark za opsežnu obradu podataka.

Najavljen 27. listopada .NET za Apache Spark 1.0 ima podršku za .NET programe koji ciljaju .NET Standard 2.0 ili noviji. Korisnici mogu pristupiti API-ima Spark DataFrame, pisati Spark SQL i stvarati korisnički definirane funkcije UDF-ove).

Okvir .NET for Apache Spark dostupan je na GitHub stranici .NET Foundation ili od NuGet-a. Ostale mogućnosti .NET-a za Apache Spark 1.0 uključuju:

  • Okvir za API proširenje za dodavanje podrške za dodatne Spark knjižnice, uključujući Linux Foundation Delta Lake, Microsoft OSS Hyperspace, ML.NET i Apache Spark MLlib funkcionalnost.
  • Programi .NET za Apache Spark koji nisu UDF-ovi pokazuju istu brzinu kao ne-UDF-ovi temeljeni na Scali i PySpark-u. Ako aplikacije uključuju UDF-ove, programi .NET for Apache Spark barem su brzi kao programi PySpark ili bi mogli biti brži.
  • .NET za Apache Spark ugrađen je u Azure Synapse i Azure HDInsight. Također se može koristiti u drugim ponudama Apache Spark oblaka, uključujući Azure Databricks.

Prva javna verzija projekta najavljena je u travnju 2019. Potaknuvši razvoj .NET-a za Apache Spark povećana je potražnja za lakšim načinom izrade aplikacija za velike podatke, umjesto da moramo učiti Scalu ili Python. Projekt se odvija u okviru .NET Foundation i podnijet je kao prijedlog za poboljšanje projekta Spark koji se razmatra za izravno uključivanje u projekt Apache Spark.

Gledajući unaprijed, Microsoft rješava prepreke, uključujući postavljanje preduvjeta i ovisnosti te pronalaženje kvalitetne dokumentacije, s primjerima kao što su "spremne za rad" Dockerove slike i ažuriranja u .NET za Apache Spark dokumentaciju koju daje zajednica. Sljedeći prioritet je podrška mogućnostima implementacije, uključujući integraciju s CIP / CD devops cjevovodima i objavljivanje poslova izravno iz Visual Studija.