Apache Hudi sa používa v organizáciách ako Alibaba Group, EMIS Health, Linknovate, Tathastu.AI , Tencent a Uber, a je podporovaná ako súčasť Amazon EMR spoločnosťami Amazon Web Services a Google Cloud Platform. Nedávno Amazon Athena pridáva podporu pre dotazovanie sa na súbory údajov Apache Hudi v dátovom jazere založenom na Amazon S3 . V tomto blogu to otestujem a zistím, či Athena dokáže čítať sadu údajov formátu Hudi v S3.
Príprava - prostredie Spark, vedro S3
Na zápis údajov Hudi potrebujeme Spark. Prihláste sa do Amazon EMR a spustite spark-shell:
$ export SCALA_VERSION=2.12 $ export SPARK_VERSION=2.4.4 $ spark-shell --packages org.apache.hudi:hudi-spark-bundle_${SCALA_VERSION}:0.5.3,org.apache.spark:spark-avro_${SCALA_VERSION}:${SPARK_VERSION} --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' ... Welcome to ____ __ / __/__ ___ _____/ /__ _ / _ / _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_ version 2.4.4 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_242) Type in expressions to have them evaluated. Type :help for more information. scala>
Teraz zadajte nasledujúci kód scala na nastavenie názvu tabuľky, základnej cesty a generátora údajov na generovanie záznamov pre tento článok. Tu nastavíme | _+_ | do priečinka | _+_ | vo vedre Amazon S3, aby sme sa naň mohli neskôr opýtať:
basepath
#data-lake #athena #hudi #aws-emr #spark
medium.com
Dotazujte sa na dynamickú množinu údajov Hudi v AWS S3 Data Lake s Athenou
Pozadie. Apache Hudi sa používa v organizáciách ako Alibaba Group, EMIS Health, Linknovate, Tathastu.AI, Tencent a Uber a ako súčasť Amazon EMR ho podporujú webové služby Amazon a Google Cloud Platform. Nedávno Amazon Athena pridala podporu pre dotazovanie sa na súbory údajov Apache Hudi v dátovom jazere založenom na Amazon S3. V tomto blogu to otestujem a zistím, či Athena dokáže čítať sadu údajov formátu Hudi v S3.