Hive ist ein Data-Warehouse-System, das zur Analyse strukturierter Daten verwendet wird. Es basiert auf Hadoop. Es wurde von Facebook entwickelt.
wie viele Wochen ein Monat hat
Hive bietet die Funktionalität zum Lesen, Schreiben und Verwalten großer Datensätze, die sich im verteilten Speicher befinden. Es führt SQL-ähnliche Abfragen namens HQL (Hive Query Language) aus, die intern in MapReduce-Jobs konvertiert werden.
Mit Hive können wir die Anforderung des traditionellen Ansatzes, komplexe MapReduce-Programme zu schreiben, überspringen. Hive unterstützt Data Definition Language (DDL), Data Manipulation Language (DML) und User Defined Functions (UDF).
Funktionen von Hive
Dies sind die folgenden Funktionen von Hive:
Filmschauspielerin Kajal
- Hive ist schnell und skalierbar.
- Es stellt SQL-ähnliche Abfragen (d. h. HQL) bereit, die implizit in MapReduce- oder Spark-Jobs umgewandelt werden.
- Es ist in der Lage, große, in HDFS gespeicherte Datensätze zu analysieren.
- Es ermöglicht verschiedene Speichertypen wie Klartext, RCFile und HBase.
- Es nutzt die Indizierung, um Abfragen zu beschleunigen.
- Es kann mit komprimierten Daten arbeiten, die im Hadoop-Ökosystem gespeichert sind.
- Es unterstützt benutzerdefinierte Funktionen (UDFs), bei denen der Benutzer seine Funktionalität bereitstellen kann.
Einschränkungen von Hive
- Hive ist nicht in der Lage, Echtzeitdaten zu verarbeiten.
- Es ist nicht für die Online-Transaktionsabwicklung konzipiert.
- Hive-Abfragen weisen eine hohe Latenz auf.
Unterschiede zwischen Bienenstock und Schwein
Bienenstock | Schwein |
---|---|
Hive wird häufig von Datenanalysten verwendet. | Pig wird häufig von Programmierern verwendet. |
Es folgt SQL-ähnlichen Abfragen. | Es folgt der Datenflusssprache. |
Es kann strukturierte Daten verarbeiten. | Es kann halbstrukturierte Daten verarbeiten. |
Es funktioniert auf der Serverseite des HDFS-Clusters. | Es funktioniert auf der Clientseite des HDFS-Clusters. |
Hive ist langsamer als Pig. | Pig ist vergleichsweise schneller als Hive. |