Apache Hive Là Gì

  -  

Thuật ngữ Big Data được thực hiện cho các cỗ tập tài liệu to đùng bao gồm khối lượng mập, tốc độ cao và những loại tài liệu vẫn tăng thêm từng ngày. Sử dụng những hệ thống quản lý dữ liệu truyền thống cuội nguồn, rất cạnh tranh nhằm cách xử trí Big data. Do đó, Quỹ phần mềm Apache (Apache Software Foundation) đang reviews một framework thương hiệu là Hadoop để giải quyết các thách thức làm chủ và xử lý Big data.

Bạn đang xem: Apache hive là gì

Hadoop

Hadoop là 1 framework open-source để lưu trữ cùng xử lý Big data vào môi trường thiên nhiên phân tán. Nó chứa nhị mô-đun, một là MapReduce cùng một mô-đun khác là Hệ thống tệp phân tán Hadoop (Hadoop Distributed File System - HDFS).

MapReduce: Đây là quy mô lập trình sẵn tuy vậy tuy vậy nhằm cách xử trí một lượng Khủng dữ liệu tất cả cấu tạo, cung cấp kết cấu với ko kết cấu trên những các Khủng của Hartware thương mại (commodity hardware).HDFS: Hệ thống tệp phân tán Hadoop là một trong những phần của framework Hadoop, được sử dụng để tàng trữ với giải pháp xử lý các bộ tài liệu. Nó cung cấp một hệ thống tập tin chịu đựng lỗi nhằm chạy xe trên Hartware tmùi hương mại.

Hệ sinh thái xanh Hadoop cất các sub-project (tool) khác nhau nlỗi Sqoop, Pig với Hive sầu được áp dụng để hỗ trợ các mô-đun Hadoop.

Sqoop: Nó được sử dụng nhằm nhập và xuất tài liệu cho cùng đi thân HDFS với RDBMS.Pig: Đây là 1 gốc rễ ngôn ngữ giấy tờ thủ tục được thực hiện nhằm cải cách và phát triển tập lệnh cho những hoạt động vui chơi của MapReduce.

Xem thêm: Glassfish Là Gì ? Hướng Đẫn Download Và Cài Đặt Glassfish Server

Hive: Đây là 1 trong căn cơ được sử dụng nhằm cải cách và phát triển các tập lệnh một số loại Squốc lộ để triển khai những vận động MapReduce.

Chụ ý: Có nhiều cách thức khác nhau để triển khai các hoạt động MapReduce:

Cách tiếp cận truyền thống thực hiện công tác Java MapReduce đến tài liệu có kết cấu, bán cấu tạo và ko kết cấu.Cách tiếp cận sử dụng câu lệnh mang lại MapReduce để xử lý tài liệu có cấu trúc và chào bán cấu trúc bằng Pig.Ngôn ngữ truy hỏi vấn Hive sầu (HiveQL hoặc HQL) đến MapReduce nhằm cách xử trí tài liệu có cấu trúc bởi Hive.Hive sầu là gì?

Hive sầu là 1 phương tiện cơ sở hạ tầng kho dữ liệu để xử trí dữ liệu tất cả cấu trúc vào Hadoop. Nó nằm tại đỉnh Hadoop để nắm tắt Dữ liệu to và giúp tầm nã vấn và so sánh dễ dàng.

Ban đầu Hive được cải cách và phát triển vì chưng Facebook, tiếp đến Quỹ Phần mềm Apache đã mang với cải cách và phát triển nó thành một mối cung cấp mnghỉ ngơi bên dưới thương hiệu Apabít Hive sầu. Nó được thực hiện vị các đơn vị khác biệt. Ví dụ: Amazon áp dụng nó vào Amazon Elastic MapReduce.

Hive chưa hẳn là:Một CSDL quan tiền hệMột xây đắp nhằm giải pháp xử lý thanh toán giao dịch Online (OnLine Transaction Processing - OLTP)Một ngữ điệu cho những tróc nã vấn thời gian thực cùng cập nhật cung cấp hàngkhác biệt của HiveNó tàng trữ lược đồ vật trong cửa hàng tài liệu với xử trí dữ liệu vào HDFS.Nó được thiết kế với cho OLAP.Nó cung ứng ngữ điệu hình dáng SQL để truy tìm vấn được điện thoại tư vấn là HiveQL hoặc Hquốc lộ.Nó là quen thuộc, hối hả, có khả năng không ngừng mở rộng.Kiến trúc của Hive

Sơ thứ sau đây biểu lộ kiến trúc của Hive:

*
Sơ đồ thành phần này cất những đơn vị chức năng khác nhau.

User Interface: Hive là một trong những phần mềm hạ tầng kho tài liệu hoàn toàn có thể tạo ra sự shop giữa người dùng với HDFS. Các bối cảnh người tiêu dùng mà Hive sầu cung ứng là Hive Web UI, Hive sầu commvà line với Hive sầu HD Insight (Trong sever Windows).Meta Store: Hive lựa chọn những máy chủ các đại lý dữ liệu tương ứng nhằm lưu trữ lược trang bị hoặc metadata của các bảng, đại lý tài liệu, những cột trong một bảng, những một số loại dữ liệu của chúng cùng ánh xạ HDFS.Hivequốc lộ Process Engine: Hivequốc lộ tương tự nhỏng Squốc lộ nhằm truy hỏi vấn lên tiếng lược đồ gia dụng trên Metastore. Đây là 1 trong giữa những sửa chữa thay thế của cách thức truyền thống lịch sử đến chương trình MapReduce. Ttuyệt bởi viết công tác MapReduce bằng Java, bạn có thể viết một tầm nã vấn đến quá trình MapReduce cùng xử trí nó.Execution Engine: Phần phối hợp của công cụ cách xử trí Hivequốc lộ với MapReduce là Công thế tiến hành Hive (Hive sầu Execution Engine). Công cầm thực hiện giải pháp xử lý truy vấn với tạo nên tác dụng giống hệt như kết quả MapReduce.HDFS hoặc HBASE: Hệ thống tệp phân tán Hadoop hoặc HBASE là những nghệ thuật lưu trữ tài liệu nhằm lưu trữ dữ liệu vào hệ thống tệp.Cách thao tác làm việc của Hive

Sơ thứ sau biểu đạt tiến trình làm việc giữa Hive với Hadoop.

*

Cách Hive sầu cửa hàng với framework Hadoop:

Thực thi query: Giao diện Hive nhỏng Command line hoặc Giao diện người dùng website gửi tầm nã vấn mang đến Trình điều khiển và tinh chỉnh (ngẫu nhiên trình điều khiển cơ sở dữ liệu nào như JDBC, ODBC, v.v.) để tiến hành.Nhận kế hoạch: Trình điều khiển và tinh chỉnh gồm sự giúp đỡ của trình biên dịch truy vấn để phân tích cú pháp tróc nã vấn nhằm kiểm tra cú pháp cùng planer tróc nã vấn hoặc trải nghiệm của tầm nã vấn.Nhận metadata: Trình biên dịch gửi những hiểu biết metadata đến Metastore (ngẫu nhiên cửa hàng dữ liệu nào).Gửi metadata: Metastore gửi metadata nlỗi một ý kiến đến trình biên dịch.Gửi kế hoạch: Trình biên dịch chất vấn yên cầu cùng gửi lại kế hoạch cho trình tinh chỉnh và điều khiển. Đến phía trên, bài toán đối chiếu cú pháp và biên dịch một tróc nã vấn sẽ hoàn toàn.Kế hoạch thực hiện: Trình điều khiển gửi chiến lược thực hiện mang đến luật tiến hành.Thực xây dựng việc: Trong nội cỗ, quá trình triển khai các bước là 1 trong những các bước MapReduce. Công cầm tiến hành gửi các bước cho JobTracker, vào node Name với nó gán các bước này mang lại TaskTracker, trong node Data. Tại đây, tróc nã vấn thực thi các bước MapReduce.

Xem thêm: Hướng Dẫn Chi Tiết Cách Ghép Đồ Minecraft, Tạo Dụng Cụ Trong Minecraft

Hoạt động metadata: Trong Khi triển khai, luật thực hiện có thể xúc tiến những hoạt động metadata với Metastore.Lấy kết quả: Công gắng tiến hành thừa nhận công dụng tự các node Data.Gửi kết quả: Công núm thực thi gửi những giá trị hiệu quả kia mang lại trình điều khiển.Gửi kết quả: Trình tinh chỉnh và điều khiển gửi kết quả cho Giao diện Hive.