apache hive la gi

Đã đăng vô Sep 15th, 2019 2:27 p.m.

7 phút đọc

Bạn đang xem: apache hive la gi

Thuật ngữ Big Data được dùng cho những cỗ tập dượt tài liệu lớn lao bao hàm lượng rộng lớn, vận tốc cao và nhiều loại tài liệu đang được tạo thêm từng ngày. Sử dụng những khối hệ thống vận hành tài liệu truyền thống lâu đời, rất rất khó khăn nhằm xử lý Big data. Do bại, Quỹ ứng dụng Apache (Apache Software Foundation) tiếp tục ra mắt một framework thương hiệu là Hadoop nhằm xử lý những thử thách vận hành và xử lý Big data.

Hadoop

Hadoop là 1 trong framework open-source nhằm tàng trữ và xử lý Big data vô môi trường thiên nhiên phân nghiền. Nó chứa chấp nhị mô-đun, một là MapReduce và một mô-đun không giống là Hệ thống tệp phân nghiền Hadoop (Hadoop Distributed File System - HDFS).

  • MapReduce: Đây là quy mô lập trình sẵn tuy nhiên song nhằm xử lý một lượng rộng lớn tài liệu với cấu tạo, cung cấp cấu tạo và ko cấu tạo bên trên những cụm rộng lớn của Hartware thương nghiệp (commodity hardware).
  • HDFS: Hệ thống tệp phân nghiền Hadoop là 1 trong phần của framework Hadoop, được dùng nhằm tàng trữ và xử lý những cỗ tài liệu. Nó cung ứng một khối hệ thống tập dượt tin tưởng Chịu lỗi nhằm điều khiển xe trên Hartware thương nghiệp.

Hệ sinh thái xanh Hadoop chứa chấp những sub-project (tool) không giống nhau như Sqoop, Pig và Hive được dùng nhằm trợ hùn những mô-đun Hadoop.

  • Sqoop: Nó được dùng nhằm nhập và xuất tài liệu cho tới và cút thân ái HDFS và RDBMS.
  • Pig: Đây là 1 trong nền tảng ngôn từ giấy tờ thủ tục được dùng nhằm cách tân và phát triển tập dượt mệnh lệnh cho những hoạt động và sinh hoạt của MapReduce.
  • Hive: Đây là 1 trong nền tảng được dùng nhằm cách tân và phát triển những tập dượt mệnh lệnh loại SQL nhằm triển khai những hoạt động và sinh hoạt MapReduce.

Chú ý: Có rất nhiều cách không giống nhau nhằm triển khai những hoạt động và sinh hoạt MapReduce:

  • Cách tiếp cận truyền thống lâu đời dùng lịch trình Java MapReduce cho tới tài liệu với cấu tạo, cung cấp cấu tạo và ko cấu tạo.
  • Cách tiếp cận người sử dụng câu mệnh lệnh cho tới MapReduce nhằm xử lý tài liệu với cấu tạo và cung cấp cấu tạo vì chưng Pig.
  • Ngôn ngữ truy vấn Hive (HiveQL hoặc HQL) cho tới MapReduce nhằm xử lý tài liệu với cấu tạo vì chưng Hive.

Hive là gì?

Hive là 1 trong dụng cụ hạ tầng kho tài liệu nhằm xử lý tài liệu với cấu tạo vô Hadoop. Nó phía trên đỉnh Hadoop nhằm tóm lược Dữ liệu rộng lớn và hùn truy vấn và phân tách đơn giản.

Xem thêm: hệ thống kẻ phản diện

Ban đầu Hive được cách tân và phát triển vì chưng Facebook, tiếp sau đó Quỹ Phần mượt Apache tiếp tục lấy và cách tân và phát triển nó trở nên một mối cung cấp ngỏ bên dưới thương hiệu Apache Hive. Nó được dùng vì chưng những công ty lớn không giống nhau. Ví dụ: Amazon dùng nó vô Amazon Elastic MapReduce.

Hive ko cần là:

  • Một CSDL quan lại hệ
  • Một design nhằm xử lý giao dịch thanh toán Online (OnLine Transaction Processing - OLTP)
  • Một ngôn từ cho những truy vấn thời hạn thực và update cung cấp hàng

Đặc trưng của Hive

  • Nó tàng trữ lược thiết bị vô hạ tầng tài liệu và xử lý tài liệu vô HDFS.
  • Nó được design cho tới OLAP.
  • Nó cung ứng ngôn từ loại SQL nhằm truy vấn được gọi là HiveQL hoặc HQL.
  • Nó là thân thuộc, nhanh gọn, với năng lực không ngừng mở rộng.

Kiến trúc của Hive

Sơ thiết bị tại đây tế bào mô tả bản vẽ xây dựng của Hive:

Sơ thiết bị bộ phận này chứa chấp những đơn vị chức năng không giống nhau.

  • User Interface: Hive là 1 trong ứng dụng hạ tầng kho tài liệu hoàn toàn có thể dẫn đến sự tương tác thân ái người tiêu dùng và HDFS. Các skin người tiêu dùng nhưng mà Hive tương hỗ là Hive Web UI, Hive command line và Hive HD Insight (Trong sever Windows).
  • Meta Store: Hive lựa chọn những sever hạ tầng tài liệu ứng nhằm tàng trữ lược thiết bị hoặc metadata của những bảng, hạ tầng tài liệu, những cột vô một bảng, những loại tài liệu của bọn chúng và ánh xạ HDFS.
  • HiveQL Process Engine: HiveQL tương tự động như SQL nhằm truy vấn vấn đề lược thiết bị bên trên Metastore. Đây là 1 trong trong mỗi thay cho thế của cách thức truyền thống lâu đời cho tới lịch trình MapReduce. Thay vì thế ghi chép lịch trình MapReduce vì chưng Java, tất cả chúng ta hoàn toàn có thể ghi chép một truy vấn cho tới việc làm MapReduce và xử lý nó.
  • Execution Engine: Phần phối kết hợp của dụng cụ xử lý HiveQL và MapReduce là Công cụ thực đua Hive (Hive Execution Engine). Công cụ thực đua xử lý truy vấn và tạo ra sản phẩm tựa như sản phẩm MapReduce.
  • HDFS hoặc HBASE: Hệ thống tệp phân nghiền Hadoop hoặc HBASE là những chuyên môn tàng trữ tài liệu nhằm tàng trữ tài liệu vô khối hệ thống tệp.

Cách thao tác làm việc của Hive

Sơ thiết bị sau tế bào mô tả tiến độ thao tác làm việc thân ái Hive và Hadoop.

Xem thêm: vợ của ảnh đế lại phá hỏng gameshow

Cách Hive tương tác với framework Hadoop:

  1. Thực đua query: Giao diện Hive như Command line hoặc Giao diện người tiêu dùng trang web gửi truy vấn cho tới Trình tinh chỉnh và điều khiển (bất kỳ trình tinh chỉnh và điều khiển hạ tầng tài liệu nào là như JDBC, ODBC, v.v.) nhằm thực đua.
  2. Nhận tiếp hoạch: Trình tinh chỉnh và điều khiển với sự trợ hùn của trình biên dịch truy vấn nhằm phân tách cú pháp truy vấn nhằm đánh giá cú pháp và plan truy vấn hoặc đòi hỏi của truy vấn.
  3. Nhận metadata: Trình biên dịch gửi đòi hỏi metadata cho tới Metastore (bất kỳ hạ tầng tài liệu nào).
  4. Gửi metadata: Metastore gửi metadata như 1 phản hồi cho tới trình biên dịch.
  5. Gửi tiếp hoạch: Trình biên dịch đánh giá đòi hỏi và gửi lại plan cho tới trình tinh chỉnh và điều khiển. Đến trên đây, việc phân tách cú pháp và biên dịch một truy vấn tiếp tục hoàn thành.
  6. Kế hoạch thực hiện: Trình tinh chỉnh và điều khiển gửi plan triển khai cho tới dụng cụ thực đua.
  7. Thực thực thi việc: Trong nội cỗ, quy trình thực đua việc làm là 1 trong việc làm MapReduce. Công cụ thực đua gửi việc làm cho tới JobTracker, vô node Name và nó gán việc làm này cho tới TaskTracker, vô node Data. Tại trên đây, truy vấn thực đua việc làm MapReduce. Hoạt động metadata: Trong Lúc triển khai, dụng cụ thực đua hoàn toàn có thể thực đua những hoạt động và sinh hoạt metadata với Metastore.
  8. Lấy kết quả: Công cụ thực đua nhận sản phẩm kể từ những node Data.
  9. Gửi kết quả: Công cụ thực đua gửi những độ quý hiếm sản phẩm bại cho tới trình tinh chỉnh và điều khiển.
  10. Gửi kết quả: Trình tinh chỉnh và điều khiển gửi sản phẩm cho tới Giao diện Hive.

All rights reserved