HDFS LÀ GÌ

     
Mở đầu

Có bao giờ bạn băn khoăn lượng dữ liệu của các công ty technology lớn như Facebook, Amazon, Google, ... Thu thập từng ngày và được xử lý ra sao mà vẫn bảo vệ tốc độ truy cập một cách lập cập và kết quả nhất.

Bạn đang xem: Hdfs là gì

Từ đấy chúng ta biết cho BIG DATA. Nó là thuật ngữ dùng để chỉ một tập vừa lòng dữ liệu không hề nhỏ và rất phức tạp đến nỗi hầu như công cụ, áp dụng xử lí dữ liệu truyền thống lịch sử không thể nào đảm nhiệm được. Tuy nhiên, Big Data lại đựng trong mình rất nhiều thông tin quý giá nhưng mà nếu trích xuất thành công, nó sẽ giúp đỡ rất những cho việc kinh doanh, phân tích khoa học, dự đoán các dịch căn bệnh sắp gây ra và thậm chí là cả việc xác định điều kiện giao thông theo thời hạn thực.

Hiện nay việc xử lý BIG DATA đang trong những ưu tiên bậc nhất của những công ty công nghệ trên toàn nạm giới. đề xuất những framwork giúp bài toán xử lý BIG DATA cũng đang càng ngày càng được chăm chú và phát triển mạnh.

Bài viết này sẽ reviews về Hadoop, 1 trong những các technology cốt lõi đến việc tàng trữ và truy cập số lượng khủng dữ liệu.

Hadoop là gì?

Hadoop là một trong framwork giúp tàng trữ và cách xử lý Big Data vận dụng MapReduce. Nói dễ dàng và đơn giản cách không giống nó sẽ giúp sắp xếp dữ liệu làm thế nào để cho user rất có thể dễ dàng sử dụng nhất.

MapReduce được Google tạo nên ra ban sơ để xử lý đống dữ liệu lớn của công ty họ. Ta còn có thể gọi cách thức này là Phân tán dữ liệu vày nó bóc tách hết tập hợp các dữ liệu ban sơ thành các dữ liệu bé dại và sắp xếp lại chúng để thuận lợi tìm kiếm cùng truy xuất hơn, nhất là việc truy tìm xuất những dữ liệu tương đồng. Ví dụ thường bắt gặp nhất là các đề xuất mà ta dễ thấy ở Google kiếm tìm kiếm

Như vậy quy mô lập trình bản đồ Reduce là nền tảng ý tưởng phát minh của Hadoop. Bạn dạng thân Hadoop là một framework chất nhận được phát triển những ứng dụng phân tán phần cứng thường thì . Những phần cứng này thường có tác dụng hỏng hóc cao. Không giống với loại phần cứng chuyên dụng đắt tiền, tài năng xảy ra lỗi phải chăng như những supermicrocomputer chẳng hạn.

Hadoop viết bằng Java. Mặc dù nhiên, nhờ cách thức streaming, Hadoop được cho phép phát triển những ứng dụng phân tán bởi cả java lẫn một số ngôn ngữ lập trình khác ví như C++, Python, Pearl.

Kiến trúc Hadoop

Hadoop bao gồm 4 module:

Hadoop Common: Đây là các thư viện với tiện ích cần thiết của Java để những module không giống sử dụng. Phần đa thư viện này cung cấp hệ thống file và lớp OS trừu tượng, bên cạnh đó chứa các mã lệnh Java nhằm khởi cồn Hadoop.Hadoop YARN: Đây là framework để quản lý tiến trình với tài nguyên của những cluster.

Xem thêm: Cách Tắt Gợi Ý Bạn Be Trên Messenger Khi Có Bạn Bè Mới Trên Facebook

Hadoop Distributed tệp tin System (HDFS): Đây là khối hệ thống file phân tán cung cấp truy cập thông lượng cao đến ứng dụng khai quật dữ liệu.Hadoop MapReduce: Đây là khối hệ thống dựa bên trên YARN dùng để xử lý song song những tập tài liệu lớn.

Hiện nay Hadoop đang càng ngày được mở rộng cũng như được các framwork khác cung ứng như Hive, Hbase, Pig. Tùy vào mục đích sử dụng mà lại ta sẽ áp dụng framework tương xứng để cải thiện hiệu trái xử lý tài liệu của Hadoop.

Hadoop hoạt động như cố gắng nào?

Giai đoạn 1:

Một user hay 1 ứng dụng có thể submit một job lên Hadoop (hadoop job client) với yêu cầu cách xử lý cùng những thông tin cơ bản:

Truyền tài liệu lên server(input) để bắt đầu phân tán tài liệu và chuyển ra công dụng (output).Các tài liệu được chạy thông qua 2 hàm chính là map cùng reduce.Map: đã quét qua toàn cục dữ liệu cùng phân tán chúng ra thành các dữ liệu con.Reduce: sẽ thu thập các dữ liệu con lại và sắp xếp lại chúng.Các tùy chỉnh thiết lập cụ thể liên quan đến job trải qua các thông số truyền vào.

Giai đoạn 2:

Hadoop job client submit job (file jar, file thực thi) và ban đầu lập lịch làm việc(JobTracker) gửi job vào hàng ngóng .

Sau khi tiếp nhận yêu cầu từ JobTracker, hệ thống cha(master) đang phân chia các bước cho các server con(slave). Những server bé sẽ thực hiện các job được giao với trả kết quả cho server cha.

Giai đoạn 3:

TaskTrackers dùng để làm kiểm tra bảo đảm an toàn các MapReduce hoạt động thông thường và kiểm tra kết quả nhận được (quá trình output).

Xem thêm: Chỉ Số Hgb Là Gì ? Những Điều Cần Biết Về Xét Nghiệm Hemoglobin

Khi “chạy Hadoop” tức là chạy một tập các trình nền - daemon, hoặc các chương trình hay trú, trên những máy chủ khác biệt trên mạng của bạn. Những trình nền tất cả vai trò cố kỉnh thể, một vài chỉ sống thọ trên một vật dụng chủ, một số rất có thể tồn tại trên nhiều máy chủ.

Ưu điểm của Hadoop

Hadoop framework cho phép người dùng mau lẹ viết và đánh giá các khối hệ thống phân tán. Đây là cách hiệu quả cho phép phân phối tài liệu và công việc xuyên suốt những máy trạm dựa vào cơ chế xử lý tuy vậy song của những lõi CPU.Hadoop không phụ thuộc vào cơ chế chịu đựng lỗi của hartware fault-tolerance và high availability (FTHA), thay bởi vậy phiên bản thân Hadoop có những thư viện có phong cách thiết kế để vạc hiện cùng xử lý các lỗi sinh sống lớp ứng dụng.Hadoop rất có thể phát triển lên các server với cấu tạo master-slave để đảm bảo thực hiện các công việc linh hoạt và không trở nên ngắt quãng vị chia bé dại công việc cho những server slave được tinh chỉnh và điều khiển bởi server master.Hadoop có thể tương ưng ý trên mọi căn cơ như Window, Linux, MacOs bởi vì được tạo thành từ Java.Cài đặt

Tải Hadoop về máy

wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gzUnzip tệp thiết lập về

tar xzf hadoop-2.4.1.tar.gzĐổi thương hiệu thư mục cho dễ quan sát =))

mv hadoop-2.4.1 to lớn hadoopCài đặt môi trường xung quanh cho Hadoop cần sử dụng vi ~/.bashrc với thêm đa số dòng sau rồi sử dụng lệnh source ~/.bashrc để xúc tiến thay đổi

export HADOOP_HOME=/usr/local/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native exportPATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/binTruy cập folder hadoop/etc/hadoop cùng sửa các file sau:

hdfs namenode -formatChạy vps hadoop:

start-dfs.shstart-yarn.shTruy cập localhost:50070: overview của hadoop

*

Truy cập localhost:8088: ta có thể xem những job mapreduce đang chạy ở đây

*

Các daemon lúc khởi chạy Hadoop đã bao gồm:

NameNodeDataNodeSecondaryNameNodeJobTrackerTaskTrackerTham khảo thêm tại:

https://kipalog.com/posts/Co-ban-ve-Hadoop

https://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm

https://www.mastercode.vn/blog/web-development/hadoop-la-gi-huong-dan-cai-dat-cau-hinh-hadoop-tren-windows.84