Bedste fremgangsmåder til implementering af Hadoop-server på CentOS / RHEL 7 - Del 1


I denne artikelserie skal vi dække hele Cloudera Hadoop Cluster Building-bygningen med anbefalet bedste praksis fra leverandør og industri.

OS-installation og udførelse af OS-niveau Forudsætninger er de første trin til at opbygge en Hadoop-klynge. Hadoop kan køre på Linux-platformens forskellige smag: CentOS, RedHat, Ubuntu, Debian, SUSE osv. I realtidsproduktion er de fleste Hadoop-klynger bygget oven på RHEL/CentOS, vi bruger CentOS 7 til demonstration i denne række tutorials.

I en organisation kan OS-installation udføres ved hjælp af kickstart. Hvis det er en 3 til 4 node-klynge, er manuel installation mulig, men hvis vi bygger en stor klynge med mere end 10 noder, er det kedeligt at installere OS et efter et. I dette scenarie kommer Kickstart-metoden ind i billedet, vi kan fortsætte med masseinstallationen ved hjælp af kickstart.

At opnå god ydelse fra et Hadoop-miljø afhænger af tilvejebringelse af den korrekte hardware og software. Så at opbygge en produktion Hadoop-klynge involverer en masse overvejelser med hensyn til hardware og software.

I denne artikel gennemgår vi forskellige benchmarks om OS-installation og nogle bedste fremgangsmåder til implementering af Cloudera Hadoop Cluster Server på CentOS/RHEL 7.

Vigtig overvejelse og bedste praksis for implementering af Hadoop Server

Følgende er de bedste fremgangsmåder til opsætning af implementering af Cloudera Hadoop Cluster Server på CentOS/RHEL 7.

  • Hadoop servers do not require enterprise standard servers to build a cluster, it requires commodity hardware.
  • In the production cluster, having 8 to 12 data disks are recommended. According to the nature of the workload, we need to decide on this. If the cluster is for compute-intensive applications, having 4 to 6 drives is best practice to avoid I/O issues.
  • Data drives should be partitioned individually, for example – starting from /data01 to /data10.
  • RAID configuration is not recommended for worker nodes, because Hadoop itself providing fault-tolerance on data by replicating the blocks into 3 by default. So JBOD is best for worker nodes.
  • For Master Servers, RAID 1 is the best practice.
  • The default filesystem on CentOS/RHEL 7.x is XFS. Hadoop supports XFS, ext3, and ext4. The recommended file-system is ext3 as it is tested for good performance.
  • All the servers should be having the same OS version, at-least same minor release.
  • It is best practice to have homogeneous hardware (all worker nodes should have the same hardware characteristics (RAM, disk space & Core etc).
  • According to the cluster workload (Balanced Workload, Compute Intensive, I/O Intensive) and size, resource (RAM, CPU) planning per server will get differ.

Find nedenstående eksempel til diskpartitionering af serverne på 24 TB lagring.

Installation af CentOS 7 til implementering af Hadoop Server

Ting, du skal vide, før du installerer CentOS 7-server til Hadoop Server.

  • Minimal installation is enough for Hadoop Servers (worker nodes), in some cases, GUI can be installed only for Master servers or Management servers where we can use browsers for Web UIs of Management tools.
  • Configuring networks, hostname, and other OS-related settings can be done after OS installation.
  • In real-time, server vendors will be having their own console to interact and manage the servers, for example – Dell servers are having iDRAC which is a device, embedded with servers. Using that iDRAC interface we can install OS with having an OS image in our local system.

I denne artikel har vi installeret OS (CentOS 7) på en virtuel VMware-maskine. Her har vi ikke flere diske til at udføre partitioner. CentOS svarer til RHEL (samme funktionalitet), så vi vil se trinene til installation af CentOS.

1. Begynd med at downloade CentOS 7.x ISO-billedet i dit lokale Windows-system, og vælg det, mens du starter den virtuelle maskine. Vælg 'Installer CentOS 7' som vist.

2. Vælg sprog, standard er engelsk, og klik på Fortsæt.

3. Valg af software - Vælg 'Minimal installation' og klik på 'Udført'.

4. Indstil rodadgangskoden, da den vil bede os om at indstille.

5. Installationsdestination - Dette er det vigtige trin for at være forsigtig. Vi skal vælge den disk, hvor operativsystemet skal installeres, dedikeret disk skal vælges til OS. Klik på 'Installationsdestination' og vælg disken, i realtid vil flere diske være der, vi skal vælge, foretrukket 'sda'.

6. Andre lagerindstillinger - Vælg den anden mulighed (jeg vil konfigurere partitionering) for at konfigurere OS-relateret partitionering som/var,/var/log,/home,/tmp,/opt,/swap.

7. Når du er færdig, skal du starte installationen.

8. Når installationen er gennemført, skal du genstarte serveren.

9. Log ind på serveren, og indstil værtsnavnet.

# hostnamectl status
# hostnamectl set-hostname tecmint
# hostnamectl status

I denne artikel har vi gennemgået OS-installationstrin og bedste praksis til filsystempartitionering. Disse er alle generelle retningslinjer, alt efter arten af arbejdsbyrden skal vi muligvis koncentrere os om flere nuancer for at opnå den bedste ydeevne for klyngen. Klyngeplanlægning er kunst for Hadoop-administratoren. Vi dykker dybt ned i forudsætninger på OS-niveau og sikkerhedshærdning i den næste artikel.