Sådan installeres og konfigureres Apache Hadoop på en enkelt node i CentOS 7


Apache Hadoop er en Open Source framework build til distribueret Big Data-lagring og behandling af data på tværs af computerklynger. Projektet er baseret på følgende komponenter:

  1. Hadoop Common - den indeholder de Java-biblioteker og hjælpeprogrammer, som andre Hadoop-moduler har brug for.
  2. HDFS - Hadoop Distribueret filsystem - Et Java-baseret skalerbart filsystem fordelt på flere noder.
  3. MapReduce - YARN-ramme til parallel big data-behandling.
  4. Hadoop GARN: En ramme for klyngeressourcestyring.

Denne artikel vil guide dig om, hvordan du kan installere Apache Hadoop på en enkelt node-klynge i CentOS 7 (fungerer også til RHEL 7 og Fedora 23+ versioner). Denne type konfiguration henvises også til Hadoop Pseudo-Distribueret tilstand.

Trin 1: Installer Java på CentOS 7

1. Inden du fortsætter med Java-installationen, skal du først logge ind med root-bruger eller en bruger med root-rettigheder, opsæt dit maskins værtsnavn med følgende kommando.

# hostnamectl set-hostname master

Tilføj også en ny post i værtsfilen med din egen maskine FQDN for at pege på systemets IP-adresse.

# vi /etc/hosts

Tilføj nedenstående linje:

192.168.1.41 master.hadoop.lan

Erstat ovenstående værtsnavn og FQDN-poster med dine egne indstillinger.

2. Gå derefter til Oracle Java download-side og få fat i den nyeste version af Java SE Development Kit 8 på dit system ved hjælp af curl-kommando:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Når den binære download af Java er færdig, skal du installere pakken ved at udstede nedenstående kommando:

# rpm -Uvh jdk-8u92-linux-x64.rpm

Trin 2: Installer Hadoop Framework i CentOS 7

4. Opret derefter en ny brugerkonto på dit system uden rodkræfter, som vi bruger den til Hadoop-installationssti og arbejdsmiljø. Den nye hjemmekatalog til konto vil være i mappen /opt/hadoop .

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. På næste trin besøg Apache Hadoop-siden for at få linket til den seneste stabile version og downloade arkivet på dit system.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Uddrag arkivet, kopier katalogindholdet til startstien til hadoop-kontoen. Sørg også for at ændre de kopierede filtilladelser i overensstemmelse hermed.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Derefter skal du logge ind med hadoop-brugeren og konfigurere Hadoop- og Java-miljøvariabler på dit system ved at redigere .bash_profile -filen.

# su - hadoop
$ vi .bash_profile

Tilføj følgende linjer i slutningen af filen:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Initialiser nu miljøvariablerne og kontroller deres status ved at udstede nedenstående kommandoer:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Til sidst skal du konfigurere ssh-nøglebaseret godkendelse til hadoop-konto ved at køre nedenstående kommandoer (udskift værtsnavnet eller FQDN mod kommandoen ssh-copy-id ).

Lad også adgangskoden, der er arkiveret, være tom for automatisk at logge ind via ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan