Sådan installeres og konfigureres Apache Hadoop på en enkelt node i CentOS 7
Apache Hadoop er en Open Source framework build til distribueret Big Data-lagring og behandling af data på tværs af computerklynger. Projektet er baseret på følgende komponenter:
- Hadoop Common - den indeholder de Java-biblioteker og hjælpeprogrammer, som andre Hadoop-moduler har brug for.
- HDFS - Hadoop Distribueret filsystem - Et Java-baseret skalerbart filsystem fordelt på flere noder.
- MapReduce - YARN-ramme til parallel big data-behandling.
- Hadoop GARN: En ramme for klyngeressourcestyring.
Denne artikel vil guide dig om, hvordan du kan installere Apache Hadoop på en enkelt node-klynge i CentOS 7 (fungerer også til RHEL 7 og Fedora 23+ versioner). Denne type konfiguration henvises også til Hadoop Pseudo-Distribueret tilstand.
Trin 1: Installer Java på CentOS 7
1. Inden du fortsætter med Java-installationen, skal du først logge ind med root-bruger eller en bruger med root-rettigheder, opsæt dit maskins værtsnavn med følgende kommando.
# hostnamectl set-hostname master
Tilføj også en ny post i værtsfilen med din egen maskine FQDN for at pege på systemets IP-adresse.
# vi /etc/hosts
Tilføj nedenstående linje:
192.168.1.41 master.hadoop.lan
Erstat ovenstående værtsnavn og FQDN-poster med dine egne indstillinger.
2. Gå derefter til Oracle Java download-side og få fat i den nyeste version af Java SE Development Kit 8 på dit system ved hjælp af curl-kommando:
# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. Når den binære download af Java er færdig, skal du installere pakken ved at udstede nedenstående kommando:
# rpm -Uvh jdk-8u92-linux-x64.rpm
Trin 2: Installer Hadoop Framework i CentOS 7
4. Opret derefter en ny brugerkonto på dit system uden rodkræfter, som vi bruger den til Hadoop-installationssti og arbejdsmiljø. Den nye hjemmekatalog til konto vil være i mappen /opt/hadoop
.
# useradd -d /opt/hadoop hadoop # passwd hadoop
5. På næste trin besøg Apache Hadoop-siden for at få linket til den seneste stabile version og downloade arkivet på dit system.
# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. Uddrag arkivet, kopier katalogindholdet til startstien til hadoop-kontoen. Sørg også for at ændre de kopierede filtilladelser i overensstemmelse hermed.
# tar xfz hadoop-2.7.2.tar.gz # cp -rf hadoop-2.7.2/* /opt/hadoop/ # chown -R hadoop:hadoop /opt/hadoop/
7. Derefter skal du logge ind med hadoop-brugeren og konfigurere Hadoop- og Java-miljøvariabler på dit system ved at redigere .bash_profile
-filen.
# su - hadoop $ vi .bash_profile
Tilføj følgende linjer i slutningen af filen:
## JAVA env variables export JAVA_HOME=/usr/java/default export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar ## HADOOP env variables export HADOOP_HOME=/opt/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native" export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. Initialiser nu miljøvariablerne og kontroller deres status ved at udstede nedenstående kommandoer:
$ source .bash_profile $ echo $HADOOP_HOME $ echo $JAVA_HOME
9. Til sidst skal du konfigurere ssh-nøglebaseret godkendelse til hadoop-konto ved at køre nedenstående kommandoer (udskift værtsnavnet eller FQDN mod kommandoen ssh-copy-id
).
Lad også adgangskoden, der er arkiveret, være tom for automatisk at logge ind via ssh.
$ ssh-keygen -t rsa $ ssh-copy-id master.hadoop.lan