Sådan gør du:Føj Cloudera-søgning til din klynge ved hjælp af Cloudera Manager

Cloudera Manager 4.7 tilføjede understøttelse til administration af Cloudera Search 1.0. Cloudera Manager-brugere kan således nemt implementere alle komponenter i Cloudera Search (inklusive Apache Solr) og administrere alle relaterede tjenester, ligesom alle andre tjenester inkluderet i CDH (Clouderas distribution af Apache Hadoop og relaterede projekter).

I denne vejledning lærer du de trin, der er involveret i at tilføje Cloudera Search til en Cloudera Enterprise (CDH + Cloudera Manager)-klynge.

Installation af SOLR-pakken

I vores eksempel bruger klyngen en CDH 4.4-pakke og kører Apache ZooKeeper, HDFS og Apache HBase-tjenester. (Pakker er en virkelig nyttig måde at implementere ny software og lave smertefri opgraderinger via Cloudera Manager.)

Hvis du gerne vil downloade SOLR-pakken direkte fra Cloudera, kan du bruge standardindstillingerne for "Remote Pakke Repository URLs" (under Pakker afsnittet på fanen Administration) som vist nedenfor:

Indstilling af pakkelagerets URL

Hvis du vil bruge et lokalt lager (det vil sige først downloade pakken fra Cloudera og derefter installere fra den lokale kopi), kan du følge instruktionerne her. De næste trin er at "Downloade", "Distribuere" og "Aktivere" pakken fra siden Pakker på fanen Værter.

Implementering af SOLR-pakken

Når pakken er aktiveret, har du alle komponenter i Cloudera Search (Solr, Lily HBase Indexer og Apache Flume's Morphlines Sink) klar til at blive brugt sammen med CDH.

Det næste trin er at tilføje Apache Solr-tjenesten til din klynge. I menuen "Handlinger" i din klynge på fanen Tjenester skal du vælge "Tilføj en tjeneste", som fører dig til "Tilføj tjeneste-guiden" i Cloudera Manager. Når du følger trinene i guiden og vælger, hvor Solr-serverne skal køre, lander du på en workflow-side, der vil initialisere Solr-tjenesten og starte alle Solr-servere.

Få Solr-tjenesten op at køre

Det er det - Solr-tjenesten er nu klar til brug! Følg instruktionerne i Cloudera Search-brugervejledningen at oprette samlinger og tilføje dokumenter til dem til indeksering. Skærmbilledet nedenfor viser, hvordan man opretter en samling ved hjælp af standard Solr-skemaet.

Oprettelse af den første samling

Tilføjelse af Lily HBase Indexer

Cloudera Manager 4.7 understøtter også Lily HBase Indexer, der følger med SOLR-pakken. Lily HBase Indexer Service er et fleksibelt, skalerbart, fejltolerant, transaktionsbaseret, nær-realtidssystem til at behandle en kontinuerlig strøm af HBase-celleopdateringer til live søgeindekser. For at bruge det skal du tilføje "Keystore Indexer"-tjenesten via "Add Service Wizard."

Før du kan bruge Lily HBase Indexer, skal du dog sikre dig, at replikering og indeksering er aktiveret i HBase-tjenesten i klyngen. Du kan ændre disse egenskaber på HBase-tjenestens konfigurationsside under afsnittet "Backup".

Indstilling af HBase-egenskaber for Lily HBase Indexer

Bemærk også, at Cloudera Manager inkluderer en standard Cloudera Morphlines-fil, som kan bruges af Lily HBase Indexer. For at ændre denne fil til at bruge dine egne funktioner, skal du navigere til Keystore Indexer-tjenesten og ændre Morphlines-konfigurationen som vist nedenfor:

Redigering af Cloudera Morphlines for Lily HBase Indexer

Når disse ændringer er foretaget, kan du begynde at bruge Lily HBase Indexer til at indeksere alle data, der kommer ind i HBase ved at følge instruktionerne i Lily HBase Indexer User Guide . Dette blogindlæg giver også et godt eksempel på, hvordan man indekserer e-mails ved hjælp af HBase og Cloudera Search.

Konklusion

Nu ved du, hvor nemt det er at implementere, konfigurere og administrere en Cloudera Search-tjeneste til din CDH-klynge ved hjælp af Cloudera Manager. Startende med Cloudera Enterprise 5 (i beta i skrivende stund), vil Cloudera Search og Lily HBase indexer installere og starte som standard – hvilket gør denne proces endnu nemmere.

Vikram Srivastava er softwareingeniør hos Cloudera.