Hvordan Apache Kafka smeder hjulene til store data

2024

How to Manage State in Apache Kafka | Ben Abramson

Analytics beskrives ofte som en af de største udfordringer forbundet med store data, men selv før det skridt kan ske, skal data indtages og stilles til rådighed for virksomhedens brugere. Det er her, Apache Kafka kommer ind.

Kafka blev oprindeligt udviklet på LinkedIn og er et open source-system til håndtering af realtidsstrømme af data fra websites, applikationer og sensorer.

Det virker som en slags virksomhed " centralnervesystem ", der samler data i høj volumen om ting som brugeraktivitet, logfiler, applikationsmålinger, stock tickers og enhedsinstrumenter, og gør den tilgængelig som en realtidsstrøm til forbrug af virksomhedens brugere.

[ Yderligere læsning: De bedste hvide LED-pærer]

Kafka sammenlignes ofte med teknologier som ActiveMQ eller RabbitMQ til lokale implementeringer eller med Amazon Web Services 'Kinesis til cloud-kunder, siger Stephen O'Grady, en medstifter og hovedanalytiker med RedMonk.

"Det bliver mere synligt, fordi det er et open-source-projekt af høj kvalitet, men også fordi dets evne til at håndtere højhastighedstrømme af information i stigende grad efterspørges efter brug i forbindelse med servicebelastninger som IoT, blandt andet, "tilføjede O'Grady.

Siden den blev opfattet på LinkedIn, har Kafka fået højt profileret support fra virksomheder som Netflix, Uber, Cisco og Goldman Sachs. På fredag fik det et nyt boost fra IBM, som meddelte tilgængeligheden af to nye Kafka-baserede tjenester via sin Bluemix-platform.

IBMs nye Streaming Analytics-tjeneste sigter mod at analysere millioner af begivenheder pr. Sekund i responstider under millisekund og øjeblikkelig beslutningstagning. IBM Message Hub, der nu leveres i beta, giver skalerbar, distribueret, høj gennemstrømning, asynkron messaging til cloud applikationer, med mulighed for at bruge en REST eller Apache Kafka API (applikationsprogrammeringsinterface) til at kommunikere med andre applikationer.

Kafka var åbnet i 2011. Sidste år lancerede tre af Kafka's skabere Confluent, en opstart dedikeret til at hjælpe virksomheder med at bruge den i produktion i skala.

"Under vores eksplosive vækstfase på LinkedIn kunne vi ikke følge med den voksende bruger base og de data, der kunne bruges til at forbedre brugeroplevelsen ", siger Neha Narkhede, en af Kafka's skabere og Confluents medstiftere.

" Hvad Kafka tillader dig at gøre, er at flytte data på tværs af virksomheden og gøre det tilgængelig som en kontinuerlig fritflydende strøm inden for få sekunder til personer, der skal bruge det, "forklarede Narkhede. "Og det gør det i stor målestok."

Virkningen på LinkedIn var "transformational", sagde hun. I dag forbliver LinkedIn den største Kafka-implementering i produktion; det overstiger 1,1 billioner pr. dag.

Confluent tilbyder i mellemtiden avanceret styringssoftware ved abonnement på at hjælpe store virksomheder med at drive Kafka til produktionssystemer. Blandt sine kunder er en storboksforhandler og "en af de største kreditkortudstedere i USA", siger Narkhede.

Den sidstnævnte bruger teknologien til beskyttelse af realtidsbeskyttelse, siger hun. > Kafka er "en utrolig hurtig messaging bus", der er god til at hjælpe med at integrere mange forskellige typer data hurtigt, siger Jason Stamper, en analytiker med 451 Research. "Derfor kommer det frem som et af de mest populære valg."

Foruden ActiveMQ og RabbitMQ er et andet produkt med lignende funktionalitet Apache Flume, bemærkede han; Storm og Spark Streaming ligner også på mange måder.

I det kommercielle rum omfatter Confluents konkurrenter bl.a. IBM InfoSphere Streams, Informatics Ultra Messaging Streaming Edition og SAS Event Stream Processing Engine (ESP) sammen med Software AGs Apama, Tibco's StreamBase og SAPs Aleri, Stamper tilføjet. Mindre konkurrenter omfatter DataTorrent, Splunk, Logly, Logentries, X15 Software, Sumo Logic og Glassbeam.

I skyen har AWSs Kinesis stream-behandlingstjeneste "den ekstra fordel at integrere med likeså Redshift datalager og S3-lagringsplatform," sagde han.

Teradatas nyligt annoncerede Listener er en anden konkurrent, og det er Kafka-baseret også bemærkede Brian Hopkins, en vicepræsident og hovedanalytiker med Forrester Research.

Generelt er der en markant tendens til real-time data, sagde Hopkins.

Frem til 2013 eller så var "store data alle om massive mængder af data fyldt i Hadoop, "sagde han. "Nu, hvis du ikke gør det, er du allerede bag strømkurven."

I dag giver data fra smartphones og andre kilder virksomhederne mulighed for at engagere sig med forbrugerne i realtid og give kontekstuelle oplevelser, han sagde. Det hviler igen på evnen til at forstå data hurtigere.

"Things of Internet er som en anden bølge af mobil," forklarede Hopkins. "Hver leverandør positionerer sig for en lavine af data."

Som følge heraf tilpasser teknologien i overensstemmelse hermed.

"Frem til 2014 drejede det sig om Hadoop, så var det Spark," sagde han. "Nu er det Hadoop, Spark og Kafka. Det er tre lige ligestillede i dataopsamlingsrørledningen i denne moderne analytiske arkitektur."

D-Links nyeste tilføjelse til sin netværksbevarede lagringsportefølje, Cloud Storage 4000, kan gemme op til 16TB data, som kan være Adgang til fjernadgang ved hjælp af smartphones eller tablets. Men virksomheden tilbyder få sky-funktioner til at retfærdiggøre navnet. Cloud Storage 4000 (eller DNS-345) har fire SATA-pladser til 3,5-tommers drev, der hver kan lagre op til 4TB, til en samlet lagerkapacitet på 16TB, ifølge D-Link. Men brugerne kan starte med kun et drev og derefter tilføje flere med

Produktet tilbyder dog få skyfunktioner til at retfærdiggøre sit navn sammenlignet med produkter fra leverandører som StorSimple, som tillader virksomheder enten gemme data lokalt på sin NAS-boks eller i en offentlig sky. Red Hat tilbyder også en skybaseret NAS-produkt, Virtual Storage Appliance til Amazon Web Services (AWS), som flytter hele NAS-boksen til skyen.

Hvordan Apache Kafka smeder hjulene til store data

Analytics beskrives ofte som en af de største udfordringer forbundet med store data, men selv før dette trin kan ske, skal data indtages og stilles til rådighed for virksomhedens brugere. Det er her, Apache Kafka kommer ind.