AKTUALNOŚCI

nowości, informacje, szkolenia

스파크 예제

2/08/2019

이 링크에서 아파치 스파크의 최신 버전을 다운로드 (당신의 Hadoop 버전에 따라 미리 빌드) : 우리가 스파크 자습서를 시작하기 전에 아파치 스파크 다운로드 링크, 우리가 우리의 시스템에 스파크를 배포 할 수있는 방법을 이해하자 – 스파크 응용 프로그램은 다음과 같이 실행 그래프 와 그래프 병렬 계산을 위한 구성 요소입니다. 높은 수준에서 GraphX는 새로운 그래프 추상화인 각 정점과 가장자리에 속성이 연결된 지향되는 멀티그래프를 도입하여 스파크 RDD를 확장합니다. MLlib는 분류, 회귀, 클러스터링, 협업 필터링 등을 위해 클러스터에서 확장하도록 설계된 다양한 알고리즘을 제공하는 기계 학습 라이브러리입니다(기계 학습에 대한 Toptal의 기사에서 자세한 내용은 주제)를 참조하십시오. 이러한 알고리즘 중 일부는 일반 최소 제곱또는 k-평균 클러스터링을 사용하는 선형 회귀와 같은 스트리밍 데이터에서도 작동합니다(그리고 그 이상). 아파치 마호(Hadoop용 머신 러닝 라이브러리)는 이미 MapReduce에서 외면하고 스파크 MLlib에 힘을 합쳤습니다. 이제 핵심 구성 요소를 이해했기 때문에 단어 수를 계산하기 위한 간단한 Maven 기반 Spark 프로젝트로 넘어갈 수 있습니다. Spark의 잠재적인 사용 사례는 물론 지진 감지를 훨씬 뛰어넘습니다. 첫째, 우리는 „지진”또는 „흔들림”과 같은 관련이있는 트윗을 필터링해야합니다. 우리는 쉽게 다음과 같이 그 목적을 위해 스파크 스트리밍을 사용할 수 있습니다 : MLlib는 스파크의 기계 학습 (ML) 라이브러리입니다. 그 목표는 실용적인 기계 학습을 확장 가능하고 쉽게 만드는 것입니다. 높은 수준에서 는 다음과 같은 도구를 제공합니다: Spark SQL을 사용하면 아파치 스파크는 더 많은 사용자가 액세스할 수 있으며 현재 에 대한 최적화를 향상시킵니다. Spark SQL은 외부 데이터 원본과 Spark의 기본 제공 분산 컬렉션 모두에서 관계형 작업을 수행하는 DataFrame API를 제공합니다.

빅 데이터에서 광범위한 데이터 원본 및 알고리즘을 지원하는 데 도움이 되기 때문에 Catalyst라는 확장 가능한 최적화 프로그램이 도입됩니다. Spark는 병렬로 작동할 수 있는 불변의 내결함성 분산 개체 컬렉션인 RDD(복원력 분산 데이터 집합)의 개념을 소개합니다. RDD는 모든 유형의 개체를 포함할 수 있으며 외부 데이터 집합을 로드하거나 드라이버 프로그램에서 컬렉션을 배포하여 만들어집니다. Spark에서 DataFrame은 명명된 열로 구성된 데이터의 분산 컬렉션입니다. 사용자는 DataFrame API를 사용하여 데이터 처리를 위한 특정 절차를 제공하지 않고도 외부 데이터 원본과 Spark의 기본 제공 분산 컬렉션모두에서 다양한 관계형 작업을 수행할 수 있습니다. 또한, DataFrame API를 기반으로 하는 프로그램은 Spark의 내장 최적화 프로그램인 Catalyst에 의해 자동으로 최적화됩니다. 코드 설명: 1. 데이터 집합 „hello world” 2. 문자열을 대문자로 변환하는 함수 `upper`를 정의합니다.

3. 이제 `udf` 패키지를 스파크로 가져옵니다. 4. 우리의 UDF를 정의, `upperUDF`와 우리의 기능을 `어퍼`를 가져 오기. 5. 사용자 정의 함수의 결과를 새 열 `상단`에 표시합니다. 스파크는 „번개 빠른 클러스터 컴퓨팅”으로 광고 아파치 프로젝트입니다. 그것은 번성 하는 오픈 소스 커뮤니티와 현재 가장 적극적인 아파치 프로젝트. 즉, Java및 Scala가 설치된 후 Spark 클러스터의 각 노드에 컴파일된 버전의 아파치 스파크 응용 프로그램을 배치하기만 하면 됩니다.

그런 다음 트윗에 대한 의미 분석을 실행하여 현재 지진 발생을 참조하는 것으로 보이는지 확인해야 합니다. 예를 들어 „지진!” 또는 „지금은 흔들리고 있다”와 같은 트윗은 긍정적인 일치를 고려하는 반면 „지진 컨퍼런스 참석” 또는 „어제 지진은 무서웠다”와 같은 트윗은 그렇지 않습니다.