[Cloud OnBoard] 4 - 빅데이터 및 머신러닝 | [Cloud OnBoard] 4 - Big Data and Machine Learning
2019년 11월 26일 세종대학교에서 있었던 Google Cloud OnBoard에서 나누어준 자료집의 정리본입니다
모듈4 빅데이터 및 머신러닝
0. 추가자료
Google 빅데이터 플랫폼 : https://cloud.google.com/products/big-data
Google AI Platform : https://cloud.google.com/products/ai
1. Google Cloud 빅데이터 플랫폼
1-1.Google Cloud의 빅데이터 서비스
- 확장가능한 완전 관리형 서비스
- Cloud Dataproc : 관리형 Hadoop 맵리듀스, Spark, Pig, Hive 서비스
- Cloud Dataflow : 스트리밍 및 일괄 처리, 파이프라인 통합 및 관소화
- BigQuery : 분석 데이터베이스, 데이터 스트리밍 속도 초당 100,000원
- Cloud Pub/Sub : 확장 가능하고 유연한 엔터프라이즈 메시징
- Cloud Datalab : 대화형 데이터 탐색
1-2. Cloud Dataproc
- 특징
- 관리형 Hadoop
- GCP Hadoop 및 Spark/Hive/Pig를 관리형으로 빠르고 쉽게 실행하는 방법
- 클러스터 생성 시간 평균 90초 이하
- 작업 실행 중에도 클러스터 규모 확장 및 축소
- 사용해야하는 이유
- 온프레미스 Hadoop 작업을 클라우드로 손쉽게 마이그레이션 합니다.
- Cloud Storage에 저장된 로그 등의 데이터를 빠르게 분석하고, 평균 90초 이내에 클러스터를 생성하고, 즉시 삭제 합니다.
- Spark/Spark SQL을 사용하여 데이터 마이닝 및 분석을 빠르게 수행합니다.
- Spark 머신러닝 라이브러리(MLlib)를 사용하여 분류 알고리즘을 실행합니다.
1-3. Cloud Dataflow
- 특징
- 관리형 데이터 파이프라인
- Compute Engine 인스턴스를 사용하여 데이터 처리
- 클러스터 크기 자동 조절
- 자동화된 확장, 인스턴스 프로비저닝이 필요하지 않음
- 코드를 한 번만 작성하여 일괄 처리 및 스트리밍
- 변환 기반 프로그래밍 모델
- Dataflow 파이프라인으로 변환을 통해 소스의 데이터가 이동

- 사용해야하는 이유
- ETL (추출/변환/로드) 파이프라인으로 데이터 이동, 필터링, 다변화 및 형성
- 데이터 분석: 일괄 연선 또는 스트리밍을 사용한 연속 연산
- 오케스트레이션 : 외부 서비스를 포함하여 여러 서비스를 조율하는 파이프라인 작성
- Cloud Storage, Cloud Pub/Sub, BigQuery, Bigtable 등의 GCP 서비스와 통합
- 오픈 소스 Java 및 Python SDK
1-4. BigQuery
- 완전 관리형 데이터 웨어하우스
- 방대한 데이터세트 (수백 TB)에 대한 실시간에 가까운 대화형 분석 제공
- SQL 구문(SQL 2011)을 사용하는 쿼리
- 클러스터 유지보수가 필요하지 않음
- Google의 고성능 인프라에서 실행
- 컴퓨팅과 스토리지가 테라비트급 네트워크로 분리됨
- 사용된 스토리지 및 처리에 대해서만 지불
- 장기 데이터 스토리지 자동할인
1-5. Cloud Pub/Sub
- 특징
- 확장가능하고 안정적인 메시징
- 다대다 비동기 메시징 지원 : 애플리케이션 구성요소에서 주제에 대한 push/pull 구독 작성
- 오프라인 소비자 지원 포함
- 검증된 Google 기술 활용
- 사용해야하는 이유
- Dataflow, 사물인터넷(IoT), 마케팅 분석의 데이터 수집을 위한 구성 요소
- Dataflow 스트리밍의 기반
- 클라우드 기반 애플리케이션의 푸시 알림
- Google Cloud Platform에 속하는 여러 애플리케이션 연결(Compute Engine과 App Engine 사이에 push/pull)
1-6. Cloud Datalab
- 특징
- 대화형 데이터 탐색 제공
- 대규모 데이터 탐색, 변환, 분석, 시각화를 위한 대화형 도구
- 통합, 오픈 소스 : Jupyter(Ipython)를 기반으로함
- 사용해야하는 이유
- 코드, 문서, 결과, 시각화를 직관적인 메모장 형식으로 생성 및 관리
손쉬운 시각화를 위해 Google Charts 또는 matplotlib 사용 - Python SQL, 자바스크립트를 사용하여 BigQuery, ComputeEngine, Cloud Storage에서 데이터를 분석
- BigQuery에 모델을 손쉽게 배포
- 코드, 문서, 결과, 시각화를 직관적인 메모장 형식으로 생성 및 관리
2. Google Cloud AI Platform

2-1. Cloud AI Platform
- 신경망 모델을 빌드 및 실행하는 오픈 소스 도구
- 폭넓은 플랫폼 지원 : CPU 또는 GPU, 모바일, 서버, 클라우드
- 완전 관리형 머신러닝 서비스
- 익숙한 메모장 기반 개발자 환경
- Google 인프라에 최적화, BigQuery 및 Cloud Storage와 통합
- Google에서 빌드한 선행 학습된 머신러닝 모델
- 음성: 결과를 실시간으로 스트리밍 하고, 80개의 언어를 이해함
- 비전: 객체, 랜드마크, 텍스트, 콘텐츠 식별
- 번역: 언어 감지 및 번역
- 자연어: 텍스트의 의미, 구조
- 구조화된 데이터 : 분류 및 회귀 / 추천 / 이상감지
- 구조화되지 않은 데이터 : 이미지 및 동영상 분석 / 텍스트 분석
2-2. Cloud Vision API
- 단순한 REST API로 이미지 분석
- 로고 감지, 라벨 인식 등
- Cloud Vision API에서 제공하는 기능
- 이미지에서 유용한 정보 확보
- 부적절한 콘텐츠 감지
- 정서 분석
- 텍스트 추출
2-3. Cloud Speech API
- 80개 이상 언어 및 변형어 인식
- 실시간으로 텍스트 반환 가능
- 소음이 심환 환경에서도 높은 정확도 제공
- 모든 기기에서 액세스
- Google 머신러닝 기반
2-4. Cloud Natural Language API
- 머신러닝 모델을 사용하여 텍스트의 구조와 의미를 파악합니다
- 텍스문서, 뉴스기사, 블로그 글에서 언급된 사안에 관한 정보를 추출합니다.
- 요청시 업로드된 텍스트를 분석하거나 Cloud Storage와 통합합니다.
2-5. Cloud Translation API
- 수많은 언어 쌍 사이에서 임의 문자열 번역
- 문서의 언어를 프로그래매틱 방식으로 감지
- 수십 개의 언어 지원
2-6. Cloud Video Intelligence API
- 동영상 콘텐츠에 특수효과 적용
- 장면 변화 감지
- 부적절한 콘텐츠 신고
- 다양한 동영상 형식 지원
This is a summary of the materials distributed at the Google Cloud OnBoard event held at Sejong University on November 26, 2019.
Module 4: Big Data and Machine Learning
0. Additional Resources
Google Big Data Platform: https://cloud.google.com/products/big-data
Google AI Platform: https://cloud.google.com/products/ai
1. Google Cloud Big Data Platform
1-1. Google Cloud Big Data Services
- Scalable, fully managed services
- Cloud Dataproc: Managed Hadoop MapReduce, Spark, Pig, Hive service
- Cloud Dataflow: Stream and batch processing, unified pipeline integration and simplification
- BigQuery: Analytics database, data streaming at 100,000 rows per second
- Cloud Pub/Sub: Scalable and flexible enterprise messaging
- Cloud Datalab: Interactive data exploration
1-2. Cloud Dataproc
- Features
- Managed Hadoop
- A fast and easy way to run GCP Hadoop and Spark/Hive/Pig as a managed service
- Average cluster creation time under 90 seconds
- Scale clusters up and down even while jobs are running
- Why you should use it
- Easily migrate on-premises Hadoop workloads to the cloud.
- Quickly analyze data such as logs stored in Cloud Storage, create clusters in under 90 seconds on average, and delete them immediately.
- Perform data mining and analysis quickly using Spark/Spark SQL.
- Run classification algorithms using the Spark machine learning library (MLlib).
1-3. Cloud Dataflow
- Features
- Managed data pipelines
- Processes data using Compute Engine instances
- Automatic cluster size adjustment
- Automated scaling, no instance provisioning required
- Write code once for both batch and stream processing
- Transform-based programming model
- Data moves from sources through transformations in a Dataflow pipeline

- Why you should use it
- Move, filter, enrich, and shape data with ETL (Extract/Transform/Load) pipelines
- Data analytics: Batch computation or continuous computation using streaming
- Orchestration: Build pipelines that coordinate multiple services, including external services
- Integrates with GCP services such as Cloud Storage, Cloud Pub/Sub, BigQuery, and Bigtable
- Open source Java and Python SDKs
1-4. BigQuery
- Fully managed data warehouse
- Provides near real-time interactive analysis on massive datasets (hundreds of TB)
- Queries using SQL syntax (SQL 2011)
- No cluster maintenance required
- Runs on Google's high-performance infrastructure
- Compute and storage separated by a terabit-class network
- Pay only for storage used and processing performed
- Automatic discounts for long-term data storage
1-5. Cloud Pub/Sub
- Features
- Scalable and reliable messaging
- Supports many-to-many asynchronous messaging: Create push/pull subscriptions to topics from application components
- Includes offline consumer support
- Leverages proven Google technology
- Why you should use it
- A building block for data ingestion in Dataflow, Internet of Things (IoT), and marketing analytics
- Foundation for Dataflow streaming
- Push notifications for cloud-based applications
- Connect multiple applications within Google Cloud Platform (push/pull between Compute Engine and App Engine)
1-6. Cloud Datalab
- Features
- Provides interactive data exploration
- An interactive tool for large-scale data exploration, transformation, analysis, and visualization
- Integrated, open source: Built on Jupyter (IPython)
- Why you should use it
- Create and manage code, documentation, results, and visualizations in an intuitive notebook format
Use Google Charts or matplotlib for easy visualization - Analyze data from BigQuery, Compute Engine, and Cloud Storage using Python, SQL, and JavaScript
- Easily deploy models to BigQuery
- Create and manage code, documentation, results, and visualizations in an intuitive notebook format
2. Google Cloud AI Platform

2-1. Cloud AI Platform
- An open source tool for building and running neural network models
- Broad platform support: CPU or GPU, mobile, server, cloud
- Fully managed machine learning service
- Familiar notebook-based developer environment
- Optimized for Google infrastructure, integrated with BigQuery and Cloud Storage
- Pre-trained machine learning models built by Google
- Speech: Streams results in real time and understands 80 languages
- Vision: Identifies objects, landmarks, text, and content
- Translation: Language detection and translation
- Natural Language: Meaning and structure of text
- Structured data: Classification and regression / Recommendations / Anomaly detection
- Unstructured data: Image and video analysis / Text analysis
2-2. Cloud Vision API
- Analyze images with a simple REST API
- Logo detection, label recognition, and more
- Features provided by Cloud Vision API
- Extract useful information from images
- Detect inappropriate content
- Sentiment analysis
- Text extraction
2-3. Cloud Speech API
- Recognizes over 80 languages and variants
- Can return text in real time
- Provides high accuracy even in noisy environments
- Accessible from any device
- Powered by Google machine learning
2-4. Cloud Natural Language API
- Uses machine learning models to understand the structure and meaning of text
- Extracts information about topics mentioned in text documents, news articles, and blog posts.
- Analyzes uploaded text on request or integrates with Cloud Storage.
2-5. Cloud Translation API
- Translates arbitrary strings between numerous language pairs
- Programmatically detects the language of a document
- Supports dozens of languages
2-6. Cloud Video Intelligence API
- Annotate video content
- Detect scene changes
- Flag inappropriate content
- Supports various video formats
댓글
Comments