AI 44

26.01.28 ~ 26.02.03 78~82일차 [ 미니 프로젝트 : CALI_Cloud-native AI Log Insight ]

메인 프로젝트 전 마지막 미니 프로젝트를 진행하였다. 이번 미니프로젝트는 데이터 파이프라인에 관심이 많은 분이 하고싶으신 방향이 있다고 해서 주제를 정했고 프로젝트 내부에도 LLM관련된 파트가 있어서 내가 그 파트를 맡기로 하게 되었다. 우리 프로젝트의 메인 주제는 수업 내용인 시간을 정해두고 자동화 하는 부분보다 높은 기술을 구현하는것으로 실시간으로 데이터를 파싱하여 슬랙에 전송, 대시보드에 띄우기, 등의 작업들을 "실시간"으로 처리하는데에 의의가 있다. 인프라 구축, 파이프라인 구성 등에서 일반적인 프로젝트보다 훨씬 난이도가 있고 볼륨이 큰 내용이라서 큰 도전이지만 바이브코딩과 팀원들을 믿기에 수행할 수 있었다. 프로젝트의 개요부터 차근차근 시작하겠다. 프로젝트 명: CALI (Cloud-native..

26.01.26~27 | 76~77일차 [코딩테스트 특강]

이번주 월요일과 화요일은 코딩테스트 & 알고리즘 수업 특강이 있었다. 외부에서 코딩테스트와 다른 과목들을 전문적으로 수업해주시는 강사분이셨는데 이번에 프로젝트 전 최종으로 코딩 관련 내용을 복습하며 알고리즘 수업을 진행해주시러 오셨다. 그 중 기억에 남는 개념, 문제 등을 정리해보려 한다.코딩테스트시 입력 받는법 a, b = map(int, input().split())if a % b == 0 and a + b 지금까지 프로그래머스와는 다르게 입력값을 입력받는 법에 있어서 새로운 방법을 사용했다. 사용자가 입력받는 함수인 input()를 사용하고, 그 값을 공백으로 split()으로 나눠준다, 그 값을 int로 받으며 map함수로 이것들을 모든 변수에 적용해주고 값을 a,b로 받아준다. 그 이후에 그 ..

26.01.22~23 | 74~75일차 [spark 마무리 | CDK | 미니프로젝트 시작]

안녕하세요 22일과 23일은 강사님의 건강이슈로 미니프로젝트와 시간을 반씩 나누어서 진행했습니다 22일 오전 , SPARK 마무리23일 오전 , CDK 그 외 오후, 미니프로젝트 미니프로젝트는 아직 시작 전 단계이고 팀 빌딩, 개요와 업무 분장 배분 등의 내용만 진행해서 이틀 게시글을 하나로 합칩니다.미니프로젝트는 추후 업로드 예정 22일 SPARK 마무리# Spark 코드 (내일 추가)# import logging# logging.info('스파크를 이용한 대(용)량 데이터(TB~PB) 클리닝 처리')# 스칼라의 컴파일러 JVM -> 자바식(카멜표기법 API 대부분임)# JVM 컴파일러 사용하는 언어 : Java, Scalar, Kotlin(안드로이드개발)# EMR에서 실행될 Spark 애플리케이션 코..

26.01.21 73일차 [kafka + EFK 실습(Fluent Bit) | EMR + Airflow (spark)]

오늘은 kafka + EFK 를 Fluent Bit를 사용해서 s3와 opensearch로 적재시키는 과정과 EMR( Elastic MapReduce ) 를 AIRFLOW를 통해서 S3와 SPARK 조합으로 빅데이터를 처리하는 과정을 실습하였다.(ING) Kafka + EFKLogstash (자바기반, ELK 제품군)→ Fluent-Bit (C기반) 업그레이드 진행Logstash : 메모리 1G 최소, Fluent-Bit : 20~50MB 최소속도 : Logstash LOGSTASH-> FLUENT BIT로 변경 1. 먼저 docker-compose.yaml에 fluent bit를 추가해준다 fluent-bit: image: fluent/fluent-bit:2.2 container_name..

26.01.20 72일차 [kafka connect | logstash 사용 s3,opensearch 적재]

유하~ 오늘의 수업은 kafka connect 를 이용한 s3 적재 실습 logstash 사용한 기본 설정, 도커 컴포즈, 도커파일 세팅, logstash.conf 세팅 logstash 이용한 s3,opensearch 적재 이다. kafka connect kafka를 활용한 다양한 파이프라인 예시이다. 앞으로 우리가 진행해야할 workflow이기도 하다,# 향후 파이프라인 - 센서|웹|IOT|로그,데이터 발생 -> kafka producer 전송 -> kafka 서버 적재 - kafka 서버 -> kafka consumer 수신 -> - kafka 서버 -> kafka consumer 수신 -> s3 : 수신 후 업로드 -> 약간의 지연 발생 - kafka 서버 -> kafka c..

26.01.19 71일차 [Airflow | ELK_Elasticsearch, AWS OpenSearch | Kafka_실시간 스트리밍 데이터 대용량 처리 , 개요, 구성, 실습]

오늘은 airflow에서 elasticsearch 의 개념과 opensearch의 개요, 수업과 opensearch를 이용한 대시보드 구성 방법을 실습하고 이후 kafka의 이론과 첫 기초단계 실습을 진행하였다. Elasticsearch, AWS OpenSearch 이해ElasticsearchApache Lucene에 구축되어 배포된 검색(원하는 정보를 검색해) 및 분석(데이터 분석) 엔진방대한 양의 데이터를 신속하게(거의 실시간)저장, 검색, 분석을 수행할 수 있음데이터 발생하는 곳 → 전달(지연이 있을 수 있음) → Elasticsearch장점고가용성 : 분산 구조(노드, Replica 샤드)를 통해 서비스 중단 없이 이용 가능데이터를 여러곳에 분산 저장 → 그 한곳이 장애 발생해도 금방 복구, 카..

26.01.16 70일차 [Airflow | ELK_log_generator, reader]

오늘은 airflow elk에 대한 실습을 진행했다. AWS EMREMR, Ariflow, spark 를 이용한 추천 시스템이 필요한 데이터 파이프라인 AWS ELK stack - 로그 분석엘라스틱 서치(검색엔진), 키바나 대시보드, airflow, kafka(실시간 스트리밍)스마트 팩토리에 설치된 센서에서 실시간 수집되는 로그에 대한 데이터 파이프라인 ELK (스마트 팩토리 관점)Elasticsearch : 검색엔진, 데이터를 검색엔진에 사용 되는 형태로 저장예) 수억건의 로그중 어제 15시경 특정 센서의 온도가 100도가 넘은(튀는값) 기록을 찾아라 -> 1초 미만으로 찾아낸다Logstash수집된 데이터(로그)등에서 잡음 제거 -> 단위변환(전처리등) 수행하여 Elasticsearch에게 전달Kiba..

26.01.15 69일차 [airflow | athena query, sensor, ctas etl]

오늘은 airflow athena를 본격적으로 이용하여 ctas 기능을 구현하는 실숩을 진행하였다. AWS Athena 개요 정의Serverless Query => 분석용, 특정 데이터 추출가능서버리스 대화형 분석 서비스특징기존데이터 확인을 위해 파일 다운로드, DB에 적제 등등 과정을 거쳐야 함원시데이터(raw data)를 s3(data lake)에 저장 -> Athena통해 바로 SQL 쿼리 수행 -> 결과 획득역활s3 : 모든 데이터가 다양한 형식으로 저장되어 있는 저장소Athena : 위 저장소에서 필요한 데이터만 원하는 형태로 추출(쿼리)csv -> 쿼리 -> 정형 데이터 획득특정 버킷 경로에 있는 모든 데이터에서 신용 점수 90점 이상이 되는 고객 데이터를 가져와줘포인트서버리스 -> 서버 설..

26.01.14 68일차 [airflow 특강 | 취업 특강]

오늘은 airflow 특강과 취업 특강이 있었다. airflow 특강은 지금 우리가 듣고 있는 수업에서 기초부분을 다시 다지는 역할과 새로운 기능 몇가지를 추가로 배울 수 있었다. 오늘은 새로운 기술 기반으로 복습하려 한다.TaskFlow기존에 우리는 명시적 의존성을 표현하는 >> 방식의 표기를 주로 사용하였는데 실무에서는 taskflow라는 방식과 >> 방식을 혼용하여 사용한다고 한다. 이 방식의 장점은 xcom으로 담아야 할 내용들을 이미 담은 상태로 움직이게 해줘서 코드가 훨씬 간편해진다고 한다. 실행 순서와 데이터 흐름을 동시에 표현하며 주로 이 방법을 권장한다. 하지만 실제로 taskflow만 사용하는것은 아니고 >> 방식도 함께 사용한다, 그 이유는 >> 방식에만 있는 오퍼레이터도 있으며 ..

26.01.13 67일차 [Airflow : Dataset 감지, AWS S3 연동]

드디어 밀린 게시물 따라왔다, 오늘은 AIRFLOW에서 데이터셋을 감지하고 그 데이터를 트리거로 하여 다음 작업을 수행하는 파이프라인 구축과 AWS S3에 데이터를 적재하는 자동화 실습을 진행하였다. dataset 감지 ETL -> MLOps -> AI Service 3개의 DAG를 구성하여 연결앞에서 만든 모델(가상,시뮬레이션, 간단하게 수식 구성)이 뒤에서 만들어지는 과정 구현해본것FLOW데이터가 계속 쌓이면 ETL을 통해서 모델 학습에 필요한 데이터를 축적MLOps에서는 특정한 스케줄 혹은 데이터량이 축적되면 학습을 통해서 모델 업데이트를 진행AI Service는 새로 적용된 모델을 기반으로 추론 서비스를 제공 -> API 제공구성데이터 준비(ETL) -> 모델 학습(ML/DL Train) -> 서..