ASAC-SK플래닛 T아카데미 데이터 엔지니어

25.11.21 32일차 [데이터 (분석, 인공지능) 워크 플로우, 데이터 수집]

Datadesigner 2025. 11. 24. 17:42

오늘은 본격적인 데이터 수집, 분석 과정에 들어가기에 앞서 데이터의 종류, 분석의 의의, 방법론 등등의 이론수업을 진행하고

 

네이버에서 주어지는 api를 이용해서 직접 웹 크롤링을 해보는 실습을 진행하였다.

 


데이터 종류

 

정형

 

  • 구조화된 데이터
  • 특정
    • 관계형 데이터베이스 (RDB) 기반으로 추출된 데이터
    • 데이터와 구조 정보(스키마)가 분리되어 구성
    • SQL을 통해서 추출 -> 공공데이터 -> 제공되는것 대부분 해당
    • open api에서 제공되는 데이터 -> 뉴스 등
    • 머신러닝으로 진행, 딥러닝 가능
 

비정형


  • 구조가 없는 데이터
  • 특징
    • 바이너리 데이터
      • 영상, 이미지, 오디오, 문서(doc,hwp,pdf...) -> 해당 데이터는 주로 딥러닝에서 다룸
    • NoSQL 계열
      • 몽고디비, 레디스, . . .
      • 로그데이터
 

반정형

 

  • 데이터 안에 구조정보(스키마) 들어있는 데이터
  • 특징
    • 종류
      • json, xml
        • 텍스트 기반, 이기종/플랫폼/언어에 독립적인 데이터 포맷
      • html, . . .

데이터 형태

  • 데이터 분석, EDA, 피처 엔지니어링

범주형

  • 데이터가 몇개의 범주(카테고리)로 나눠진다
  • 집계의 대상 (GROUP BY)
  • 머신러닝/딥러닝의 대상이 되려면(모델 학습을 위해서) -> 인코딩 처리 필요함 (수치화가 필요하다)

 

(*)명목형

  • 성별, 혈액형, MBTI, . . .
  • 구분만 되고 서열이 없는 데이터

순서형

  • 리뷰에 대한 별점
 

수치형 (머신러닝, 딥러닝 시 데이터 형태)

 

이산형

  • 운동 횟수, 출산 횟수, <- 셀 수 있고 값 사이 무한대 X
  • 정수 형태
 

(*)연속형

  • 값과 값 사이가 무한대로 존재 -> 부동소수로 표현됨 = float
  • 키, 몸무게, 집값, 코인,
 

데이터 분석 워크플로우 ( 5 단계 )

  • 데이터 분석가 (Data Analyst)-> 시각화 -> 차트, 보고서, 대시보드
 

요구사항 정의 (연구 목표 수립)

 

  • 구성
    • 타겟
      • 누구를 위한 서비스/보고서/분석, . . .
      • 대상을 명확하게 특정
    • 목적
      • 분석
        • 설득
        • 의사결정을 지표 제공
        • 마케팅 전략 수립
      • 근거 제시
        • 통계 자료, 유사 데이터 등등 제시
      • 최종 산출물 예상
        • 보고서, 대시보드, . . .
 

데이터 수집(획득)


  • 특징
    • 초기 데이터가 없어도 되는 방식 -> 강화 학습
      • 머신러닝 > 강화학습 (유한게임에서만 가능)
    • 이외의 모든 모델 학습, 데이터 분석 등등 데이터 필수임
    • 4차 산업 혁명의 원유 = 데이터
  • 수집
    • 소규모 (섹션 2) -> 난이도 기반 분류 (편의상 세팅, 실제학문아님)
      • Level 1 (유료/무료 구매)
        • 무료
          • 공공데이터, 지자체, 연구기관 (대학)
          • 사내 데이터 (공장->스마트팩토리->센서데이터, 이커머스->구매,고객,마케팅 등)
        • 유료
          • 데이터 바우처를 활용해서 구매
          • 데이터 거래소 활용
      • 웹에서 수집 -> 상업용으로 사용시 법률 검토 필요(교육용은 관계없음)
        • Level 2 (openapi 활용)
          • 네이버, 카카오 등 -> 가입->앱 생성->api신청->사용->수집
          • dev.naver.com, dev.kakao.com
          • 데이터 형태 : JSON, XML
        • Level 3 (웹 스크래핑)
          • LEVEL 2로 해결이 안됨(미제공)
          • 웹 페이지 접속해서 긁으면 가능한 레벨
          • 절차
            • 화면 페이지 요청 -> 응답(HTML) -> 파싱 -> 데이터 추출 -> 전처리 -> 적재 -> 이 과정을 지속적(간격 설정) -> 진행 (자동화)
            • 파이썬 -> BS4 패키지 사용, css selector 활용
        • Level 4 (웹 크롤링:매크로)
          • 조건
            • 사이트 접속 -> 로그인, 검색, 클릭, 스크롤 등등 행위 필요(사람이 개입해야함) -> 원하는 페이지가 노출
            • 파이썬 -> selenium 패키지 활용, web driver 프로그램 필요(브라우저 제작사 제공)
            • 코랩에서는 진행 X
              • 로컬 pc에서 진행
    • 대규모 (섹션 3)
      • 클라우드 기반에서 ETL이라는 과정을 통해서 수집행위가 진행
      • Apache Airflow등을 통해서 수집 진행

데이터 준비(전처리/정제/, . . .)


  • 데이터의 품질을 높인다
    • 분석, 모델학습에 최적의 데이터 형태로 구성
  • 라이브러리 (패키지)
    • numpy
      • 수학, 과학용 라이브러리 + 퓨리에 연산
      • 자료구조 : 배열 ->ndarray
        • 행렬연산 등 수학 연산 진행
      • 향후 머신러닝, 딥러닝 등 이후에 등장하는 패키지들의 베이스가 됨.
    • pandas
      • 데이터 사이언스, 분석 등 위한 패키지 <-> R
        • R == pandas(분석) + sklean(머신러닝) + statsmodel(통계) + matplotlib(시각화)
      • 자료구조
        • Series : 1차원 -> 벡터
        • DataFrame : 2차원 -> 매트릭스
 

  • 처리 사항
    • 결측치, 이상치 처리
    • 피처 엔지니어링
      • 피처 인코딩
      • 피처 스케일링
      • ..
    • 목표
      • 클린 데이터 구성!

(*)데이터 분석

  • 데이터에 대한 통찰 획득
  • 해당 데이터가 무엇을 설명(예측)하는가? -> 인사이트
  • 기법
    • (*)설명 분석 (정량적 파악)
      • 기초 통계량, 데이터 특성 확인
      • 데이터를 파악
    • (*)탐색 분석
      • EDA (탐색적 데이터 분석), 시각화
        • 데이터에 대한 직관, 특징 설명
      • 이 데이터는 어떤 인사이트를 가지는지 파악
        • 변수들간에 잠재적인 관계 해석
        • 이를 통한 인사이트 도출
    • 추론 분석 -> 통계
    • 예측 분석 -> 머신러닝/딥러닝 -> LLM -> AI
    • 인과 분석 -> 통계
    • 규범 분석 -> 통계
  • 라이브러리
    • numpy, pandas
    • matplotlib -> EDA 진행
      • 시각화 도구
      • seaborn등 여러 도구를 병행 사용

 

최종 산출물 구성

  • 보고서, 대시보드 -> 의사결정 위한 도구
 

인공지능 모델 학습 워크플로우 ( 6단계 )

  • 데이터 사이언티스트 (Data Scientist)-> 모델

요구사항 정의 (연구 목표 수립)

  • 위와 동일하나, 결과물은 모델(물리적으로는 모델 파일)
    • 산출물
      • 판별 모델
      • 생성 모델 (LLM 등장 -> 현재 트렌드 주력)
 

데이터 수집(획득)


데이터 준비(전처리/정제/, . . .)


EDA - 피처 엔지니어링

  • EDA
    • 기법 -> 데이터 분포 -> 정규분포에 맞게 데이터 가공(스케일링) 등등
    • 정답에 관련된 비율을 계산 조정
    • ...
  • 피처 엔지니어링
    • 자연어 -> 수치화:(벡터화) -> 임베딩 -> 데이터
    • 피처 인코딩, 피처 스케일링 등등
    • 목적
      • 모델의 예측 (판별, 생성) 정확도를 높이기 위함

(*)모델 구축

  • 베이스라인 구축 (프로토타입 구성)
    • 기본 모델(알고리즘, 신경망)을 이용하여 처음부터 끝(학습)까지 진행 (학습 회수를 최소화) -> 성능 평가 진행 -> 전략 수립
 

번외

 

AI 버블론

    • 엔비디아(CUDA) -> 빅테크+IT 등 투자 -> 빅테크는 그 돈으로 엔비디아 장비를 삼 -> 클라우드 회사 투자 -> 클라우드 회사 바우처 발급 : 순환출자
    • 소프트뱅크 (엔비디아 매도) -> OPEN AI(feat ms) -> 자체 칩 구성(AI) -> 자체적으로 가려는 움직임 <- 회계 부정 의심됨(예측되는 자산규모 700조인데 회계 담당 회사가 12명임)
    • 구글(AC) -> 자체 TPU<->GPU(엔비디아) 존재함, 클라우드, 제미나이(LLM) -> 생태계 자체 구축 가능 <- 워렌 버핏 6조 (달러->애플 청산)
    • 테슬라(전기차, 우주항공, 스타링크, 자율주행(로보틱스), 뉴럴링크, AI(그록), 피지컬로봇(옵티머스))
 

절차

 

  • 알고리즘(ML) 선정 / 인공신경망(DL) 선정(커스텀), LLM은 배제함(절차가 다름)
  • 훈련 데이터 주입 후 학습
  • 테스트 데이터로 예측 수행
  • 성능 평가 수행
  • 최적화 -> 반복(피처 엔지니어링 ~ 성능 평가)
    • 에자일 개발 방법론 적용 -> 목표 성능에 도달할 때 까지 반복
  • 모델 덤프
    • DS 업무 종료
  • 모델 서빙 개발 (웹 서비스, 클라우드 전달)
 

최종 산출물 구성

 

 
  • 모델 덤프 파일
  • 자연어 계열은 토크나이저 추가됨

 

 


 

데이터 수집

 

개요


 
  • 상황(가정)
    • 특정 검색어에 해당되는 뉴스 데이터 수집
    • 이는 포털에서 api 제공
  • 목표 -> ETL (소규모로 파이썬으로 구성)
    • ETL
      • 추출, 변환, 적재 (extract, transform, load, ETL)
    • naver api -> 뉴스 검색(주제 : AI버블) -> 뉴스 획득 -> 전처리 수행 -> 자료구조 구성 -> mysql에 적재
    • 위의 공정을 5분단위로 수행
      • 윈도우 : 작업 스케줄러 -> 자동화(*.py 덤프해야함)
      • 맥/리눅스 : cron 명령어

사전 준비

 

 

 
  • 네이버 OPEN API 신청
  • 로그인
  • 어플리케이션 > 내 어플리케이션
  • 애플리케이션 이름 : 뉴스룸
  • 사용 API > 검색 선택
  • 환경추가 > WEB > http://127.0.0.1
  • 등록하기 클릭
  • Client ID, Client Secret 이 값을 코랩의 키 항목에 추가
    • NAVER_CLIENT_ID
    • NAVER_CLIENT_SECRET
    • 이곳에서 해주면 된다.

API 연동 테스트

 

Extract(추출)관련 세부 코드

 

 

from google.colab import userdata

# 키, 값 획득 확인
# userdata.get('NAVER_CLIENT_ID'), userdata.get('NAVER_CLIENT_SECRET')

 

API 사용 테스트 (요청 수행 후 응답 확인)

 

# 패키지 불러오기
import os
import sys
import urllib.request

# URL 인코딩, 한글을 그대로 전달하면 통상 깨짐 -> 인코딩 변환해서 전송
urllib.parse.quote("AI 버블")

# 변수 설정

# 1. 네이버 API 사용을 위한 필수값(아이디, 시크릿값)
client_id       = userdata.get('NAVER_CLIENT_ID')
client_secret   = userdata.get('NAVER_CLIENT_SECRET')

# 2. 검색어 준비(인코딩 처리)
encText         = urllib.parse.quote("AI버블")

# 3. 뉴스 검색 url
url             = "https://openapi.naver.com/v1/search/news.json?query=" + encText # JSON 결과

url

https://openapi.naver.com/v1/search/news.json?query=AI%EB%B2%84%EB%B8%94

AI버블을 인코딩해서 링크로 보내준다

 

# 요청 및 응답 (통신)
request         = urllib.request.Request(url)

# HTTP 프로토콜 헤더에 다음 항목 추가 하여 인증정보 전달
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)

response        = urllib.request.urlopen(request)

# 응답 처리
rescode = response.getcode()
if(rescode==200): # 성공
    # 응답 내용을 읽는다
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

결과값

{
	"lastBuildDate":"Mon, 24 Nov 2025 17:36:28 +0900",
	"total":19868,
	"start":1,
	"display":10,
	"items":[
		{
			"title":"<b>AI 버블<\/b> 우려에도…외국계 IB &quot;삼성전자·하이닉스 사라&quot;",
			"originallink":"https:\/\/www.hankyung.com\/article\/2025112424361",
			"link":"https:\/\/n.news.naver.com\/mnews\/article\/015\/0005215348?sid=101",
			"description":"인공지능(<b>AI<\/b>) 거품론으로 증시 변동성이 커진 가운데서도 외국계 증권사들이 잇달아 삼성전자와 SK하이닉스에 대한 긍정적 평가를 내놓고 있다. 앞으로도 <b>AI<\/b> 투자가 지속되고, 메모리 반도체 수요가 구조적으로... ",
			"pubDate":"Mon, 24 Nov 2025 17:25:00 +0900"
		},
		{
			"title":"<b>AI<\/b>는 자녀의 직업 선택 과정에서 훌륭한 자원",
			"originallink":"https:\/\/www.hani.co.kr\/arti\/society\/schooling\/1230969.html",
			"link":"https:\/\/n.news.naver.com\/mnews\/article\/028\/0002778067?sid=102",
			"description":"인공지능(<b>AI<\/b>)은 철학과 비슷한 정도의 뜬구름 잡는 학문으로 취급받았으며 컴퓨터 사이언스도 하향세였다. 닷컴 <b>버블<\/b>이 꺼진 이후에도 테크의 발전은 계속됐다. 모든 회사들이 인터넷 사이트를 만들기 시작했고, 2000년대... ",
			"pubDate":"Mon, 24 Nov 2025 17:20:00 +0900"
		},
		{
			"title":"배재규 &quot;테크 기업이 세상 주도…기술주에 장투해야&quot;",
			"originallink":"https:\/\/www.hankyung.com\/article\/2025112424331",
			"link":"https:\/\/n.news.naver.com\/mnews\/article\/015\/0005215334?sid=101",
			"description":"최근 미국 증시에서 불거진 ‘<b>AI<\/b> 거품론’에 대해서는 “고점 여부는 중요하지 않다”며 “<b>AI<\/b> 거품론은 소음일 뿐”이라고 일축했다. 이어 “닷컴 <b>버블<\/b> 당시 야후의 주가수익비율(PER)은 416에 달했고, PER이 100을 넘는... ",
			"pubDate":"Mon, 24 Nov 2025 17:19:00 +0900"
		},
		{
			"title":"‘ETF 아버지’ 배재규 “장기투자하면 <b>AI버블<\/b> 상관없다…반도체·나스...",
			"originallink":"https:\/\/www.joongang.co.kr\/article\/25384604",
			"link":"https:\/\/n.news.naver.com\/mnews\/article\/025\/0003484895?sid=101",
			"description":"없다”면서도 <b>AI<\/b> 산업 전체를 거품으로 치부할 수는 없다고 지적했다. 주요 빅테크(거대 기술기업)의 고평가 정도를 나타내는 주가수익비율(PER)이 과거 ‘닷컴 <b>버블<\/b>(거품)’ 때와 비교해 낮다는 이유에서다. 예를... ",
			"pubDate":"Mon, 24 Nov 2025 17:15:00 +0900"
		},
		{
			"title":"외국인, 11월 12.7조 '셀 코리아'…역대 최대 기록 갈아치웠다",
			"originallink":"https:\/\/www.news1.kr\/finance\/market-exr\/5986369",
			"link":"https:\/\/n.news.naver.com\/mnews\/article\/421\/0008622416?sid=101",
			"description":"<b>AI버블<\/b> 우려가 있지만 실제 붕괴 조짐은 아직 보이지 않고, 연준의 금리 인하 기대 역시 되살아났기 때문이다. 이번 주 미국 증시는 추수감사절과 블랙프라이데이 연휴로 27일(현지 시각) 휴장, 28일 조기폐장이 예정돼... ",
			"pubDate":"Mon, 24 Nov 2025 17:14:00 +0900"
		},
		{
			"title":"<b>AI 버블<\/b> 붕괴와 자산 대전환… 미래학자 최윤식 신간 '2026 세계 경제 시...",
			"originallink":"http:\/\/www.ttlnews.com\/news\/articleView.html?idxno=3053034",
			"link":"http:\/\/www.ttlnews.com\/news\/articleView.html?idxno=3053034",
			"description":"<b>AI 버블<\/b> 붕괴의 직격탄을 맞을 수 있는 반도체 산업, 중국 경기 침체의 고스란한 영향, 높은 안일함이 만들어 낼 한국형 민스키 모멘트까지 제시한다. 동시에 한국은 구조적 취약성에 놓여 있다는 진단과 함께 기술·제조... ",
			"pubDate":"Mon, 24 Nov 2025 17:14:00 +0900"
		},
		{
			"title":"[현장] 배재규 한투운용 대표 “테크 기업에 장기투자 해야…성공 투자...",
			"originallink":"https:\/\/www.ceoscoredaily.com\/page\/view\/2025112416475511698",
			"link":"https:\/\/www.ceoscoredaily.com\/page\/view\/2025112416475511698",
			"description":"배 대표는 <b>AI<\/b>(인공지능) <b>버블<\/b>에 대해 언급하며 “주가가 고점인지 저점인지는 크게 중요하지 않다”며 선동에 의한 투자를 하면 안된다고 지적했다. 그는 “경기는 6개월 쯤 지나서야 현 상태를 진단 가능하다”며... ",
			"pubDate":"Mon, 24 Nov 2025 17:12:00 +0900"
		},
		{
			"title":"삼성전자 2% 상승…SK하이닉스 여전히 약세",
			"originallink":"http:\/\/mbn.mk.co.kr\/pages\/news\/newsView.php?category=mbn00003&news_seq_no=5156852",
			"link":"https:\/\/n.news.naver.com\/mnews\/article\/057\/0001920760?sid=101",
			"description":"낙폭이 과대했다는 인식에 저가 매수세가 유입됐지만, <b>AI 버블<\/b>에 대한 경계감과 추세추종형(CTA) 펀드의 기술주 매물 출회 여부 등을 지켜보려는 관망 심리 등이 커지면서 상승이 제한되거나 하락 전환한 것으로... ",
			"pubDate":"Mon, 24 Nov 2025 17:12:00 +0900"
		},
		{
			"title":"한투 배재규 “<b>AI 버블<\/b>론 중요치 않아… 기술주에 장기 투자해야”",
			"originallink":"https:\/\/biz.chosun.com\/stock\/stock_general\/2025\/11\/24\/7QNGI5ZHTBBBFJQNF7LJZ2XW6A\/?utm_source=naver&utm_medium=original&utm_campaign=biz",
			"link":"https:\/\/n.news.naver.com\/mnews\/article\/366\/0001125551?sid=101",
			"description":"배 대표는 최근 <b>AI 버블<\/b> 논란과 관련해 “기술주 투자가 시대의 흐름”이라고 강조했다. 그는 “가치 투자는 제조업 시절에는 맞았지만, 지금은 기술이 주도하는 세상”이라며 “새로운 기술이 나오면 주변에서... ",
			"pubDate":"Mon, 24 Nov 2025 17:10:00 +0900"
		},
		{
			"title":"세계 최대 국부펀드 CEO &quot;<b>AI<\/b>, 세계 불평등 심화 위험&quot;",
			"originallink":"https:\/\/www.delighti.co.kr\/news\/articleView.html?idxno=106408",
			"link":"https:\/\/www.delighti.co.kr\/news\/articleView.html?idxno=106408",
			"description":"2조달러 규모의 자금을 운용하는 노르웨이 국부펀드를 이끄는 그는 최근 시장을 뒤흔들고 있는 <b>AI<\/b> 거품 논란에 대해서도 언급했다. 탕엔 CEO는 &quot;<b>버블<\/b>이라고 해도 그렇게 나쁜 <b>버블<\/b>은 아닐 수도 있다&quot;면서 자동화, 데이터... ",
			"pubDate":"Mon, 24 Nov 2025 17:06:00 +0900"
		}
	]
}

 

 

뉴스 검색 및 데이터 획득 함수화

import os
import sys
import json # 문자열 -> 역직렬화 -> 리스트, 딕셔너리로 구성, 반대도 제공(직렬화)
import urllib.request
# 편의상 해당 값을 세팅하고 수행 -> **********git등 공유 금지**************
client_id     = "*****************"
client_secret = "**********"

# [ {}, {}, {},... ] 결과물
def get_news( keyword : str ) -> list: # 애너테이션 추가
  encText     = urllib.parse.quote( keyword )
  url         = "https://openapi.naver.com/v1/search/news.json?query=" + encText
  request     = urllib.request.Request(url)
  request.add_header("X-Naver-Client-Id",client_id)
  request.add_header("X-Naver-Client-Secret",client_secret)
  response    = urllib.request.urlopen(request)
  rescode     = response.getcode()
  if(rescode==200):
    # json 모듈을 이용하여 원래 자료구조 형태로 복원(역직렬화)
    res = json.load(response)
    return res
  else:
      return [] # 에러 -> 검색 못한것임 -> 결과 없음

 

today_news = get_news('ai버블')
today_news

type(today_news), today_news.keys()
# items 라는 키를 넣어서 값(뉴스 10개)를 추출 -> 인덱싱
# 변수 [ 키 ] , 변수.get(키)
news = today_news.get('items')
len(news), news

 

 

결과값 : 아이템에 있는 내용만 출력된다.

(9,
 [{'title': '엔비디아 &quot;매출채권 연체·GPU 재고량 이상 없다&quot;',
   'originallink': 'https://www.hankyung.com/article/2025112425741',
   'link': 'https://n.news.naver.com/mnews/article/015/0005215378?sid=101',
   'description': '인공지능(<b>AI</b>) 거품론에 조목조목 반박하는 내용들로 채워졌다. 지난 19일 시장 추정치를 뛰어넘은 3분기... 하나로, <b>AI</b> 거품론의 대표적 근거로 꼽힌다. 엔비디아는 “3분기 매출채권 회전일수는 52일로, 과거 평균(53일)은... ',
   'pubDate': 'Mon, 24 Nov 2025 17:36:00 +0900'},
  {'title': '금으로 몰리는 돈, 갈라지는 ETF…테마별 희비 엇갈린 현물시장',
   'originallink': 'https://www.startuptoday.co.kr/news/articleView.html?idxno=547026',
   'link': 'https://www.startuptoday.co.kr/news/articleView.html?idxno=547026',
   'description': '연말 변수와 <b>AI 버블</b> 논란까지 겹치며 ETF 시장이 새로운 균형점을 찾아가는 모습이다. ■ 금 현물 ETF로 자금 쇄도… &quot;내년 5000달러까지 간다&quot; 국내 금 현물 ETF에 개인 투자자 자금이 빠르게 유입되고 있다. 최근 금... ',
   'pubDate': 'Mon, 24 Nov 2025 17:36:00 +0900'},
  {'title': '<b>AI 버블</b> 우려에도…외국계 IB &quot;삼성전자·하이닉스 사라&quot;',
   'originallink': 'https://www.hankyung.com/article/2025112424361',
   'link': 'https://n.news.naver.com/mnews/article/015/0005215348?sid=101',
   'description': '인공지능(<b>AI</b>) 거품론으로 증시 변동성이 커진 가운데서도 외국계 증권사들이 잇달아 삼성전자와 SK하이닉스에 대한 긍정적 평가를 내놓고 있다. 앞으로도 <b>AI</b> 투자가 지속되고, 메모리 반도체 수요가 구조적으로... ',
   'pubDate': 'Mon, 24 Nov 2025 17:25:00 +0900'},
  {'title': '<b>AI</b>는 자녀의 직업 선택 과정에서 훌륭한 자원',
   'originallink': 'https://www.hani.co.kr/arti/society/schooling/1230969.html',
   'link': 'https://n.news.naver.com/mnews/article/028/0002778067?sid=102',
   'description': '인공지능(<b>AI</b>)은 철학과 비슷한 정도의 뜬구름 잡는 학문으로 취급받았으며 컴퓨터 사이언스도 하향세였다. 닷컴 <b>버블</b>이 꺼진 이후에도 테크의 발전은 계속됐다. 모든 회사들이 인터넷 사이트를 만들기 시작했고, 2000년대... ',
   'pubDate': 'Mon, 24 Nov 2025 17:20:00 +0900'},
  {'title': '배재규 &quot;테크 기업이 세상 주도…기술주에 장투해야&quot;',
   'originallink': 'https://www.hankyung.com/article/2025112424331',
   'link': 'https://n.news.naver.com/mnews/article/015/0005215334?sid=101',
   'description': '최근 미국 증시에서 불거진 ‘<b>AI</b> 거품론’에 대해서는 “고점 여부는 중요하지 않다”며 “<b>AI</b> 거품론은 소음일 뿐”이라고 일축했다. 이어 “닷컴 <b>버블</b> 당시 야후의 주가수익비율(PER)은 416에 달했고, PER이 100을 넘는... ',
   'pubDate': 'Mon, 24 Nov 2025 17:19:00 +0900'},
  {'title': '‘ETF 아버지’ 배재규 “장기투자하면 <b>AI버블</b> 상관없다…반도체·나스...',
   'originallink': 'https://www.joongang.co.kr/article/25384604',
   'link': 'https://n.news.naver.com/mnews/article/025/0003484895?sid=101',
   'description': '없다”면서도 <b>AI</b> 산업 전체를 거품으로 치부할 수는 없다고 지적했다. 주요 빅테크(거대 기술기업)의 고평가 정도를 나타내는 주가수익비율(PER)이 과거 ‘닷컴 <b>버블</b>(거품)’ 때와 비교해 낮다는 이유에서다. 예를... ',
   'pubDate': 'Mon, 24 Nov 2025 17:15:00 +0900'},
  {'title': "외국인, 11월 12.7조 '셀 코리아'…역대 최대 기록 갈아치웠다",
   'originallink': 'https://www.news1.kr/finance/market-exr/5986369',
   'link': 'https://n.news.naver.com/mnews/article/421/0008622416?sid=101',
   'description': '<b>AI버블</b> 우려가 있지만 실제 붕괴 조짐은 아직 보이지 않고, 연준의 금리 인하 기대 역시 되살아났기 때문이다. 이번 주 미국 증시는 추수감사절과 블랙프라이데이 연휴로 27일(현지 시각) 휴장, 28일 조기폐장이 예정돼... ',
   'pubDate': 'Mon, 24 Nov 2025 17:14:00 +0900'},
  {'title': "<b>AI 버블</b> 붕괴와 자산 대전환… 미래학자 최윤식 신간 '2026 세계 경제 시...",
   'originallink': 'http://www.ttlnews.com/news/articleView.html?idxno=3053034',
   'link': 'http://www.ttlnews.com/news/articleView.html?idxno=3053034',
   'description': '<b>AI 버블</b> 붕괴의 직격탄을 맞을 수 있는 반도체 산업, 중국 경기 침체의 고스란한 영향, 높은 안일함이 만들어 낼 한국형 민스키 모멘트까지 제시한다. 동시에 한국은 구조적 취약성에 놓여 있다는 진단과 함께 기술·제조... ',
   'pubDate': 'Mon, 24 Nov 2025 17:14:00 +0900'},
  {'title': '삼성전자 2% 상승…SK하이닉스 여전히 약세',
   'originallink': 'http://mbn.mk.co.kr/pages/news/newsView.php?category=mbn00003&news_seq_no=5156852',
   'link': 'https://n.news.naver.com/mnews/article/057/0001920760?sid=101',
   'description': '낙폭이 과대했다는 인식에 저가 매수세가 유입됐지만, <b>AI 버블</b>에 대한 경계감과 추세추종형(CTA) 펀드의 기술주 매물 출회 여부 등을 지켜보려는 관망 심리 등이 커지면서 상승이 제한되거나 하락 전환한 것으로... ',
   'pubDate': 'Mon, 24 Nov 2025 17:12:00 +0900'}])

 

 


 

  •  

금일의 수업은 여기까지, 이후 전처리와 적재를 이어서 진행할 예정이다.