본문 바로가기

AI 관련78

파이썬의 기초 (python 3.7) - 제어문 ■제어문 "무엇을 어떻게 해줘!" 에서 어떻게를 설명하기 위한 문 조건문과 반복문이 있음 ■조건문 if문 특정 조건의 참 ,거짓에 따라 작성한 코드가 동작할지 말지를 결정 if문 언제쓰나? 엑셀 필드 중 결제상태가 "결제 완료"인 사람만 뽑아줘 접속한 웹사이트에 "패스트캠퍼스"가 있으면 URL을 저장해줘 ■문법 if 조건문 : 실행할 문장 elif 조건문 : 실행할 문장 else : 실행할 문장 예시 payment_status='complete' if payment_status =='coplete': print('completed') elif payment_status == 'inproqress' print('in progress') else: print('Noop!')​ ■들여쓰기 if문을 설명하면서 .. 2021. 10. 14.
ADsP 기출문제 오답노트 - 이론 정리 2 데이터 웨어하우스는 비휘발성(NonVolatile)을 특징을 가지고 있으므로, 일단 데이터가 적재되면 일괄 처리 (Batch처리)외에는 별도의 갱신이 이루어지지 않는다. 데이터웨어하우스는 데이터를 주제별로 저장하기 때문에 최종사용자 혹은 전산 지식에 약한 분석자도 이해하기 쉬운 형태를 취한다. 맵리듀스에서 블록크기의 기본값은 64MB이고, 맵 태스크하나가 1개의 블록을대상으로 연산을 수행한다. 따라서 320MB 크기의 파일을 대상으로 작업을 수행하면 5개의 맵 태스크가 생성된다 (320/64=5개) 데이터 스테이징 단계에서는 정기적인 ETL과 실시간 ETL을 혼용할 수 있고, 저장되는 테이블의 스키마는 데이터 원천의 구조에 의존한다. 데이터 원천과 스테이징 테이블과의 매핑은 일대일 혹은 일대다로 구성될수.. 2021. 10. 14.
ADsP 기출문제 오답노트 - 이론 정리 1 구글의 'Ngram Viewer'를 통해 우리가 확인하기 힘들었던 부분을 찾을 수 있도록 해주는 빅데이터의 비유는 "렌즈"이다. 빅데이터의 가치 산정이 어려운 이유는 다음과 같다. 빅데이터 활용 방식: 재사용, 재조합, 다목적용 개발 새로운 가치 창출 분석 기술 발전 하라스엔터테인먼트의 회장인 러브먼이 언급한 분석 기반 경영이 도입되지 못하는 이유로 "사람들은 아이디어 자체보다는 아이디어를 낸 사람이 누군지에 더 많이 관심을 가지고 있다"고 이야기 했다. DML(Data Manipulation Language)는 테이블에 데이터 검색, 삽입 ,수정, 삭제하는데 사용하여 SELECT, INSERT,UPDATE,DELETE 등이 있다. DDL (Data Definition Language)는 테이블이나 관계.. 2021. 10. 13.
파이썬의 기초 (python 3.7) - 딕셔너리 ■딕셔너리 대응관계를 나타낼 수 있는 자료형 대응관계란? 이름 : 홍길동 회사 : 우산국 위 처럼 'key' 와 'value'가 연결된 자료형 이다. key value name honggildong company woosanguk >>> a = {'name': 'honggildong','company': 'woosanguk'}​ ↑딕셔너리 자료형 예제 ■딕셔너리- 연산 연산을 지원하지 않는다. ■딕셔너리 - 인덱싱 슬라이싱은 지원하지 않는다. 앞서 설명한대로! 인덱싱은 key 로 가능 >>> a = {'name':'honggildong', 'age':1000} >>> print (a['name']) honggildong print(a['age']) 1000​ 숫자가 아닌 key 값을 가져올 수 있기 때문.. 2021. 10. 13.
파이썬의 기초 (python 3.7) - 리스트 ,튜플 ■리스트 데이터의 모음을 담기 위한 자료형 데이터의 추가, 삭제, 수정이 자유로움 중복된 데이터도 가능, 넣을 수 있는 데이터의 자료형도 자유 인덱싱으로 데이터를 다룰 수 있음 a= [0,123,'alghost',0,1.1] a=[]​ ■리스트 연산 기호 설명 예시 더하기 + 리스트 붙이기 >>> a=[1,2,3] >>> b={6,7,8] >>> c=a+b >>>print(c) [1,2,3,6,7,8] 곱하기 * 리스트 반복하기 >>>a=[1,2,3] >>>b=a*3 >>>print(b) [1,2,3,,12,3,1,2,3] ■리스트 - 인덱싱, 슬라이싱 인덱싱은 리스트에서 특정값을 가리키는 것을 의미 슬라이싱은 리스트에서 특정값들을 가리키는 것을 의미 문자열과 같은 원리 이다. 인덱싱 예제 >>> a =.. 2021. 10. 12.
파이썬의 기초 (python 3.7) - 문자열 ■문자열-내장함수 내장함수란 파이썬이 기본적으로 제공하는 함수 문자열 내장함수 : 문자열 자료형이 기본적으로 제공하는 함수 ■함수 트정 입력값에 의해 정해진 동작을 수행하고 결과 같을 내는 기능 결과를 반환하는 함수와 반환하지 않는 함수로 구분됨 쉽게 설명하면 함수라는 상자에 입력값을 넣으면 결과가 바로 나옴 (이렇게 설명하면 되나? ㅋㅋ) ■함수종류 함수명 설명 사용방법 result 값 count 특정 문자 수를 반환 a = 'Fastcampus' result = a.count('a') (a라는 문자열에서 알파벳 a의 개수는 ? ) 2 find 특정 문자 위치를 반환 a = 'Fastcampus' result = a.findt('a') (문자열 앞에서 시작해서 a의 위치를 찾는것. 0부터 시작하므로 1.. 2021. 10. 11.
파이썬의 기초 (python 3.7) ■파이썬 스크립트 언어 : 한줄 한줄 작성할 때마다 실행이 됨 장점 작성한 코드를 실행가능한 프로그램으로 만들(컴파일) 필요없음 스크립트를 실행해줄 프로그램(파이썬)만 설치하면 어디든 실행가능 단점 성능이 느림 (다른 언어에 비해 느림) ■변수 데이터를 담는 그릇 --> "무엇을 어떻게 해줘" 에서 무엇에 해당한다. 다양한 종류의 데이터를 담을 수 있다 문자열, 숫자, 리스트 증 프로그램 (파이썬) 에서 데이터를 다루기 위해선 무조건 그릇에 담아야 한다. 변할 수 있는 값을 담는 그릇 이름을 지정하여 사용해야한다. 이름을 잘 지어야한다! ■변수의 종류 설명 모습 숫자형 정수, 실수 등의 숫자를 다루는 자료형 0 or 1.25 or -123 문자열 문자열을 다루는 자료형 '변수' 리스트 다른 자료형의 모음.. 2021. 10. 10.
ADSP 요약정리 - 6장 시뮬레이션 및 최적화 - 최적화 제 3절 최적화 - 최적화 기법으로 체계적으로 접근해 결정하기는 쉬운일이 아니며 결정의 질 도한 평가하기 어려움 - 최적화방법으로 선형계획법(수리계획법 분야의 한 종류)을 가장 많이 사용 - 최적화 모델은 목적식을 최대화 / 최소화 하기도 하며 등식 / 부등식이라는 제약식을 가짐 * 최적화 적용함으로 최적 경영기법을 구할 수 있는 것은 아님 - 모델의 기본적인 두 가정 * 계수의 확실성 : 불확실성이 존재할 경우 최적화 방법 적용 불가 -민감도 분석 : 자료 미비로 계수의 정확도를 알기 어려울 경우 계수 값을 여러가지로 추정하면서 해의 결과가 어떻게 변하는가를 보고 의사결정 * 명확한 함수 형태 * 최적화는 문제의 성격과 목적에 따라 최소점/ 최대점을 찾는 방법 - 제약조건 만족시키는 범위에서 목적함수의.. 2021. 10. 9.
ADSP 요약정리 - 6장 시뮬레이션 및 최적화 - 시뮬레이션 제 2절 시뮬레이션 1. 시뮬레이션이란? -실제상황을 수학적으로 모델화하고 그 모델을 컴퓨터에 프로그램으로 저장한 후 일어날 수 있는 가능한 모든 상황을 입력함으로써 각각의 경우에 어떤 결과가 도출되는지 예측 * 시뮬레이터 : 시뮬레이션 모델에 대한 프로그램을 사용자들이 편리하게 사용하고 그 결과를시각적으로 볼 수 있도록 만든 컴퓨터 기능 - 실제 상황을 모델링 하고 프로그램하기 위해 고급인력을 써야하므로 초기 비용이 많이 듦 * 일단 프로그램화하면 사용자가 여러 경우를 맘대로 가정해 결과확인이 가능하기 때문에 결과적으로 비용절약이 가능하고 특히 짧은 시간에 미래에측에 효과적 가. 시뮬레이션이 정의 - 활용분야에 따라 여러 의미로 정의 가능. 일반적으로 주어진 조건하에서 실제 상황 속에서 모의실험을 통해.. 2021. 10. 9.
ADSP 요약정리 - 6장 시뮬레이션 및 최적화 - 빅데이터와 시뮬레이션 제 1절 빅데이터와 시뮬레이션 - 데이터마이닝 : 대용량 DB에서 숨어있는 예측 가능한 정보를 자동으로 추출하는 데이터 부석 방법 * 데이터에서 쉽게 발견하기 어려운 정보를 발견하거나 특정상황을 예측하는 것 - 데이터 마이닝은 모든 분야 Business Intelligence는 기업에서 데이터 분석을 통해 효율적인 의사결정을 하도록 지원하는 시스템과 기술 - 데이터 마이닝을 정의 하는 핵심용어 : 자동화(automated), 숨겨진(hidden), 예측가능(predictive) * 이전에 발견되지 않았던 데이터들 간의 상호관계를 분석하는 것 - 더 많은 데이터는 시뮬레이션 에측의 정확도를 높임 - 시뮬레이션 : 실제 테스트해보기 어려운 초대형 프로젝트나 위험한 테스트 등을 대신해 행하는 모의실험 * 실제.. 2021. 10. 8.
ADSP 요약정리 - 5장 비정형 데이터 마이닝 - 사회연결망 분석 (Social network analysis, SNA) 제 2절 사회연결망 분석 (Social network analysis, SNA) 1. 사회연결망 분석 정의 가. SNA 정의 - 개인과 집단들 간의 관계를 노드와 링크로서 모델링해 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론 * 사회 연결망 : 개인의 인간관계가 인터넷으로 확대된 사람 사이의 네트워크 다양한 분야에서 응용 * 기존 사회연결망에 대한 관심이 주로 그룹 간 또는 그룹 안의 개인에 집중한 반명 처음 사회연결망 용어 사용한 Barnes는 독립 네트워크 사이의 관계에 대해 집중 - 분석방법 : 집합론적 방법, 그래프 이론에 의한 방법, 행렬의 이용한 방법 등 1) 집합론적 방법 - 객체들의 집합에서 각 객체들 간 관계를관계 쌍(pairs of elements)으로 표현 2) .. 2021. 10. 7.
ADSP 요약정리 - 5장 비정형 데이터 마이닝 - 텍스트 마이닝 제 1절 텍스트 마이닝 - 텍스트로부터 고품질의 정보를 도출하는 과정. 입력된 텍스트를 구조화해 그 패턴을 도출한 후 결과를 평가해석하는 일련의 과정 통칭 * 다양한 포맷의 문서로부터 데이터를 획득해 이를 문서별 단어의 매트릭스로 만들어 추가 분석이나 데이터 마이닝 기법을 적용해 통찰을 얻거나 의사결정을 지원하는 방법 - 다양한 포맷의 문서로부터 텍스트를 추출해 이를 하나의 레코드로 만들어 단어 구성에 따라 마트를 구성하고 이들 간의 관계를 이용해 감성분석(sentiment analysis)이나 워드 클라우드(word cloud)를 수행하고 이 정보를 클러스터링이나 분류와 사회연결망 분석에 활용 가능 * 예) 주고 받은 문장을 API로 읽어 분석해 평판관리와 마케팅 화롱을 실시간 관리 가능, 경쟁사 브랜.. 2021. 10. 7.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 연관분석(assocociation Analysis) 제 5절 연관분석(assocociation Analysis) 1. 연관성 규칙 가. 연관성 규칙의 개념 - 장바구니 분석 (MKT basket analysis), 서열분석(Seq, Analysis)이라 불림 - 포괄적 개념. 흔히 기업의 DB에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용 * (마케팅) 손님 장바구니에 들어있는 품목 간 관계를 알아본다는 의미에서 장바구니 분석 * 장바구니에 뭐가 같이 들어있나(장바구니분석), A사고 B산다(연관성분석) - 어느 고객이 어떤 제품을 같이 구매할까? --> 연관성 분석 실시 * 분석을 통해 제품 간 연관성 파악하면 세트메뉴 구성/ 쿠폰발행 등 교차판매 (corsss selling)할 때 효과적 - 연관성 규칙의 일반적인.. 2021. 10. 6.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 군집분석 (Clustering Analysis) 제 4절 군집분석(Clustering Analysis) 1. 군집분석 개요 - 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것 * 결과는 구체적인 군집분석 방법에 따라 다름 * 군집 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준에 의해 자발적인 군집화 유도 - 군집분석의 목적 * 적절한 군집으로 나누는 것 * 각 군집의 특성, 군집간의 차이 등에 대해 분석 - 나누는 방법에 따른 군집화 구분 * 임의적 방법 : 논란여지 많으나 많이 사용되옴 * 통계적 기법 활용 : 1,2 세대 알고리즘 이용해 사용돼 왔으나 실무적용성에 대한 논란 2. 전통적 군집분석 가. 기존 세분화 방법의 유형 - 임의로 나누는 방법 : 고객등급/ 고객구분 (신규/ 기존), 4분면, 9개 집단 등 다양 - 통계적 기.. 2021. 10. 6.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 예측분석 (Prediction Analysis) 제 3절 예측 분석 (Prediction Analysis) - 분류 : 불연속적 값/ 예측 : 연속적 값 - 예측 : 시계열분석으로 시간에 따른 값 두 개만을 이용해 앞으로의 매출 / 온도 등을 예측 * 두 접근방법은 모델링하는 입력 데이터가 어떤것인지에 따라 특성이 다름 * 예측은 여러개의 다양한 설명변수가 아닌 하나의 설명변수로 생각 1. 활용분야 가. 행동예측 유형 - 휴면-이탈, 등급변동, 특정상품 구매, 특정금액 이상 구매, 특정시점의 특정조건에 해당되는 행동 에측 등 다양한 경우 가능 * 특정행동 예측능력이 뛰어날수록 더욱 정교한 고객관계 활동 전개 가능 - 행동예측이 행동의 결과를 모두 상식적으로 설명가능해야 한다는 것은 잘못된 생각 * 맞으면 됨. 이해할 수 있는 논리 제공하면 좋지만 당연.. 2021. 10. 5.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis) 제 2절 분류분석 (Classification Analysis) 1. 분류모델링 - 분류분석 : 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 데이터 마이닝 기법 * 특정 등급으로 나누는 점에서 군집분석과 유사하나 각 계급이 어떻게 정의 되는지 미리 알아야 함. - 분류(Classification) : 객ㅊ를 정해놓은 범주로 분류하는데 목적 * CRM에서는 고객행동예측, 속성파악에 응용. 다양한 분야에서 활용 가능 - 많은 경우 분류모델 개발할 때는 train data/ test data 구분지어 모델링 * 전체 데이터를 7:3, 8:2 등으로 나눠 train 해서 최적모델 확정짓고 test로 검증 * train과 test간 편차 없어야 하며 성능은 test가 다소 낮게 나오는 경향 - 분류를.. 2021. 10. 5.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요 제 1절 데이터 마이닝의 개요 - 데이터 마이닝 : 대용량 데이터에서 의미있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법 - 통계분석과 비교해 데이터 마이닝의 큰 차이 * 가설이나 가정에 따른 분석이나 검증, 통게학 전문가가 사용하는 도구도 아님 * 다양한 수리 알고리즘을이용해 DB의 데이터로부터 의미있는 정보를 찾아내는 방법 통칭 - 정보 찾는 밥법론에 따라 * 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 등 - 분석 대상이나 활용목적, 표현 방법에 따라 * 시각화 분석, 분류(classification), 군집화(clustering), 포케스팅(forecasting) - 사용하는 분야 매우 다양 - 데이터마이닝 도구가.. 2021. 10. 4.
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 제 3절 기초분석 및 데이터 관리 1. 데이터 EDA - 데이터 분석 전에 대략적 특성을 파악하고 데이터에 대한 통찰을 얻기 위해 다각도로 접근 가. 데이터 기초통계 * head(iris) : 데이터 앞 6줄 보여줌 - head(iris,10) : 숫자 넣어주면 원하는 개수만큼 볼 수 있음. * str(iris) :데이터 구조 파악 * summary : 데이터 기초 통계량 * cor(x,y) : 상관계수 * cov(x,y) : 공분산 2. 결측값 처리 - 결측값 처리 시간 많이 쓰는 것은 비효율적 * 가능하면 결측값은 제외하고 처리하는 것이 적합 (결측값 자체가 의미 있는 경우 있음) - 결측값 어떻게 처리하냐는 전체 작업 속도에 많은 영향 * 이 부분을 자동화하면 업무 효율성 매우 향상됨 - R 결측값.. 2021. 10. 3.