본문 바로가기
반응형

데이터 분석25

SQL 개발자 합격수기 및 공부방법 SQL 개발자 합격 점수 45회 SQL 개발자(SQLD) 시험에 합격하였다. 66점으로 간당간당하게 합격하기는 했으나, 데이터의 모델링의 이해 쪽에서 90%인 18점으로 대부분 점수를 올렸고, SQL 기본/활용 파트에서는 60%인 48점을 올렸다. 어쨌든 주말에 틈틈이 공부해서 좋은 결과를 얻게 되어서 기분이 너무 좋다! SQL 개발자 시험 일정 시험은 연 4회로 아래 링크를 참조하면 된다. https://www.dataq.or.kr/www/accept/schedule.do 데이터자격시험 제25회 데이터분석 전문가(필기) 제33회 데이터분석 준전문가 4.25 ~ 4.29 5.6 5.21(토) 6.17 - www.dataq.or.kr SQL 개발자를 왜 공부해야 하는가? SQL 개발자를 공부하게 된 이유는.. 2022. 6. 30.
[데이터분석기사 실기] 시험전 꼭 봐야하는 중요내용 (단답형, 작업형) [단답형 문제] 1.1 빅데이터의 이해 - 개인정보 자기결정권 - 마이 데이터 - 소프트 스킬 : 호기심, 커뮤니케이션 (하드스킬 : 분석/설계방법론) - 암묵지 : 느낌으로 전달 불가 (형식지 : 말과 글로 전달 가능) - 집기분 : 집중구조, 기능구조, 분산구조 - 프레이밍 현상 : 합리적인 의사결정 방해. 개인의 선택과 판단에 따라 다르게 받아들이는 것 - 핵심성과 지표 (KPI) : 목표 달성을 위한 정량 지표 1.2 데이터 분석 계획 - 상향식 접근 방식 (비지도학습 등) - 하향식 접근방식 (분석대상 정하고 분석) - (분석방법 / 분석대상 순) : 최통솔발 - 솔루션 : 몰알 - 최적화 : 알알 - 통찰 : 알몰 - 발견 : 몰몰 - 시스템 고도화 : 분석역량 있음 + 분석방법 신규도입 - .. 2022. 6. 23.
빅데이터 분석기사 실기 예제문제 풀어보기 빅데이터 분석기사 실기 환경은 반드시 보고 들어가자 빅데이터 분석기사 실기 예제 프로그램과 문제는 홈페이지에서 확인 할 수 있다. R과 python 두 가지를 모두 선택할 수 있는데 나는 당연히 파이썬을 선택했다. 이 모듈을 미리 써봐야 하는 이유는 주피터나 구글 코랩처럼 한 줄 한 줄 실행하는 것이 아니고 전체코드를 계속 실행하면서 결과물을 확인해야 하기 때문이다. 또한 구글 코랩환경과 달리 일일이 print() 명령문을 써줘야 코딩 결과를 확인할 수 있는 어려움도 있다. 링크는 아래와 같다. https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/1 구름EDU - 모두를 위한 맞춤형 IT교육 구름EDU는 모두를 위한 맞.. 2022. 6. 19.
빅데이터 분석기사 필기 합격수기 및 공부방법 그 어렵다는 턱걸이 합격을 해내다 데이터분석기사는 최소 60점을 합격선으로 하는 '절대평가'이다. 그리고 이 시험에서 그 어렵다는 턱걸이 합격을 해내고야 말았다. 약간 쑥쓰럽기는 하지만 절대평가 시험에는 아주 모범적으로 합격했다. 왜 빅데이터 분석기사를 공부했을까? 나는 작년에 빅데이터 분석준전문가 시험에 응시해서 필기는 합격했다. 하지만 이 시험은 이상하게도 R 프로그래밍을 기본으로 하고 있었다. 파이썬이 활용할 수 있는 라이브러리도 훨씬 많은데 R을 굳이 배워야 하나라는 생각이 많이 들었다. 비유하자면 대부분 회사에서 워드를 쓰고 있는데 갑자기 시험은 한글로 보는 그런 기분이었다. 그래서 R 에 투자하는 시간을 줄이고자 과감히 데이터 분석전문가는 접기로 했다. 시험을 공부하면서 파이썬 데이터 분석능력.. 2022. 6. 1.
개인화 추천 알고리즘 7 : 협업 필터링 협업 필터링(Collaborative Filtering) 이란 협업필터링은 사용자의 구매패턴이나 영화, 책 등의 평점 데이터를 바탕으로 추천을 제공하는 방법이다. 유저의 개인정보에 접근하지 않아도 구매이력, 평점 데이터로만 추천할 수 있는 장점이 있으며 넷플릭스와 같은 OTT 업체나 유튜브에서도 널리 사용하는 방법으로 알려져있다. 가장 기본이 되는 알고리즘을 이웃기반 협업필터링(Neighborhood based Collaborative Filtering)이라고 하며 유사도를 구하여 추천을 해주는데 이러한 협업 필터링은 크게 두 종류로 나눌 수 있다. 사용자의 구매패턴을 바탕으로 유사한 사용자를 찾아서 추천리스트를 날려주는 사용자 기반 협업필터링(User-based collaborative Filterin.. 2022. 3. 1.
개인화 추천 알고리즘 6 : Word2Vec (CBOW, Skip Gram) 벡터를 모르면 추천 알고리즘을 이해할 수 없다 우리 생활속에 수 많은 추천 알고리즘이 있다. 넷플릭스, 유튜브, 쿠팡 등 어느 곳에 가도 안물 안궁이지만 추천을 해준다. 아마 내가 본 것과 비슷한 것들을 계속 추천해주는 것을 대강은 알 수 있는데 이것은 대부분의 추천 알고리즘이 유사도(Similarity)를 기반으로 하고 있기 때문이다. 그리고 알고리즘 내부는 수 많은 벡터로 이루어져 있다. 유튜브의 과거 시청 이력도 스포티파이의 과거 음악 청취 이력도 모두 벡터화되어 유사도를 계산한다. 스포티파이 같은 경우 수 많은 고객데이터(=고객 벡터)와 음악청취데이터(=음악벡터)를 가지고 있다. 고객 1의 음악리스트와 가장 유사한 고객을 뽑아서 그 고객의 플레이 리스트에 있는 음악과 가장 유사도가 높은 것을 추천.. 2022. 2. 27.
개인화 추천 알고리즘 5 : 딥러닝과 인공신경망 아무리 쉽게 해도 어려운 이야기 개인화 추천 알고리즘의 다음 단계로 나아가기 위해서는 인공신경망을 이해해야 한다. 이것이 Word2Vec의 기초가 되는 이론이다. 인공신경망을 아무리 쉽게 이해하려고 해도 정말 방대한 이론이다. 이게 맞는 비유일지는 모르겠지만 군대를 가는 과정을 가지고 비유를 해보겠다. 일단 직장인을 예로 들어보겠다. 회사의 팀장이 점심때마다 피자 먹는다. 그걸 몇 년 계속 반복하다 보면 팀장이 "뭐 먹고 싶어?"라고 물어보면 기계적으로 피자를 먹고 싶다고 말한다. "팀장"이라는 인풋값이 들어오면 "피자"를 먹는 아웃풋을 예측하는 것이 머신러닝이다. 하지만 새로온 팀장은 이렇게 일차원적이지 않다. "비"가 오면 "파전"을 먹고, "눈"이 오면 "국밥"을 먹는다. 근데 애매한 비같은 눈이 .. 2022. 2. 14.
개인화 추천 알고리즘 5 : TD-IDF 모델로 유사도 분석하기 TD-IDF 를 활용한 유사도 분석 지난 유사도 분석에서는 문서의 각 단어를 벡터화하여 문서 간의 유사도를 구해보았다. TF-IDF 는 이전 보다 더 정교한 모델로, TF(Term Frequency)는 단어빈도를 의미하며 전체 문서에서 특정단어가 얼마나 자주 등장하는 지를 의미하며, IDF(Inverse Documnet Frequency)는 역문서 빈도를 의미하며 쉽게 말해 너무 자주 나오는 단어는 덜 중요하다고 간주하여 패널티를 주는 것이다. 다시 한 번 정리하면 TF-IDF는 "다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어를 찾아내 문서 내 "중요한" 단어의 가중치를 계산하는 방법"이다. TF(d,t) : 특정 문서 d에서 특정 단어 t의 등장 횟수 DF(t) : 특정 단어 t가.. 2022. 2. 8.
개인화 추천 알고리즘 4 : 컨텐츠 기반 모델과 코사인 유사도 함수 유클리디안 유사도 (Euclidean Similarity) 유클리디안 유사도는 문서간의 유사도를 계산하는 가장 기본적인 방식이다. p 벡터와 q 벡터의 거리를 구하는 것으로 우리가 중학교 때 배웠던 2차원의 피타고라스 정리를 생각하면 쉽게 이해할 수 있다. (피타고라스 정리는 90도 직각인 경우에 성립하므로 2pq는 0이므로 아래 공식이 성립한다.) 유클리디안 거리는 벡터간의 절대적인 거리에 초점을 맞추고 있기 때문에 벡터가 서로 다른 방향이더라도 유사도가 높다고 판단한다. 아래 이미지에서 메시와 호나우두는 벡터의 방향성은 다르지만 절대적인 거리가 가까우므로 유사하다고 보는 것이다. 코사인 유사도 (Cosine Similarity) 코사인 유사도는 코사인 값이 얼마나 유사한지, 다시 말해 벡터의 방향이 .. 2022. 2. 8.
개인화 추천 알고리즘 3 : 컨텐츠 기반 모델과 유사도 함수 콘텐츠 기반 추천 알고리즘 개인화 추천 알고리즘에 가장 기초적인 형태는 앞서 언급한 연관분석(Apriori, FP-growth)이다. 연관분석은 이재호님의 글에서 좋은 이미지가 있어서 가져 왔는데, 주로 상품추천이나 상품배치에 많이 사용된다. 상품 추천 이외에도 컨텐츠를 추천해주는 방법론은 컨텐츠 기반 추천(Contents-based recommendation)이라고 한다. 사용자가 본/읽은 것과 유사한 컨텐츠를 찾아서 추천해주는 기법으로 유사도(similarity)가 높은 컨텐츠를 찾아내는 방식이다. 이 과정에서 컨텐츠를 벡터화(Vectorization)하여 유사도를 측정한다. 유클리디안 유사도 유클리디안 유사도는 문서간의 유사도를 계산하는 가장 기본적인 방식이다. p 벡터와 q 벡터의 거리를 구하는 .. 2022. 2. 7.
반응형