본문 바로가기

til61

221114 TIL - house prices 수업을 들으며, medical 캐글 필사 어렵다. 221114 MON 사실(Fact) : house prices 데이터를 가지고 머신러닝에서 사용할 수 있는 전처리 기법을 다양하게 응용해보았다. 느낌(Feeling) : 쓰레드를 열어줄 때마다 익숙한 문제임에도 시간이 오래 걸린다. 빨리 익숙해지면 좋겠다. 교훈(Finding) : 튜토리얼을 필사해보며 공부했던 분석이 오늘 전처리 시간에도 많이 보였다. 필사를 다 해볼 수 있었으면 좋았을텐데 꼭 따라해보자! 캐글 필사 : 100% 완벽하게 코드들을 이해하지 못했다. 안써본 bokeh 같은 것들이나 시각화에서 사용하는 메서드들이 아직 어렵다. 2023. 5. 9.
230507~230508 TIL - 조금 더 익숙해진 셀레니움 한 페이지 스크래핑 성공, 노트북 수리, 프로그래머스 다시 시작 230507 - 셀레니움 : 다음 페이지 클릭, 한 페이지 스크래핑 반복문 수정 및 구현 부스트캠프 때 첫 번째 팀 미션 주제가 '웹 스크래핑' 이었다. 그 때는 페이지를 넘기거나, 스크래핑 코드를 작성하는게 혼돈이었다. 지금은 그래도 영상을 보고, 공부하고, 이해를 해서 어디 부분을 수정해야 내가 원하는 결과가 나올지 건드려볼 수는 있게 되었다. 1페이지 내에서, 상단의 첫 번째 기사 리스트만 출력되던 것을 for문이 newsList라는 클래스 이름을 가진 태그를 반복해서 돌면서 출력할 수 있도록 수정 => 성공 다음 페이지를 클릭할 수 있도록 반복문 수정 - 이력서, 자기소개서 노션 pdf 수정 완료 230508 - 스터디 셀레니움 : 어제까지 잘 되던 코드가 newslists_df가 정의되지 않았다.. 2023. 5. 9.
230504 TIL - 주제에 알맞은 데이터셋이 뭘까 고민하게 된다. 230505 - 노트북 수리 : 액정만 나갔던 노트북이 결국 부팅도 안됨. 서비스센터행.. - 포폴 스터디 : 자소서 수정해감. 피드백 - 마켓 센싱 : 셀레니움으로 스크래핑. 전체 데이터를 스크래핑하고, 데이터프레임화하는 것 계속 연구할 것 - 공모전 : 데이터셋과 주제 디벨롭 고민(데이터셋을 준비하고 주제를 좁혀나가려고 계속 노력했는데, 주제를 디벨롭하려고 보니 다시 데이터셋이 없다..) 2023. 5. 5.
Selenium(셀레니움) 개념 익히기, 실습 공부 개념 익히기 유튜브 강의 셀레니움 및 웹 드라이버 설치 !pip install Selenium # chromium 드라이버를 인스톨 하기 위해 업데이트가 필요함 !apt-get update !apt install chromium-chromedriver # 유저 라이브러리에 설치된 드라이버를 bin에 카피해둠 !cp /usr/lib/chromium-browser/chromedriver /usr/bin # 패스 설정 import sys sys.path.insert(0, '/usr/lib/chromium-browser/chromedriver') 웹 드라이버 설정 from selenium import webdriver options = webdriver.ChromeOptions() options... 2023. 5. 4.
230502 TIL - 미니 기획안을 준비해보자, F12로 태그 보는게 처음보다 익숙하다. 230502 TUE 공모전 Fact : 처음 생각했던 주제는, 실제로 그렇다는 것을 증명하기 어렵다는 판단이 들어서(실제로 그렇지 않다는 기사 등도 있음) 보류가 됨. 나머지 주제는 모델 구현에 초점이 맞춰져 있는데, 어떻게 분석 쪽으로 잘 들고 올지 고민이 필요하다. Feel : 금요일까지는 미니 기획안처럼 '주제-선정배경-분석할 데이터셋-결론'을 짜보고 가야겠다. 공모전 내용도 다시 확인하자. Find : 🧐 스터디 Fact : 자기소개서 수정 완료(소요 시간: 3시간..?) & 셀레니움 공부 완료 Feel : 스크래핑 사이트를 돌려보진 않았는데, 유튜브로 본 예시대로만 하면 바로 될 것 같은 이 자신감...! Find : 멋사 때 스크래핑 실습 + 티스토리 TOC 달기로 홈페이지 태그가 좀 익숙해졌.. 2023. 5. 3.
230428~230501 TIL - 아이디어 뱅크, 아이디어 디벨롭, 마켓센싱 시작 230428 Fri Fact : 공모전 첫 모임. 4개 공모전에 대해 7개 아이디어 및 이전 수상작 조사를 준비해감. Feeling : 해당 아이디어를 분석할 수 있는 데이터의 유무도 중요하다는 것을 느낌. 그래서 이 날 모임 시간에는 데이터셋이 있는지를 많이 찾아보았다. Find : 나는 목적이 주어지면, 사전준비+아이디어도 적어도 하나는 찾으려고 노력하는 1인 몫은 하는 사람이구나 느낌. 230429 Sat 전주 여행으로 쉬어가는 시간. 230430 Sun 1페이지 이력서 작성. 활용, 구현해본 스킬을 제시하고 싶은데, 어떻게 해야 구체적으로 제시할 수 있을지 고민이 많이 된다. 노션으로 작성한 이력서는 A4로 pdf 내보내기를 하면 3페이지 정도로 넘쳐서 A3를 했는데, 어떤 사이즈가 맞을지도 고민.. 2023. 5. 2.
캐굴캐굴스터디 깃허브 연동하기 목표 : 바탕화면에 캐굴캐굴스터디 폴더 생성 후 깃허브 연동 -> clone하면 캐굴캐굴스터디 폴더 내에 캐굴캐굴스터디 repository가 연동되어 폴더가 하나 더 생성이 되었다. 결국 vscode에서 브랜치 연동이 안되어서 다시 시작 -> 바탕화면에 github 폴더 생성 -> github 폴더 내에서 캐굴캐굴스터디 repository를 연동하기 git bash pwd로 현재 위치 확인 cd Desktop : 나는 바탕화면에 폴더를 만들고 싶었는데, 내 바탕화면 이름은 desktop이 아니고 Desktop이었다. 폴더에 마우스 우클릭해서 Git Bash Here로 열면 경로가 바로 열려서 더 편하다. mkdir github : ~/Desktop에서 'github'란 폴더 생성 cd github(생성한.. 2023. 4. 25.
221111~221113 TIL - 다이아몬드 과제, 캐글 튜토리얼 필사 과제 221111 FRI 태블로 태블로...어렵다... 중간중간 뛰어넘어가면서 강의를 들으니까 헷갈린다. 그리고 오후에 강사님이 해주는 강의는 한 번 놓치면 끝이라서 포기할까말까의 기로에 늘 왔다갔다 한다. 221112 SAT 다이아몬드 과제 조금 풀어보기 221113 SUN [다이아몬드 과제] 6번 문제는 지금까지 풀어온 것에서 조금만 변형이 된 것인데, 응용하기가 어려웠다. 덕분에 loc 개념을 찾아보면서 기본적인 loc[행인덱싱값, 열인덱싱값] 개념을 다시 공부할 수 있었다. plotly가 손에 안 익어서 seaborn을 자주 사용했는데, 그리는 것을 연습해볼 수 있어서 좋았다. [캐글 튜토리얼 필사 과제] 영어로 되어 있어 시간이 오래 걸렸지만, 끝까지 해 본 후, 이런 흐름으로 분석이 진행되었구나 이.. 2023. 4. 25.
[으쌰복습, 올라잇팀] Ordinal Encoding 오디널 인코딩의 정의, 특징 공부 Ordinal Encoding 인코딩을 하는 이유 : 머신 러닝 모델들의 대부분은, 보통 string type로 이루어진 범주형 변수를 이해하지 못한다. 그렇기 때문에 숫자로 인코딩을 해줘야 하고, 데이터에 따라 적합한 인코딩 방법이 필요하다. 정의 순서가 있는 범주형 변수(Ordinal variables)를 숫자로 변환하는 인코딩 순서가 있는 범주형 변수란 ? 등급(1등급, 2등급, 3등급), 영화평점 별 갯수, 학점 바꾸고자 하는 컬럼을 지정할 때, “cols” 파라미터를 사용해서 지정하면 되지만, 랜덤으로 숫자 변환이 된다. 원하는 숫자로 매칭시키고 싶다면 “mapping” 파라미터를 사용하면 된다. 특징 mathematical value를 가진다. 범주형 데이터를.. 2023. 4. 25.