Kaggle는 자료구조의 백준과같은 사이트로 데이터 사이언스 관련 문제들을 모아둔 곳입니다. 백준과 다른점은 문제마다 상금이 걸려있는 각각이 대회라는 것입니다. 많은경우 문제당 1,500,000$의 상금이 걸린 문제도 올라옵니다. 또, Kaggle에는 대회뿐만 데이터 관련 직군의 구직, 강의, 자신의 알고리즘 공유, 데이터 셋 공유 등의 여러 기능이 있습니다.
그런데 어떤 문제부터 시작해서 공부를 해야할지 모르겠는 분들에게 추천할 만한 글이 있습니다. 이글은 이유한님이 Kaggle-KR Tstory에 기고하신 글로 Kaggle를 통해 데이터사이언스를 공부하고 싶은 분들을 위해 문제의 종류별로 1~2개의 추천 문제를 올려주신 글입니다. 앞으로는 이 글에 나온 문제들을 하나씩 같이 해보면서 문제를 해결해 나가보려합니다.
그러면 이번시간에는 개발환경을 구축하려합니다. 데이터 사이언스에서 가장 많이 이용하는 IDE인 Jupyter Notebook를 설치해야합니다. 윈도우를 사용중일 경우 CMD에 맥이나 리눅스를 사용중인 경우 terminal에 아래와같이 입력하면 설치됩니다.(Python 설치)
pip install jupyter
그리고 실행은 아래와같이 입력하면 됩니다.
jupyter notebook
위와 같은 화면이 뜨면 성공입니다.
그러면 우측상단의 New 버튼을 눌러 Python3 파일을 생성하면 이제 작업을 시작 할 수 있습니다.
그러면 한칸 한칸 묶어서 실행 할 수 있고 실행은 shift + enter로 실행할 수 있고 한칸 한칸을 Python IDLE나 CMD에서의 한줄 한줄이라 생각하면 편할 것입니다. 그러니 In 2는 In1에 영향을 받을 수 있습니다. 아래와 같이요.
그럼 다음시간은 본격적으로 Binary classification 문제인 Titanic: Machine Learning from Disaster를 풀어보려합니다.