파이썬으로 금융 데이터 분석을 하기 위해서는 많은 패키지가 필요하다. 이를 일일이 설치하는 방법도 있지만, 필요한 패키지를 모아 놓은 파이썬 배포판 '아나콘다(Anaconda)'를 설치하면 더욱 편리하다. 운영체제 중에서 리눅스나 macOS는 pip로 패키지를 설치해도 큰 문제가 없다. 그러나 Windows에서는 pip로 패키지를 설치할 때 에러가 나는 경우가 많아서 윈도우 사용자는 파이썬 배포판인 아나콘다를 쓰는 것을 권장해 드림. 아무튼 아나콘다는 현재 스터디에서 사용할 Numpy, Pandas, Jupyter Notebook 등 대부분의 패키지를 전부 포함하고 있다.
먼저, 필자는 윈도우 환경을 기준으로 아나콘다를 설치하는 방법과 인터넷을 통해 편하게 사용할 수 있는 파이썬 실습 환경인 구글의 코랩(Colab)을 소개하고자 한다.
아나콘다 설치 링크: https://www.anaconda.com/download
공식적으로 설치하는 링크는 여긴데, 저는 텐서플로우 버전이랑 호환시키기 위해 구버전 설치했습니다. (파이썬 버전 변경 너무 오래 걸림 ㅜ)
아나콘다 구버전 설치 링크: https://repo.anaconda.com/archive/
저는 아래 파일 사용해서 설치했습니다. 저랑 버전 맞추실 분들은 아래 링크에서 파일 다운로드하여서 쓰시면 될 듯.
파일: https://drive.google.com/file/d/1vrIOpMcvTHaTYBP4OKvvcrkSR4dznHRd/view?usp=drive_link
설치 파일을 실행하면 다른 윈도우 프로그램을 설치하는 것과 마찬가지로 'Next >' 버튼을 누르면서 설치를 완료하면 된다.
설치 방식 선택하는 건데, 일단 기본값 그대로 'Just Me (recommended)'로 설치한다. 모든 사용자를 위해 설치하려면 'All Users (requires admin privileges)' 선택하시면 됨.
빨간 박스 부분에 대해 잠깐 짚고 넘어가자. 프로그램을 처음 깔았을 때, '환경변수(enviornment variable)' 개념을 자주 접하게 된다. 이게 뭔지 구글에 검색을 해 보면 아래와 같은 의미라고 알려준다.
우리는 환경 변수가 무엇을 위해 사용되는지, 사용 방법은 어떻게 되는지 정도만 알면 된다.
결론부터 말하자면, 우리는 환경변수의 'Path' 설정만 알고 있으면 된다. Path(경로)를 설정하는 일은 '어떤 경로에서든 무언가를 실행했을 때, 묻지도 따지지도 않고 이 Path(경로)를 참조하겠다.'는 의미다. 참조라는 말은 쉽게 설명하자면, 해당 경로(폴더)를 둘러보고 요청받은 파일이 있는지 살펴본다는 의미로 이해하면 된다.
예를 들어서 설명을 조금 더 자세히 해 보겠다. 컴퓨터에 'test.txt' 파일을 열어 달라고 cmd 창에서 명령을 내릴 때는 해당 파일이 있는 경로를 정확히 알려줘야 한다. 우리가 GUI 기반으로 폴더를 타고 들어가서 파일을 더블클릭 하는 것도 경로를 컴퓨터에게 알려주는 것이라고 할 수 있다.
우리가 코딩을 하거나 cmd 창에서 명령을 내릴 때, 경로를 설정해주지 않으면 일단 환경변수의 Path에 입력해 둔 경로들에 접근해서 명령에 필요한 파일을 찾는다. 이때, 여기에도 없으면 아래와 같이 에러가 출력된다.
다시 이 화면을 보자. 본인이 아나콘다만 사용하는 사람들은 그냥 빨간 박스 부분을 체크하고 설치를 진행해도 된다. 그런데 본인이 이미 CPython, PyPy, Jython과 같은 인터프리터를 이미 설치했을 경우에는 환경변수끼리 충돌을 할 수도 있기 때문에, 이러한 경우에는 빨간 박스를 선택하지 않고 설치하는 것을 추천한다. (그냥 파이썬 관련 프로그램 설치하셨으면 체크 해제하고 설치하셔도 된다는 뜻. 혹은 모르겠다 싶으면 제 화면처럼 일단 해제하고 설치하세요. 환경변수 Path 직접 추가하는 건 아래에서 다시 설명해 드림.)
파이참을 다운로드하고 싶으면 링크를 통해 다운로드할 수 있다. 그냥 패스하셔도 됨.
다시 돌아와서 환경변수를 직접 설정하는 방법에 대해 다뤄 보려고 한다. (Windows 11 기준)
바탕화면 좌측 하단의 검색창에 '환경 변수'를 입력하면 '시스템 환경 변수 편집'이 나온다. 이를 클릭하자.
사용자 변수에도, 시스템 변수에도 Path가 있는데 우리는 Path를 시스템 변수에서 찾아서 더블클릭 해 줘야 한다. 참고로 설명하자면 사용자 변수는 현재 Windows에 접속한 계정에만 적용되지만, 시스템 변수는 어떤 계정이든 모두 적용되는 차이점이 있다.
'새로 만들기(N)'를 클릭하여 총 3가지의 경로를 추가해야 한다. 그전에 anaconda3 폴더의 경로를 찾아야 한다. 아까 환경 변수를 찾은 것처럼 검색창에서 'anaconda3'를 검색해서 나오는 폴더를 클릭하면 된다. 우리가 추가할 경로는 anaconda3, 그 하위 경로인 Library와 Scripts이다.
경로를 가져오는 방법을 설명하자면, 해당 디렉터리(폴더)에 들어가서 위 사진에서 가장 상단의 붉은 사각형을 우클릭한 후 '주소 복사(C)' 버튼을 클릭하면 된다.
'새로 만들기(N)'을 클릭한 후, 복사한 경로를 붙여 넣기(Ctrl+V) 하자. 필자는 하단의 빨간 박스와 같이 경로를 추가했다.
확인을 누른 후에 컴퓨터를 재부팅하면 된다. (재부팅 반드시 바로 해 주세요.)
아나콘다를 설치했다면 아나콘다 프롬프트를 오픈하면 된다. 아나콘다 프롬프트에 아래의 명령어를 입력하여 아나콘다 파이썬 패키지를 전부 최신 버전으로 업데이트 하자. (업데이트 시간에 어느 정도 시간이 소요될 수 있음.)
설치된 python 버전을 update 화면에서 확인할 수도 있고, 'python --version' 명령어를 통해서도 확인할 수 있다. 이 버전을 확인해야 하는 이유는 추후에 설치할 텐서플로우 버전을 파이썬 버전과 호환되는 것으로 설치해야 하기 때문이다. 아래 링크에서 파이썬 버전에 따라 호환되는 텐서플로우 버전을 확인할 수 있다.
호환되는 텐서플로우 확인: https://www.tensorflow.org/install/source_windows?hl=ko#gpu
텐서플로우는 기본적으로 64비트 플랫폼만을 지원한다. 따라서 32비트 환경에서 딥 러닝 실습 환경을 구축하기에는 다소 힘든 부분이 있을 수 있다. 혹은 개인의 컴퓨터 사양이나 다른 이유로 아나콘다나 여러 파이썬 패키지 설치가 어려운 경우도 있다. 이러한 경우에는 인터넷만 된다면 바로 파이썬을 실습할 수 있는 구글의 코랩(Colab)을 활용하는 것이 좋다. 구글 Colab은 추후에 설명하게 될 'Jupyter Notebook'과 매우 유사한 실습 환경을 제공한다.
Colab 주소: https://colab.research.google.com/
접속 방법은 위의 URL을 통해서 접속하거나, 구글에서 Colab이라고 검색하여 접속할 수 있다.
Colab 사용 시에는 구글 계정이 필요하다. 구글 아이디로 로그인부터 해 줍시다.
로그인 후에 좌측 상단에서 '파일 > 새 노트'를 클릭하자. 조금 기다리면 파이썬을 실습할 수 있는 창이 뜬다.
위의 그림에서와 같이 Colab에서 코드를 작성하는 부분의 단위를 '셀'이라고 한다. 좌측 상단의 '+코드' 버튼을 클릭하여 새로운 셀을 추가할 수 있다. 셀에서 코드를 작성하고 나서는 'Shift + Enter' 키를 눌러서 코드를 실행할 수 있다.
셀에 위와 같은 코드를 작성하고 'Shift + Enter'를 누르면 'Hello Python'이라는 결과가 나온다. 좌측의 '[1]'은 해당 코드가 몇 번째로 실행되었는지를 나타낸다. 셀을 추가하면서 다른 파이썬 코드도 추가로 작성할 수 있다.
딥 러닝에서는 CPU보다는 GPU를 사용한다. Colab에서 실습할 때의 장점은 GPU를 무료로 사용할 수 있다는 것이다. GPU가 장착된 컴퓨터가 없는 딥 러닝 입문자들은 추후 실습을 진행할 때 Colab에서 GPU를 사용하면서 공부하는 것을 강하게 권장한다. GPU를 사용하지 않고 실습을 진행하면 딥 러닝 모델을 학습하는 시간이 지나치게 소요될 수 있기 때문이다.
Colab에서 GPU를 사용하기 위해서는 일단 새 노트에 진입해야 한다. 진입 후에는 상단에서 '런타임 > 런타임 유형 변경'을 클릭하면 된다.
클릭하면 위와 같은 화면이 뜨는데, '하드웨어 가속기 > GPU'를 선택하면 된다. GPU 유형은 우리가 뭐 여러 가지 안 할 거니까 그냥 T4 쓰셔도 될 듯. (이거까지는 일단 설명 생략함)
구글 Colab에서 데이터를 업로드해서 해당 데이터로 실습을 진행하고자 할 때의 방법이다. 먼저 좌측 바에서 폴더 모양의 버튼을 클릭한다. 그 이후에 윗 방향 화살표가 그려진 버튼을 클릭하여 파일을 업로드할 수 있다. 그냥 위에 그림에서 보이는 아이콘 1번 버튼 > 2번 버튼 순서대로 누르면 된다.
Colab의 자세한 사용법은 아래의 동영상 링크에서 더 자세히 배울 수 있다.
동영상 링크: https://youtu.be/inN8seMm7UI
기타 코랩 사용법은 해당 링크에서도 자세히 볼 수 있다.
코랩에서 파일을 업로드하고 다운로드하는 자세한 내용은 해당 링크를 추천한다.
[ Python ] 날짜와 시간 다루기 (0) | 2023.11.13 |
---|---|
[ Python ] 데이터 분석을 위한 패키지 - Pandas (0) | 2023.11.07 |
[ Python ] 금융 데이터 분석을 위한 실습 환경 준비하기(2) (1) | 2023.08.03 |
댓글 영역