파이썬/데이터 주무르기
-
파이썬 BeautifulSoup를 이용하여 네이버 웹툰 제목 가져오기파이썬/데이터 주무르기 2019. 12. 20. 21:49
우선 네이버 웹툰으로 접속하자 https://comic.naver.com/webtoon/weekday.nhn 네이버 웹툰 매일매일 새로운 재미, 네이버 웹툰. comic.naver.com 크롬 브라우저를 사용한다면 F12를 눌러보면 개발자 도구창이 열린다. 하기에 붉은 사각형으로 표시된 버튼을 클릭해보자 그 후 아무 웹툰 제목이나 클릭해보자 본인은 '유미의 세포들'을 클릭~ 클릭하여 표시된 HTML 태그를 살펴보자 웹툰의 제목값은 a태그의 title속성값임을 알수 있다. 하기의 소스를 실행한다. 1 2 3 4 5 6 7 8 9 10 11 from bs4 import BeautifulSoup from urllib.request import urlopen url = 'https://comic.naver.co..
-
DataFrame 합치기(merge)파이썬/데이터 주무르기 2019. 12. 18. 21:42
CCTV 서울 관련 데이터 인구수 관련 데이터 소스 코드 1 2 3 4 5 6 7 8 9 10 11 import pandas as pd CCTV_Seoul = pd.read_csv('cctv_in_seoul_2018.csv', encoding='utf-8', thousands = ',') #csv파일 읽어들임 CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0]:'구별'}, inplace=True) #0번째(기관명) 컬럼명 '구별'로 변경 CCTV_Seoul['구별'] = CCTV_Seoul['구별'].str.replace(' ','') #'강 남 구' 이런식으로 되어 있어서 공백을 지워준다.(->강남구) pop_Seoul = pd.read_excel('populatio..
-
CCTV 현황 그래프로 분석하기파이썬/데이터 주무르기 2019. 12. 18. 19:29
소스 코드 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 import pandas as pd import matplotlib.pyplot as plt #matplotlib의 기본 폰트는 한글을 지원하지 않기 때문에 폰트를 변경 import platform from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False if platform.system() == 'Darwin': # Mac 운영체제일 경우 rc('font', family='AppleGothic') elif platform.system() == 'Windows': # Windows 운영체제일 경우 path =..
-
pandas 기초 익히기파이썬/데이터 주무르기 2019. 12. 18. 02:16
소스 코드 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 import pandas as pd import numpy as np # Series - 대괄호로 만드는 파이썬의 list 데이터로 만들 수 있다. s = pd.Series([1,3,5,np.nan,6,8]) print(s) # 2013월 01월 01일 부터 6일 동안의 데이터를 저장 dates = pd.date_range('20130101', periods=6) print(dates) # 6행 4열의 random 변수를 만들고 columns=['A','B','C','D']로 지정, index는 2013월 01월 01일 부터 6일 동안의 데이터 df = pd.DataFrame(np.random.randn(6,..
-
파이썬에서 텍스트 파일과 엑셀 파일 읽기 - pandas <2>파이썬/데이터 주무르기 2019. 12. 18. 00:59
엑셀 파일을 읽는 방법입니다. - 테스트 하는 엑셀 파일은 컬럼이 3줄을 차지합니다. 컬럼을 1줄로 만들고 원한는 열만 출력하도록 해봅시다. - 컬럼명을 변경해 봅시다. 소스 코드 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 import pandas as pd # 엑셀 데이터 불러오기 pop_Seoul = pd.read_excel('population_in_Seoul.xls', encoding='utf-8') #엑셀 파일을 읽음 data1 = pop_Seoul.head() #데이터의 첫 5행만 보여줌 # 엑셀 데이터 불러오기 - 컬럼을 3번째 줄부터 읽고 원하는 열만 읽도록 하기 pop_Seoul = pd.read_excel('population_in_Seo..
-
파이썬에서 텍스트 파일과 엑셀 파일 읽기 - pandas <1>파이썬/데이터 주무르기 2019. 12. 17. 23:08
하기의 소스에서 CCTV관련 엑셀 자료를 제공받을 수 있습니다. https://data.seoul.go.kr/dataList/datasetView.do?infId=OA-2734&srvType=F&serviceKind=1¤tPageNo=1 소스 코드 1 2 3 4 5 6 7 8 9 10 11 import pandas as pd CCTV_Seoul = pd.read_csv('cctv_in_seoul_2018.csv', encoding='utf-8') data1 = CCTV_Seoul.head() # head() 명령은 pandas 데이터의 첫 5행만 표시 print(CCTV_Seoul.columns) # column 이름들이 반환됨 print(CCTV_Seoul.columns[0]) # column 배열의 ..