본문 바로가기

pandas3

Pandas - 시계열 자료 분석 DatetimeIndex 시계열이란? - 시간의 흐름에 따라 순차적으로 관측한 값들의 집합. DatetimeIndex pd.DatetimeIndex( object ).year, month,, 등등 - 판다스의 DatetimeIndex는 특정한 순간에 기록된 타임스탬프 형식의 시계열 자료를 다루기 위한 용도로 사용된다. - 다양한 형식으로 표기된 year, month, day, hour, minute, second 등과 같은 속성을 효과적으로 파싱할 수 있다. 뒤에 .year 키워드뿐만 아니라 month, day과 시간이 적혀있다면 hour 키워드를 통해 파싱작업을 할 수 있다. 다음과 같이 yyyy-mm-dd와 같은 형태로 되어있던 일시 열을 mm형태로 바꿀 수 있다. 2022. 12. 6.
Pandas - 데이터 정제와 결손값 처리 현실 세계에서 수집하는 과정에서 모인 데이터는 상당한 수의 오류 값과 결손 값을 가지고 있기 때문에 반드시 데이터 정제를 거쳐야한다. describe 메소드 describe() 메소드를 사용하면 해당 데이터프레임의 개수, 평균값, 표준편차, 최솟값, 최댓값 등을 알 수 있다. 더보기 표준편차(시그마) 범위 내에 68.2%의 데이터가 포함 표준편차 * 2 범위 내에는 95%의 데이터가 포함 표준편차 * 3 범위 내에는 99.7%의 데이터가 포함 판다스의 데이터프레임에 .shape 속성을 통해 전체 테이블의 크기를 살펴볼 수 있고, 열의 개수를 알고 싶다면 count()메소드를 사용하면 된다. 전체 테이블 크기는 3개의 열과 3653개의 행으로 이루어져 있지만, 개별 열의 개수를 보면 결손 값에 의해 몇 개.. 2022. 12. 6.
Pandas - csv, DataFrame 구조, 열 생성과 삭제 1. CSV? comma separated variables 쉼표로 구분한 변수의 약자이다. 쉼표가 아니더라도 콜론, 세미콜론, 탭 등의 구분자도 사용할 수 있다. 판다스는 이러한 csv파일을 read_csv() 함수를 이용하면 데이터프레임으로 바꾸는 작업을 간단히 할 수 있다. path = 'https://github.com/dongupak/DataML/raw/main/csv/' file = path + 'vehicle_prod.csv' df2 = pd.read_csv(file) 만약 사이트의 저장소가 아닌 컴퓨터에 있는 csv파일 읽어 오기 위해선 csv파일의 디렉토리 주소를 입력하면 된다. 2. DataFrame 구조 데이터 프레임은 인덱스와 컬럼스 객체를 정의하여 사용한다. 인덱스는 행들의 레비블.. 2022. 11. 27.