컴퓨터공학 전공공부/오픈소스 SW개론(4)
-
오픈소스sw개론 Part2, chap 7. Pandas (1)
1. Pandas란 무엇인가? Pandas란 무엇인가? 판다스는 빠르고 쉽게 데이터를 cleaning(청소)하고, 분석할 수 있게 돕는 데이터 구조와 도구들을 가지고 있다. NumPy, SciPy와 같은 수치 계산 도구들이나, statsmodels, scikit-learn 같은 분석적 라이브러리, matplotlib과 같은 데이터 시각화 라이브러리 등과 함께 쓰인다. NumPy와 마찬가지로, 배열 기반이며 for loop 사용 없이 데이터를 가공할 수 있다. 한편 NumPy와는 달리 표 형식의 데이터, 이종의 데이터를 다룰 수 있게 설계되어 있다. (NumPy는 동종의 데이터만 다룰 수 있다.) Pandas의 데이터 구조 크게 두 가지가 있다. : Series, DataFrame 2. Series Ser..
2023.12.08 -
오픈소스sw개론 Part2, chap 6. NumPy Example, Random Walks
1. 순수 파이썬만을 이용한 구현 2. NumPy를 이용한 구현 NumPy를 이용한 구현 관련 통계 도출 여러 무작위 걸음을 한 번에 시뮬레이션 n번째 계단에 언제 도달? line 14 부연설명 np.abs(walks[hits30]) >= 30 walks[hits30] : walks 배열에서 hits30이 True값을 가지는 row를 선택한다. 즉, walks 중에서 |30|을 찍는 이벤트가 발생한 모든 row를 추출한다. np.abs(walks[hits30]) : 위에서 선택된 행들에 대해 절대값을 취한다. np.abs(walks[hits30]) >= 30 : 위에서 취한 절대값이 30 이상인지 여부를 판단해 이에 따른 boolean 배열을 반환한다. .argmax(1) .argmax(1) : 위에서 ..
2023.12.01 -
오픈소스sw개론 Part2, chap 6. NumPy (2)
1. Universal Functions : 빠른 요소별 배열 함수 ufunc 보편적인 함수인 ufunc은 ndarray의 데이터에 대해 요소 단위 연산을 수행하는 함수이다. vectorization 연산을 지원한다. unary ufunc 인자가 하나인 ufunc이다. sqrt (제곱근을 구하는 함수), exp (ex를 반환하는 함수) 등이 있다. sqrt에 두 개의 같은 인자를 넣을 수 있는데, 이는 출력값으로 인자 배열을 초기화한다. binary ufunc 인자를 두 개 받는 ufunc이다. maximum (인자로 들어온 두 배열을 요소 단위로 비교해서 큰 요소를 출력하는 함수) 등이 있다. 반환 값이 여러 개인 ufunc ufunc은 여러 개의 배열을 반환할 수 있다. 예를 들어 modf 함수(첫 ..
2023.12.01 -
오픈소스sw개론 Part 2, chap 5. NumPy (1)
1. NumPy란? NumPy : Numerical Python 넘파이란 파이썬에서 수치적 계산을 하는 데에 기본적인 패키지 중 하나이다. 과학적 기능을 제공하는 대부분의 계산 패키지는 넘파이 배열 객체를 사용한다. 대규모 데이터 배열의 효율성을 위해 설계되었다. NumPy의 특징 ndarray : 빠른 배열지향 산술 연산과 유연한 broadcasting 기능을 제공하는 효율적인 다차원 배열이다. 데이터의 모든 배열에 대해, 빠른 수행을 위한 수학적 함수. loop를 작성할 필요가 없어서 빠른 연산이 가능하다. 선형대수 내용을 넘파이로 구현할 수 있다. C, C++, FORTRAN으로 작성된 라이브러리와 넘파이를 연결하는 A C API가 있다. NumPy가 수치적 계산에 용이한 이유 C로 쓰인 넘파이의 ..
2023.11.30