728x90

Review


참고 포스팅 : RStudio 시작 - R Projects 정의, 작업공간 설정(getwd, setwd), 저장 등

https://datalabbit.tistory.com/9

[R] RStudio 시작 - R Projects 정의, 작업공간 설정(getwd, setwd), 저장 등

안녕하십니까, 간토끼입니다. 저번 포스팅까진 R을 설치하고, RStudio를 기본적으로 세팅해보는 방법에 대해서 다뤄봤습니다. 이번 포스팅부터는 RStudio를 이용해 R의 다양한 특성에 대해서 다뤄볼

datalabbit.tistory.com


안녕하십니까, 간토끼입니다.

이번 포스팅부터는 약 3번에 걸쳐 R의 자료구조에 대해서 다뤄보도록 하겠습니다.

1. 변수
먼저 변수입니다. 변수는 '변하는 수'죠?
근데 그냥 임의의 기호에 어떠한 값을 할당하는 개념이라고 이해하시면 됩니다.

여러 예시를 만들어봤습니다.

위는 설정이 가능한 변수명이고, 아래는 불가능한 변수명입니다.
즉, _ or 상수로 시작하거나, .상수 로 시작하는 변수명은 입력이 안 됩니다.


# 변수 이름 작성 규칙

- 첫 자는 영문자로 시작한다.
- 두 번째부터는 숫자, 언더바(_), 점(.)을 사용할 수 있다.
- 대소문자를 구분하므로, 적절히 자신의 목적에 맞게 사용한다.
- 항상 변수 이름은 의미를 파악할 수 있도록 지정한다. (Ex. 소득 데이터 : income (O), ABC(X) )


참고로 변수에 할당할 때는 = or <- or <<- 기호를 사용합니다.
특히 = 를 써도 되냐, 안 되냐는 항상 갑론을박이 오가는데요. 이유는 때로는 = 가 안 된다고 합니다.
물론 전 그런 적이 없어서, 그냥 불편하기도 하고... = 기호만 사용하는데, <- 을 사용하시는 분들도 많더라고요.
저는 = 를 사용하겠습니다. (파이썬도 = 를 사용하므로...)

각설하고, 이렇게 저장한 변수는 여러분의 Environment의 value 탭에서 확인할 수 있습니다.

2. 스칼라
그 다음은 스칼라입니다. 우리가 상수를 보통 스칼라라고 부르는데요.
R에서는 쉽게 '길이가 1인 벡터'를 스칼라라고 표현한다고 이해하시면 됩니다.
즉, 그냥 3 4 5 6 이런 상수나 "Hi" 등의 문자를 스칼라라고 표현합니다.

스칼라 변수라고 하며, Numeric 변수는 서로 연산이 가능합니다.



3. Data Type(자료형)
C나 다른 언어는 변수를 선언할 때 자료형(type)을 함께 선언하는 것으로 알고 있는데요.
그러나 R은 변수를 선언할 때 별도의 Type을 선언하지 않아도 알아서 유형을 인식하기 때문에 참 편리합니다.

유형(Type) 값(Value) 예시(Example)
숫자형(Numeric) 정수, 실수 102, 5.8
문자형(Character) 문자, 문자열 "A", "Hello, World!"
논리형(Logical) TRUE, FALSE TRUE or T / FALES or F
결측 데이터 결측치, 비숫자 NA, NaN

R에서 기본적으로 제공하는 DataType 입니다.

여기서 핵심은 "NA가 포함되어 있으면 연산이 안 된다는 것"입니다.

NA는 Not Avaliable의 약자로, 결측치를 의미하는데요.
한번 예시를 봅시다.

임의의 변수 a, b에 벡터를 할당했는데, b는 NA를 추가했습니다.
참고로 벡터는 그냥 1차원 자료구조입니다. 다음 포스팅에서 다룰게요.

벡터의 합을 계산하는 sum( ) 함수를 이용하여 값을 출력했더니, a는 잘 출력이 되지만 b는 출력이 안 되죠?
값이 a와 동일함에도 불구하고 NA가 출력됩니다.

그래서 항상 데이터 분석을 할 때, 내가 가져온 데이터에 NA가 있는지 확인을 해야 합니다.
NA는 예를 들어 설문조사 데이터에서 응답자가 응답을 거부한 경우, '측정되지 않았기 때문에' 빈 공간이 결측치로 남게 됩니다.
따라서 이런 경우엔 NA를 확인하고 별도의 값으로 할당해줘야 하는데요. 이건 나중에 다뤄볼게요.

그래서 결론은 NA를 제외하고 연산을 해줘야 하는데, 이때 사용하는 옵션이 na.rm = TRUE 입니다.

값이 잘 출력되는 것을 알 수 있죠?

참고로 TRUE 대신 T라고만 해도 인식이 됩니다. 저도 보통 귀찮아서 T라고 하는 편이고요.
FALSE도 마찬가지로 F라고 하면 됩니다.


다음 포스팅에서는 데이터 타입(Data Type)에 대해서 좀 더 다뤄보겠습니다.


감사합니다.

잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)

(구독이면 더욱 좋습니다 ^_^)




- 간토끼(DataLabbit)
- University of Seoul
- Economics, Data Science

728x90

+ Recent posts