티스토리 뷰

반응형

여기부터 교육과정의 두번째 영역 자료의 표현이다.

데이터(data)는 숫자, 문자, 소리, 그림 등 다양한 형태로 된 의미 단위이다. 직관적으로 인구수, 나이, 연봉 등 수로 나타난 정보들은 금방 가공할 수 있을 것 같지만, 소리나 그림은 정보를 얻기 위해서 가공하기가 쉽지 않다.

인공지능을 사용하기 위해서 처음 해야하는 작업은 다양한 데이터를 가공할 수 있는 형태로 변환하는 것이다.

정형자료와 비정형자료

정형자료 비정형자료

자료는 크게 다음 정형 자료비정형 자료로 분류할 수 있다.

  정형 자료 structured data 비정형 자료 unstructured data
텍스트 단어, 이름, 알파벳, 혈액형 자연어
소리 특정한 음 음악 소리, 사람의 음성
이미지 특정한 색 일반적인 사진
... ... ...

영어로 표현한 것처럼 정형자료는 구조화(structured) 되어있고, 비정형자료는 그렇지 않다. 텍스트라고 해서 모두 비정형이라고 할 수는 없다.

텍스트, 소리, 이미지 외에도 여러 형태의 데이터가 있다.

텍스트와 이미지의 수학적 표현

인공지능수학에서는 여러 데이터 중에서 텍스트이미지 처리에 대해서만 다룬다.

이 단원의 핵심은 각종 데이터를 어떻게 하면 수와 수학 기호로 표현하고 처리할 것이냐에 있다.

텍스트는 집합 또는 벡터

인공지능수학에서 '텍스트'는 최소 단어 보다 큰 단위의 언어를 의미한다.
이것을 나타내는 방법으로 집합과 벡터를 이용한다.

집합은 고등학교 1학년에서 배우기 때문에 이미 알고 있는 개념이다. 벡터는 기하와 벡터에 나오니까 아직 안 배운 학생들이 많다. 하지만 복잡한 연산은 가르치지 않고 위치벡터 정도의 개념만으로 충분하기 때문에 가르치는데 큰 어려움은 없다.

이미지는 행렬

행렬은 일반계 고등학교에서는 배우지 않지만 이것도 역시 복잡한 연산을 안 배우기 때문에 짧은 시간 안에 학습이 가능하다.

각각에 대해서는 이어지는 글에서 설명하기로 한다.

반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
글 보관함