샘플 데이터를 전처리하여 영화 리뷰 긍정/부정 예측 모델 생성하기

일상생활 속에서 인공지능을 활용한 서비스는 많이 접할 수 있지만, 직접 인공지능 개발 경험을 하는 것은 흔하지 않습니다. 학습 데이터를 직접 준비해야 한다는 점은 인공지능 개발 진입 장벽을 높이는 원인 중 하나입니다.

DS2.ai는 더욱 손쉬운 인공지능 생성 프로세스를 위하여 학습형태별, 산업군별 샘플 데이터를 제공하고 있습니다. 본 레시피에서는 특정 영화 리뷰가 긍정적인 내용인지 부정적인 내용인지 판단하는 인공지능을 생성하기 위하여 샘플 데이터를 다운받고, 인공지능 모델을 학습하는 프로세스를 살펴보도록 하겠습니다.

DS2.ai 샘플 데이터로 모델 생성하기

1. 데이터 살펴보기

학습 데이터를 확인하는 것은 인공지능 모델의 질을 향상시키는데 필수적인 과정입니다. 학습에 사용될 데이터를 살펴봅시다.

의료비용 예측 인공지능에 활용될 데이터는 csv 형식으로써, 데이터의 컬럼을 쉼표로 구분한 텍스트 데이터입니다. 아래와 같이 표의 형태를 가진 데이터라고 볼 수 있습니다.

  • Data : movieReviews.csv

본 레시피에서 인공지능 학습에 사용될 데이터인 movieReviews.csv를 살펴보도록 하겠습니다.

각 컬럼 별로 ID, 리 뷰 문장, 긍/부정 여부를 포함하고 있습니다. 이 데이터와 DS2.ai를 이용하여, 영화 관람객의 리뷰에 대한 긍/부정을 분류하는 인공지능 모델을 생성합니다.

  • 인공지능 입력 데이터 : ID, 리뷰 문장(document)

  • 인공지능 출력 데이터 : label(긍/부정 여부)

2. 학습데이터 업로드하기

1. 상단 네비게이션 에서 데이터셋 페이지로 이동합니다.

2. 데이터 추가하기 버튼을 클릭합니다.

3. 데이터 형식을 CSV로 선택합니다.

4. movieReviews.csv 파일을 찾아 업로드합니다.

5. 결과값 칼럼 선택하기를 활성화하고 label(긍정: 1, 부정: 0)을 선택합니다.

6. 확인 버튼을 클릭하고 데이터를 업로드를 완료합니다.

CSV 파일을 업로드하고 결과값 칼럼을 선택합니다. 본 레시피는 관람객 리뷰 문장을 입력 데이터로 하고, 긍/부정 여부를 출력 데이터로 하는 인공지능 생성이 목적이므로 label(긍정: 1, 부정: 0)을 결과값 칼럼으로 선택합니다. 인공지능은 자연어 데이터와 긍정/부정의 상관관계를 유추하며 학습을 진행할 것입니다.

3. 인공지능 모델 학습하기

1. 상단 메뉴에서 데이터셋 페이지로 이동합니다.

2. 데이터셋 리스트 중 업로드했던 movieReviews.csv 파일을 찾아 좌측 체크박스를 클릭합니다.

3. AI 개발 시작하기 버튼을 클릭합니다.

4. 인공지능 학습 시작하기

1. 생성된 인공지능 개발하기 프로젝트의 모델 학습 조건을 설정합니다. (학습 조건 설정에 관한 자세한 사항은 모델 학습 조건 설정하기에서 확인할 수 있습니다.)

  • 학습형태 : 자연어

  • 분석/예측하고 싶은 값 : label(긍정: 1, 부정: 0)

2. 화면 우측의 START 버튼을 클릭하여 인공지능 학습을 시작합니다.

3. 최초 모델 학습이 완료되면 메일 및 알림이 발송되며, 프로젝트 내 모든 모델의 학습이 완료되면 한 번 더 메일 및 알림이 발송됩니다.

학습형태는 자연어로 설정합니다. 자연어는 문장으로 구성된 데이터를 의미하고, movieReviews.csv는 문장 형태의 자연어 데이터를 포함하므로 자연어 데이터에 해당합니다. 그 외의 설정은 희망 방식에 맞추어 선택할 수 있습니다.

모델 학습이 완료되었다는 것은, 업로드한 데이터셋을 이용하여 여러개의 인공지능 모델이 생성되었음을 의미합니다. 아래와 같이 모델명, 상태, 정확도, Error Rate를 확인하여 다양한 모델을 비교해보세요.

5. AI 모델 확인하기

모델링이 완료되었다는 것은, 업로드한 데이터셋을 이용하여 여러개의 인공지능 모델이 생성되었음을 의미합니다. 아래와 같이 모델명, 상태, 정확도, Error Rate를 확인하여 다양한 모델을 비교해보세요.

또한, 모델별로 상세보기, 개별예측, 일괄예측, 분석시작, 디플로이 기능을 지원합니다. 본 레시피에서는 개별예측, 일괄예측 기능을 함께 살펴보겠습니다.

6. 예측하기

[개별 예측]

하나의 인공지능 모델을 선택한 후 컬럼 값을 직접 입력하여 결과값을 예측할 수 있습니다. 본 레시피의 경우, 나이, 성별, 체지방 등의 고객 정보를 입력하여 의료 비용 예측하는 인공지능 모델을 활용해 볼 수 있습니다.

[일괄 예측]

  1. 일괄 예측은 여러 고객의 정보를 입력하여 한 번에 예측할 수 있습니다. 일괄 예측을 선택한 후 예측용 템플릿 다운로드하기 버튼을 클릭하면, CSV 형식의 템플릿을 다운받을 수 있습니다.

  2. 예측용 템플릿은 다음과 같이 컬럼명만 기재되어있고, 데이터는 공란으로 되어있습니다. 위와 같이 여러명의 고객 정보를 각 컬럼에 입력합니다.

  3. 고객 정보 기입이 완료된 예측용 템플릿 파일을 업로드합니다.

  4. 인공지능 모델 예측이 완료되면 이메일로 알림을 보내드립니다.

다른 질문이 있으신가요? [email protected]로 문의주시면 도움을 드립니다.

Last updated