Korean Speech-Language & Hearing Association(KSHA)
[ ORIGINAL ARTICLE ]
Journal of Speech-Language & Hearing Disorders - Vol. 30, No. 2, pp.1-8
ISSN: 1226-587X (Print) 2671-7158 (Online)
Print publication date 30 Apr 2021
Received 18 Mar 2021 Revised 17 Apr 2021 Accepted 28 Apr 2021
DOI: https://doi.org/10.15724/jslhd.2021.30.2.001

AI 스피커의 상호작용 유지 전략 사용 여부가 아동 발화 및 이야기 이해 수행에 미치는 영향: 표현 언어발달 수준에 따른 차이 비교 연구

박원정1 ; 임동선2, *
1이화여자대학교 일반대학원 언어병리학과 박사수료
2이화여자대학교 일반대학원 언어병리학과 교수
Effects of Using a Communication Maintenance Strategy in the Context of AI Speaker and Preschoolers’ Conversation and Book Reading Interaction: Comparison of Group Differences on the Levels of Expressive Language Development
Wonjeong Park1 ; Dongsun Yim2, *
1Dept. of Communication Disorders, Graduate School, Ewha Womans University, Doctor Course Completion
2Dept. of Communication Disorders, Graduate School, Ewha Womans University, Professor

Correspondence to: Dongsun Yim, PhD E-mail : sunyim@ewha.ac.kr

Copyright 2021 ⓒ Korean Speech-Language & Hearing Association.
This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

목적:

본 연구에서는 AI 스피커와 아동 간 대화 및 동화 읽기 상황에서 상호작용 유지 전략의 사용 여부에 따라 아동의 발화 요인(평균 발화 길이, 대화차례 주고받기 횟수)과 이야기 이해 수행력 간에 차이가 나타나는지 확인해보고자 하였다. 또한, 이러한 차이가 아동의 표현 언어발달 수준에 따라 다른 패턴을 보이는지 알아보는 것을 목적으로 하였다.

방법:

연구 참여 아동은 만 4-6세 아동 총 8명으로, 전체 아동은 표현 언어발달 수준에 따라 상위 집단과 하위 집단으로 나뉘어졌다. 모든 연구 대상 아동은 AI 스피커와 대화 상황 및 동화 읽기 상황에 참여하였다.

결과:

연구 결과, 대화 및 동화 읽기 상황에서 상호작용 유지 전략을 사용하는 경우, 상호작용 단절 상황에 비해 전체 아동의 대화차례 주고받기 횟수가 유의하게 증가 하는 것으로 나타났다. 또한, 상호작용 유지 전략을 사용하였던 동화 읽기 상황에서 표현 언어발달 수준이 높은 아동은 표현 언어발달 수준이 낮은 아동에 비해 유의하게 높은 이야기 이해 수행력을 보인 것으로 분석되었다.

결론:

본 연구 결과는 AI 스피커와 아동 간 여러 대화 상황에서 AI 스피커가 상호작용 유지 전략을 사용하여 아동과 대화하는 것이 긍정적인 영향을 미칠 수 있다는 것을 보여준다. 그러나, 언어발달 수준이 낮은 아동의 언어 능력 증진 및 상호작용 촉진을 위한 AI 스피커의 발화 전략에 대해 추가적인 탐색이 필요할 것이다.

Abstract

Purpose :

The purpose of this study was to investigate whether there is a difference in children’s utterance factors (mean length of utterances and the number of turn-takings) and story comprehension performance between the context of using communication breakdown response, and of using communication maintenance strategy in the AI speaker-preschoolers’ conversational situation and book reading interaction. In addition, we explored if there was a difference between groups with high levels of expressive language development and low levels of expressive language development.

Methods:

The participants were eight preschool children aged 4 to 6. The eight children were divided into high group (n=4) and low group (n=4) according to their levels of expressive language development. All children interacted with an AI speaker by participating in conversation and book reading interaction.

Results:

The number of turn-takings in the context of using communication maintenance strategy were significantly increased compared to using communication breakdown response. In addition, children with a high level of expressive language development showed significantly higher story comprehension performance after book reading interaction with using communication maintenance strategy compared to children with low level of expressive language development.

Conclusions:

These results showed that using communication maintenance strategy has been found to have positive effects on children’s interaction with an AI speaker. However, additional strategies or technical support will be needed to promote interaction skills in children with low level of language development.

Keywords:

AI speaker, Wizard of Oz experiment, language development, communication maintenance strategy, communication breakdown

키워드:

AI 스피커, 오즈의 마법사 실험 방법, 언어발달, 상호작용 유지 전략, 상호작용 단절

Ⅰ. 서 론

기술의 발전과 더불어 기기와 인간 간 상호작용은 점차 활발하게 이루어지고 있다. 이미 널리 보급된 컴퓨터와 스마트폰, 태블릿 PC뿐 아니라, 생활 가전 등에 기술을 결합하여 상호작용하도록 함으로써 인간의 일상 전반에 편의성을 높이고 생활의 질을 높이기 위한 시도가 지속되고 있다.

이전까지는 대부분 기기와의 상호작용이 디스플레이에 기반 하여 이루어져 왔다면, 최근에는 음성 인식 기술이 점차 향상됨과 더불어 음성 인터페이스를 활용한 상호작용 시도가 증가하고 있다. 음성 인터페이스를 적용한 대표적 스마트 디바이스로 인공지능 스피커(artificial intelligence speaker: AI 스피커)가 있다. 국외에서는 Google의 google home, Amazon의 Echo 등이 개발되었으며, 국내에서는 Kakao의 KakaoMini, 네이버의 CLOVA, SKT의 NUGU 등이 개발 및 상용화되었다. AI 스피커의 보급이 점차 확대됨과 더불어 서비스의 제공 범위 또한 확대되는 추세이다.

AI 스피커를 포함하여 음성 인터페이스를 활용하는 가전 및 스마트 디바이스가 증가함에 따라 해당 기술을 개발하는 시장에서는 AI 스피커를 사용하여 성인의 생활 편의를 향상시키기 위한 서비스 제공과 더불어, 가정 내에서 많은 시간을 보내는 학령 전기 아동을 대상으로 대화 상대자 역할 뿐 아니라 동화 읽기, 자료 검색, 동요 재생, 학습 자료 제공 등의 기능을 제공하고 있다.

이와 같이 AI 스피커가 제공할 수 있는 서비스의 범위는 점차 확대되는 반면 음성 인터페이스와 인간 간 상호작용 과정에서 음성 인식 부정확 등의 이유로 상호작용 단절(communication breakdown)이 잦은 빈도로 이루어지고 있다. 상호작용 단절은 음성 인터페이스와의 상호작용 과정에서 사용자의 발화를 정확히 인식하지 못하여 나타나는 오류 상황을 이른다(Beneteau et al., 2019). 상호작용 단절 상황이 나타나는 경우 사용자는 자신의 발화 길이를 줄이거나, 명확하게 재조음하여 발화하거나, 발화 속도를 조절하는 등의 발화 전략을 보이는 것으로 나타났다(Jiang et al., 2013).

상호작용 단절 요인은 AI 스피커 사용 과정에서의 불편함을 야기하는 주요 원인으로 지적되고 있다(Beneteau et al., 2019; Jung et al., 2020). 한국소비자원이 국내 AI 스피커 사용자를 대상으로 실시하였던 만족도 관련 설문조사에서 가장 높은 빈도로 나타난 불편 요인은 음성 인식 미흡 문제(56.7%)였으며, 자연스러운 연결형 대화가 불가하다는 문제(45.7%) 또한 만족도를 저하시키는 요인으로 지적되었다(Joongangilbo, 2017). 이와 같이 AI 스피커의 사용 과정에서 나타나는 상호작용 단절 요인은 편의성, 만족도, 지속 사용 등에 영향을 주는 것으로 나타났다. 이러한 불편 요인은 성인 사용자 뿐 아니라 아동 사용자에게서 나타날 수 있다. 아동 사용자를 대상으로 AI 스피커와 사용자 간 대화에서의 상호작용 단절 발생 비율에 대해 살펴본 선행연구에서는, 아동이 사용하였던 기능에 따라 현저한 차이가 나타나지만 전체 발화 중 적게는 29%에서 많게는 63%에 이르는 발화에서 상호작용 단절 상황이 나타나는 것으로 분석되었다(Hong & Choi, 2020). 또한, AI 스피커에 대한 아동의 발화 패턴에서 아동은 적극적으로 AI 스피커를 대상으로 대화차례 개시를 시도하지만, 이에 대해 AI 스피커의 적절한 답변은 절반 정도 수준에 그치는 것으로 나타났다(Lovato et al., 2019). 이처럼 아동 사용자 또한 AI 스피커와의 상호작용 과정에서 빈번한 단절 및 상호작용 실패 상황에 놓이는 것으로 알려져 있다.

특히, 타인과의 상호작용 과정에서 어휘, 구문, 상호작용 기술 등을 학습하며 언어발달을 활발하게 이루어나가야 하는 시기에 놓인 학령 전기 아동 사용자에게 이와 같은 상호작용 단절 요인은 부정적 영향을 미칠 가능성이 있다. 특히, 표현 언어발달이 미숙한 아동의 경우 발화 산출 및 상호작용 지속 측면에서 대화상대자의 역할이 더욱 중요한 만큼(van Balkom et al., 2010) 반복적인 상호작용 단절 문제는 아동의 발달에 부정적 영향을 미칠 가능성이 있다. 그러나 음성 인터페이스와의 상호작용 과정에서 상호작용 실패가 학령 전기 아동의 발화 요인에 미치는 영향에 대한 연구는 전무한 실정이다. 따라서 학령 전 시기의 아동에게 AI 스피커와의 상호작용 단절 문제가 어떠한 영향을 미칠 수 있는지, 그리고 이러한 영향력이 아동의 표현 언어발달 수준에 따라 다르게 나타날 수 있는지 알아보아야 할 필요성이 있다.

더불어 상호작용 단절 요인을 극복하거나 감소시키기 위한 방안에 대한 연구 또한 실시되어야 할 것이다. 특히, 현재 AI 스피커에 대한 사용자의 음성 및 발화에 대한 잦은 인식 오류가 지속되고 있다는 측면에서 이러한 문제를 발화 전략 차원에서 극복할 수 있는 방안이 있을지, 이에 대한 음성 인터페이스의 상호작용 유지 전략(communication maintenance strategy)에 대해 탐색하고 효과성 검증을 실시해야 할 것이다. AI 스피커와 아동을 대상으로 상호작용 단절 문제에 대해 연구하였던 대부분의 선행연구에서는 상호작용 단절 상황에서 아동이 어떠한 발화 수정 전략을 보이는지에 대해 초점을 맞추어 왔다(Beneteau et al., 2019; Lovato et al., 2019; Yuan et al., 2019). 이에 나아가 AI 스피커와 아동의 상호작용에서 나타나는 단절 상황을 극복하기 위한 추가적인 발화 전략에 대해 탐색하였던 연구는 부족한 실정이다.

대화상대자는 아동의 언어발달 증진을 위하여 상호작용 과정에서 다양한 전략을 사용할 수 있다. 특히, 다양한 상호작용 전략 중 아동에게 대화 주도권을 제공하고, 아동 발화에 대해 성인이 경청하고 있음을 알리는 전략으로 발화 모방 전략이 있다(Pepper & Weitzman, 2004). 본 연구에서는 선행연구 검토를 통하여 아동의 선행 발화 모방 전략을 상호작용 유지 전략으로 선정하고 이러한 전략을 AI 스피커가 상호작용 단절 상황에 대체하여 사용할 경우, 아동의 상호작용에 미치는 영향을 알아보고자 하였다. 특히, 모방 반응을 사용한 발화 전략은 아동이 산출한 발화를 인식한 그대로 다시 반응 형태로 사용할 수 있다는 점에서, 시스템 디자인 측면에서도 구현이 비교적 용이할 것이며, 아동 사용자에 대한 발화 인식률 저하로 인하여 지속적으로 발생하는 상호작용 단절 문제를 개선할 수 있는 가장 단순한 발화 전략으로 사용될 수 있을 것이라 가정하였기 때문에, 이것이 상호작용 단절 문제를 개선하기 위한 음성 인터페이스의 발화 전략으로 사용될 수 있을지에 대해 검증해보고자 하였다.

따라서 본 연구에서는 AI 스피커와 아동의 주요 상호작용 상황인 대화 상황 및 동화 읽기 상호작용 과정에서 AI 스피커가 상호작용 단절 반응을 보이는 경우와 상호작용 유지 전략을 사용하는 경우에 각각 아동의 발화 요인 및 이야기 이해 수행력이 어떻게 달라지는지 알아보고자 하며, 아동의 표현 언어발달 수준에 따라 이러한 수행력 차이가 다르게 나타나는지 확인해보는 것을 목적으로 한다.

이에 따른 연구 질문은 다음과 같다.

첫째, AI 스피커와 아동의 대화 및 동화 읽기 상호작용 과정에서 AI 스피커의 반응 방식(상호작용 단절 반응, 상호작용 유지 전략의 사용)에 따라 아동의 발화(평균 발화 길이, 대화 차례 주고받기) 및 이야기 이해 수행력에 유의한 차이가 나타나는가?

둘째, AI 스피커와 아동의 대화 및 동화 읽기 상호작용 과정에서 AI 스피커의 반응 방식(상호작용 단절 반응, 상호작용 유지 전략의 사용)에 따른 아동의 발화(평균 발화 길이, 대화 차례 주고받기) 및 이야기 이해 수행력은 표현 언어발달 수준에 따라 유의한 차이가 나타나는가?


Ⅱ. 연구 방법

1. 연구 대상

본 연구에는 총 8명의 남녀 아동이 참여하였으며, 전체 아동은 생활 연령이 만 4~6세에 해당하며, 비언어성 지능 검사(Kaufman & NL, 2004) 결과 –1SD(표준점수 85점) 이상이었다. 또한, 모든 아동은 부모를 통하여 시청각 기능의 문제가 보고되지 않았다. 표현 언어발달 수준에 따른 집단 비교를 위하여 전체 아동에게는 표준화 언어발달검사가 실시되었으며(Receptive and Expressive Vocabulary Test: REVT, Kim et al., 2009), 검사 결과에서 표현 언어발달이 백분위 점수 상위 30% 이상에 해당하는 아동이 표현 언어발달 높은 집단(n=4), 그리고 백분위 점수 하위 30% 이하에 해당하는 아동이 표현 언어발달 낮은 집단(n=4)에 배치되었다. 집단별 아동에 대한 연령 및 언어발달검사 결과에 대한 정보는 Table 1에 제시되었다.

Participants’ information

2. 연구 절차 및 분석 방법

연구에서 아동과의 대화 및 동화 읽기 상호작용에는 Kakao에서 개발한 AI 스피커인 KakaoMini C가 사용되었다. 연구 시작 이전에 연구자는 아동에게 먼저 AI 스피커에게 인사말을 건넬 수 있도록 하였으며, 대화 상황과 동화 읽기 상황에서 발화 상대가 된다는 것을 설명하였다. 또한, 연구자가 AI 스피커에게 날씨 정보를 물어보는 대화 상황을 시연한 뒤 본 검사를 진행하였다.

대화 및 책 읽기 상황은 각각 실험 조건과 통제 조건으로 구성되었다. 실험 조건에서는 아동의 발화에 대해 AI 스피커가 상호작용 단절 반응만 사용하도록 하였으며, 통제 조건에서는 아동의 발화에 대해 AI 스피커가 상호작용 유지 전략만 사용하도록 하였다. 순서 효과를 배제하기 위하여 각 실험 조건은 아동에게 역균형화(counterbalancing)하여 제시하였다.

본 연구에서의 전체 실험 과정은 오즈의 마법사 실험(wizard of oz experiment) 방식을 사용하여 이루어졌다. 오즈의 마법사 실험은 인간과 컴퓨터 상호작용(human-computer interaction) 연구 분야에서 사용성 평가를 위하여 사용되는 연구 방법론으로서, 연구대상자는 시스템의 자동적 반응과 상호작용 하는 것으로 여기고 연구에 참여하지만 실제로는 연구자가 시스템을 조작하는 방식을 통해 시스템과 연구대상자 간 상호작용 반응을 관찰하는 방법이다(Schlögl et al., 2015). 이에 따라 본 연구에서 AI 스피커가 아동에게 제시하는 모든 발화 즉, 상호작용 단절 반응과 상호작용 유지 전략은 연구자 1인에 의해 산출되었다. AI 스피커의 발화는 실제 KakaoMini C AI 스피커에 내장된 음성을 사용하기 위하여 Kakao에서 제공하는 TTS(text to speech) 시스템(http://speech-api.kakao.com/)을 활용하였다(Figure 1).

Figure 1.

Experimental setting

3. 조작적 정의

1) 상호작용 유지 전략(communication maintenance)

본 연구에서 사용한 상호작용 유지 전략은 아동이 산출한 선행 발화를 모방하는 AI 스피커의 발화 전략을 의미한다(예, 아동: “오렌지가 좋아” → AI 스피커: “오렌지가 좋아”). 다만, 아동이 단순 응답 반응(예, 아동: “응”)만을 보이는 경우에 한하여 모방 및 확장 전략을 사용하여(예, AI 스피커: “응, 그렇구나”) 반응하였다. 또한, 아동의 선행 발화에서 아동이 사용하는 간투사(예, 아동: “음”, “어”)나 수정 및 정정한 단어 또는 어절은 모방하지 않고 수정된 이후의 발화만을 모방하여 반응하였다.

2) 상호작용 단절 반응(communication breakdown)

본 연구에서 사용된 상호작용 단절 반응은 부정확한 음성 인식으로 인하여 AI 스피커가 산출하는 반응을 의미한다(Beneteau et al., 2019; Lovato et al., 2019; Yuan et al., 2019). AI 스피커가 산출하는 상호작용 단절 반응 패턴에 대해 알아보기 위하여 연구자 1인이 직접 AI 스피커와의 상호작용을 통해서 단절 반응을 수집하였다. 그 결과 높은 빈도로 산출되었던 AI 스피커의 상호작용 단절 반응(“제가 할 수 있는 일이 아니에요”, “네?”, “생각이 잘 안 나요”, “잘 못 들었어요”)을 아동과의 상호작용 과정에 무작위로 사용하였다.

4. 연구 과제

1) 대화 상황

AI 스피커와 아동 간 대화 상황을 유도하기 위하여 연구자가 대화 이전에 아동에게 대화 주제를 제시하고 해당 주제에 관하여 대화하도록 지시하였다. 대화 주제는 언어병리학과 교수 1인 및 언어병리학과 박사과정 연구원 1인이 만 5세 아동을 1인을 대상으로 사전에 선정한 대화 주제를 토대로 예비 실험을 실시한 후 대화 주고받기에 적합한 것으로 판단되는 것 두 개를 선정하였다. 대화 과정에 사용된 첫 번째 대화 주제는 선호하는 대상에 대한 것으로서 상호작용 단절 반응을 사용한 대화에는 “좋아하는 동물이 뭐야?”, 상호작용 유지 전략을 사용한 대화에는 “좋아하는 과일이 뭐야?”가 사용되었다. 두 번째 대화 주제는 장소에 대한 질문으로, 상호작용 단절 반응을 사용한 대화에는 “놀이공원에 가면 뭐 해?”, 상호작용 유지 전략을 사용한 대화에는 “키즈카페에 가면 뭐 해?”가 사용되었다.

선행연구에 따라 아동과 AI 스피커의 대화 과정에서 3초 이상 아동이 발화를 산출하지 않는 경우, 또는 아동이 연구자에게 대화 중단 의사를 표현하는 경우에 아동이 다른 주제의 발화를 개시한 것이거나 기존의 발화를 유지하지 않는 것으로 보고 발화 중단 처리하였다(Yim et al., 2015). 아동이 무의미한 발화를 산출하는 경우에도 발화가 중단된 것으로 처리하였다.

2) 동화 읽기 상황

AI 스피커와의 동화 읽기 상호작용 상황에서 아동의 반응을 분석하기 위하여, KakaoMini C를 통해 제공되는 서비스인 인터랙티브 동화 목록 중 두 편의 동화를 선정하였다. 전체 동화 목록 중 언어병리학과 교수 1인과 언어병리학과 박사과정 연구원 1인의 검토를 통해 두 편의 동화가 선정되었다. 선정 과정에서 학령 전기 아동에게 생소한 동화 내용인지, 대상 아동의 연령에 적합한지, 두 편의 동화 재생 시간이 유사한지, 이야기 문법에 기반 하여 동화의 수준이 유사한지에 대해 고려하였으며, 이러한 과정을 통하여 전래동화인 ‘까막나라 불개’와 ‘망주석 재판’이 선정되었다. 이에 따라, 상호작용 단절 반응 사용을 위한 동화로 ‘까막나라 불개’가 사용되었고, 상호작용 유지 전략 사용을 위한 동화로 ‘망주석 재판’이 사용되었다.

두 편의 동화는 아동과의 상호작용 요소로서 동화 읽기 전, 동화 읽기 중간, 동화 읽은 후에 동화 내용에 관련한 질문이 각각 3개씩 제시되는 형태로 제작되었다. 본 연구에서는 해당 질문을 동화 읽기 상호작용에 사용하기 위하여 연구자 2인의 검토에 의해 각각의 동화에 사용되는 질문의 수준을 동일하게 일치시켰으며, Kakao TTS 시스템을 사용하여 질문을 재녹음하고 기존의 인터랙티브 동화 내에 편집 및 삽입하여 사용하였다. 연구자는 동화 편집 과정에서 질문 제시 이전에 효과음을 삽입함으로써 AI 스피커를 통해서 동화 내용을 듣는 중 아동이 해당 발화를 질문으로 인지할 수 있도록 하였으며, 그럼에도 불구하고 아동이 해당 발화를 아동에 대한 질문으로 인지하지 못하는 경우에는 동화 읽기 상호작용 과정에서 연구자가 개입함으로써 한 차례 반복 질문한 뒤 아동이 답변하도록 유도하였다.

아동과 AI 스피커의 동화 읽기 상호작용 과정에서도 대화 상황과 마찬가지로 아동이 3초 이상 발화를 산출하지 않는 경우, 또는 아동이 연구자에게 대화 중단 의사를 표현하거나, 계속 동화 내용 듣기를 요구하는 경우에는 해당 발화를 분석에 포함시키지 않았으며 발화 중단 처리하였다. 또한, 아동이 무의미한 발화를 산출하는 경우에도 발화가 중단된 것으로 처리하였다.

3) 이야기 이해 질문

AI 스피커와의 동화 읽기 상호작용 이후 아동의 이야기 이해 수행력을 측정하기 위하여 이야기 이해 질문이 사용되었다. 각 동화 당 총 5개의 이야기 이해 질문이 사용되었으며, 각 동화에 따른 질문 수준을 통제하기 위하여 5개의 이야기 이해 질문은 등장인물, 배경, 문제 상황, 시도, 해결에 관련한 것으로 제작하였다(Mathes et al., 1997). 이야기 이해 질문은 언어병리학과 박사과정 연구원 1인에 의해 제작되었으며, 언어병리학과 교수 1인에 의해 타당성을 검토한 이후 사용되었다.

이야기 이해 질문의 채점을 위해 각 2점씩 배점하여, 아동이 완전히 일치한 정답을 산출하는 경우 2점, 맥락상 일치하지만 정답과 완전히 일치하지는 않는 경우 1점, 오답을 산출하는 경우 0점으로 채점하였다.

5. 결과 분석

1) 자료 전사 및 분석

AI 스피커와 아동 간 대화 및 동화 읽기 상호작용 과정은 영상 또는 음성으로 전체 과정이 녹화되어, 1주 이내에 연구자 1인에 의해 전사 및 분석되었다. 이야기 이해 질문 또한 연구자가 아동과의 연구 과정에서 채점한 이후 1주일 이내에 영상 또는 음성 파일을 다시 열람하여 채점 결과에 대한 재확인이 이루어졌다.

아동이 AI 스피커와의 상호작용 과정에서 산출한 발화는 평균 발화 길이(mean length of utterances: MLU)와 대화 차례 주고받기 횟수로 분석되었다. 평균 발화 길이는 어절 단위로 측정되어 분석에 사용되었으며(Kim, 2002), 아동의 개별 발화에서 산출된 평균 발화 길이의 점수를 평균화하여 분석에 사용하였다. 대화 차례 주고받기 횟수(the number of turn-takings)는 아동의 개별 발화가 AI 스피커와의 상호작용 과정에서 맥락에 맞게 개시 또는 응답된 경우 적절한 것으로 보고 수치화하였다(Yim et al., 2015). 분석에는 각각의 상호작용 상황에서 산출된 대화 차례 주고받기 횟수의 평균값이 사용되었다. 분석에는 AI 스피커가 상호작용 단절 반응 또는 상호작용 유지 전략을 사용한 이후에 산출된 아동의 발화만이 포함되었으며, 발화 중단 처리 이후 아동이 산출한 발화는 분석에 포함되지 않았다.

2) 통계 분석

전체 아동을 대상으로 상호작용 유지 전략 사용의 전후 효과를 비교하기 위하여 Wilcoxon 부호순위 검정을 실시하였으며, 상호작용 단절 반응과 상호작용 유지 전략 사용에 따른 표현 언어발달 집단별 아동의 수행력을 비교하기 위하여 Mann-Whitney U-검정이 실시되었다. 전체 자료에 대한 통계적 분석에는 SPSS ver. 27이 사용되었다.


Ⅲ. 연구 결과

1. AI 스피커의 상호작용 유지 전략 사용 여부에 따른 아동의 발화 및 이야기 이해 수행력 차이

AI 스피커의 상호작용 유지 전략 사용이 대화 상황 및 책 읽기 상호작용 상황에서 아동의 평균 발화 길이, 대화 차례 주고받기, 그리고 책 읽기 이후 아동의 이야기 이해 수행력에 미치는 영향에 대해 알아보기 위하여 전체 아동을 대상으로 Wilcoxon 부호순위 검정이 실시되었다(Table 2).

Comparison of the differences with or without using communication maintenance strategy on preschoolers’ mean length of utterance, the number of turn-takings, and story comprehension performance

분석 결과, 대화 상황에서 AI 스피커가 상호작용 유지 전략 사용을 하는 경우 상호작용 단절 반응을 사용하는 것에 비해 아동의 대화 차례 주고받기 횟수가 유의하게 높은 것으로 나타났다(Z=-2.527, p=.012). 동화 읽기 상황에서도 아동은 AI 스피커가 상호작용 유지 전략을 사용할 때, 단절 반응을 사용하는 것에 비해 유의하게 높은 대화 차례 주고받기 횟수를 산출하는 것으로 분석되었다(Z=-2.032, p=.042). 그러나 대화 상황에서의 평균 발화 길이, 동화 읽기 상호작용 상황에서의 평균 발화 길이, 이야기 이해 수행력에서는 차이가 유의하지 않았다(p>.05).

2. AI 스피커의 상호작용 단절 반응 및 유지 전략 사용 상황에서 표현 언어발달 수준에 따른 아동의 발화 및 이야기 이해 수행력 차이

AI 스피커가 상호작용 단절 반응을 사용하는 경우, 그리고 상호작용 유지 전략을 사용하는 경우에 표현 언어발달 수준이 높은 아동과 낮은 아동 집단 간 발화 및 이야기 이해 수행력에서 차이가 나타나는지 알아보고자 Mann-Whitney U-검정이 실시되었다(Table 3, Table 4).

Group differences between the children with high and low levels of expressive language development on preschoolers’ mean length of utterance, the number of turn-takings, and story comprehension performance in the context of communication breakdown

Group differences between the children with high and low levels of expressive language development on preschoolers’ mean length of utterance, the number of turn-takings, and story comprehension performance in the context of using communication maintenance strategy

분석 결과는 다음과 같다. AI 스피커가 상호작용 단절 반응을 사용하는 경우, 대화 상황 및 동화 읽기 상호작용 상황에서 아동의 발화 및 이야기 이해 수행력에는 두 집단 모두 유의한 차이가 나타나지 않았다(p>.05). AI 스피커가 상호작용 유지 전략을 사용하는 경우, 대화 상황 및 동화 읽기 상호작용 상황에서 아동의 발화 변인에서도 마찬가지로 유의한 차이가 나타나지 않았다(p>.05). 그러나, AI 스피커가 상호작용 유지 전략을 사용하는 경우, 동화 읽기 상호작용 이후 아동의 이야기 이해 수행력에서 표현 언어발달 수준이 높은 집단의 아동이 표현 언어발달 수준이 낮은 집단의 아동에 비해 유의하게 높은 수행력을 보이는 것으로 분석되었다(Z=-1.999, p=.046).


Ⅳ. 논의 및 결론

본 연구는 AI 스피커와 아동의 대화 상황 및 동화 읽기 상호작용 상황에서 AI 스피커의 상호작용 단절 반응 사용, 그리고 AI 스피커의 상호작용 유지 전략 사용에 따라 아동의 발화 요인 및 이야기 수행력에 차이가 있는지 알아보고, 이러한 차이가 아동의 표현 언어발달 수준에 따라 다르게 나타나는지 확인해보는 것을 목적으로 하였다.

연구 결과, 전체 아동을 대상으로 분석하였을 때 AI 스피커가 상호작용 단절 반응을 사용하는 것에 비해 상호작용 유지 전략을 사용할 경우, 대화 상황 및 동화 읽기 상호작용 모두에서 아동의 대화 차례 주고받기 횟수가 유의하게 증가하는 것으로 나타났다. 실제 아동 발화 데이터를 통하여 볼 때, AI 스피커가 상호작용 단 절 반응을 보이는 경우 아동이 인식 오류를 인지하고 대화 차례를 중단하는 행동을 보이는 반면, 상호작용 유지 전략을 사용하는 경우에는 발화가 이어지는 것으로 여겨 대화를 지속하는 아동의 발화 패턴이 관찰되었다. Figure 2에 동일한 연구 대상 아동이 AI 스피커 발화 전략에 따라 대화 상황에서 보인 발화 패턴의 일부를 제시하였다.

Figure 2.

Samples in conversation by experimental conditions

아동 사용자를 대상으로 한 선행연구에서는 음성 인터페이스와의 상호작용 과정에서 상호작용 단절 상황이 나타났을 때, 사용자가 키워드를 중심으로 발화의 길이를 줄이는 형태, 또는 기존의 발화를 반복하는 형태, 기존의 발화를 그대로 반복하는 형태, 발화의 속도를 변화시키는 형태 등의 발화 수정 전략을 사용하는 것으로 나타났다(Beneteau et al., 2019; Yuan et al., 2019). 그러나 본 연구에서는 단순히 상호작용 단절 상황에서의 아동 발화 형태 뿐 아니라 상호작용 단절 상황을 극복하기 위한 상호작용 유지 전략 사용 상황에서의 아동 발화 형태에 대해 확인하고 이에 대한 비교 분석을 실시하였다. 그 결과, 상호작용 단절 상황에서 아동의 발화를 모방하는 간단한 형태의 요인을 포함하는 것만으로 아동의 대화 차례 주고받기 횟수를 증가시킬 수 있으며, AI 스피커와의 상호작용 단절 문제를 극복할 수 있는 대안으로 활용될 수 있다는 점을 확인하였다. 따라서 이러한 요인이 AI 스피커와의 상호작용 지속 등 장기적 측면에서의 긍정적 효과를 일으킬 수 있을 것이라 예측해 볼 수 있다. 해당 연구 결과는 단순히 상호작용 단절 상황에 나타나는 아동의 발화 패턴을 관찰하는 것에 그치지 않고 이에 대한 대안을 마련하여 효과성을 검증했다는 점에서 의의를 갖는다.

또한, 이와 같은 연구 결과는 아동의 교육을 목적으로 한 가정 내 AI 스피커의 보급률이 증가로 아동의 AI 스피커의 사용 빈도가 점차 높아지고 있으며(Yarosh et al., 2018), 스마트 디바이스를 활용한 가정 내 교육 서비스가 활발하게 이루어지는 추세임을 고려할 때 음성 인터페이스를 디자인하는 과정에 아동의 상호작용 촉진 및 언어발달 증진을 위한 교육학적 요인이 포함되어야 함을 시사한다. 이와 같이 아동의 언어발달이 고려된 음성 인터페이스를 사용할 경우, 일반 아동은 물론 언어발달이 지연된 아동을 가정에서 중재하고 이들의 상호작용을 촉진하는 과정에도 활용될 수 있을 것이다.

전체 아동을 표현 언어발달 상위 집단과 하위 집단으로 나누어 집단 비교를 실시한 결과, 상호작용 유지 전략을 실시한 동화 읽기 이후 이야기 이해 수행력에서 집단 간 차이가 유의한 것으로 나타났다. 즉, 상호작용 유지 전략만을 사용하여 동화 읽기 상호작용을 실시하는 것은 표현 언어발달 수준이 낮은 집단의 아동이 동화를 이해하는 과정에 도움을 주지 못하는 것으로 나타났다.

실제 아동이 산출한 자료를 토대로 해당 연구 결과를 해석하여 볼 때, AI 스피커가 표현 언어발달 수준이 높은 아동이 산출하는 발화를 모방할 때는 이야기와 관련하여 풍부하게 산출된 아동의 문장 표현을 그대로 모방하는 반면, AI 스피커가 표현 언어발달이 낮은 아동의 발화를 모방하는 경우 언어 표현이 미숙한 아동이 산출한 단조로운 문장을 그대로 모방하기 때문에 아동의 이야기 이해 수행 과정에 도움을 주지 못한 것으로 추측해 볼 수 있다. Figure 3에 각 집단의 아동이 상호작용 유지 전략을 사용한 AI 스피커와의 동화 읽기 상호작용에서 보인 발화 패턴의 일부를 제시하였다.

Figure 3.

Samples in the book reading interaction by language groups

본 연구에서 사용한 AI 스피커의 상호작용 유지 전략이 표현 언어발달 수준이 낮은 아동에게 이야기 이해 과정에 도움을 주지 못했다는 점은, 음성 인터페이스를 활용한 활동에서 아동의 동화 읽기 수행력을 높이기 위해서 단순히 아동의 발화를 모방하는 수준에서 그치는 것이 아니라, 보다 상위 수준의 발화 표현을 통하여 아동의 발화를 모방 및 확장해주어야 할 필요가 있음을 시사한다. 따라서 후속 연구에서는 어휘 간 의미연결망(semantic network)를 활용하여 아동의 문장을 모방 및 확장하거나, 음성 인터페이스와의 상호작용에서 아동이 산출하는 발화 패턴에 대해 정교하고 방대한 데이터를 수집함으로써 다양한 발화 상황에 대응할 수 있는 음성 인터페이스를 고안함으로써 이것이 아동의 발화 요인 및 이야기 이해 수행력에 긍정적인 영향을 미칠 수 있는지 확인해 보아야 할 것이다.

Acknowledgments

본 연구는 2020년 카카오 사(社)의 지원을 받아 수행되었음.

본 연구는 2020년 대한민국 교육부와 한국연구재단의 지원을 받아 수행되었음(NRF-2018S1A3A2075274).

This work was supported by Kakao Corp. in 2020.

This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea (NRF-2018S1A3A2075274).

Reference

  • Beneteau, E., Richards, O. K., Zhang, M., Kientz, J. A., Yip, J., & Hiniker, A. (2019). Communication breakdowns between families and Alexa. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, 1-13. [https://doi.org/10.1145/3290605.3300473]
  • Hong, J., & Choi, B. (2020). Interactions between AI speaker and children: A field study on the success/failure cases by types of interactions. The Journal of the Korea Contents Association, 20(7), 19-29.
  • Jiang, J., Jeng, W., & He, D. (2013). How do users respond to voice input errors? Lexical and phonetic query reformulation in voice search. In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval, 143-152. [https://doi.org/10.1145/2484028.2484092]
  • Joongangilbo. (2017). https://news.joins.com/article/21918382
  • Jung, H., Kim, H., & Ha, J. W. (2020). Understanding differences between heavy users and light users in difficulties with voice user interfaces. In Proceedings of the 2nd Conference on Conversational User Interfaces, 1-4. [https://doi.org/10.1145/3405755.3406170]
  • Kaufman, A. S., & NL, K. (2004). Kaufman Brief Intelligence Test (K-BIT-2). Minneapolis: Pearson Assessment.
  • Kim, Y. T. (2002). Assessment and treatment of language disorders in children. Seoul: Hakjisa.
  • Kim, Y. T., Hong, G. H., Kim, K. H., Jang, H. S., & Lee, J. Y. (2009). Receptive & Expressive Vocabulary Test (REVT). Seoul: Seoul Community Rehabilitation Center.
  • Lovato, S. B., Piper, A. M., & Wartella, E. A. (2019). Hey Google, do unicorns exist? Conversational agents as a path to answers to children's questions. In Proceedings of the 18th ACM International Conference on Interaction Design and Children, 301-313. [https://doi.org/10.1145/3311927.3323150]
  • Mathes, P. G., Fuchs, D., & Fuchs, L. S. (1997). Cooperative story mapping. Remedial and Special Education, 18(1), 20-27. [https://doi.org/10.1177/074193259701800105]
  • Pepper, J., & Weitzman, E. (2004). It takes two to talk: A practical guide for parents of children with language delays. Toronto: The Hanen Centre.
  • Schlögl, S., Doherty, G., & Luz, S. (2015). Wizard of Oz experimentation for language technology applications: Challenges and tools. Interacting with Computers, 27(6), 592-615. [https://doi.org/10.1093/iwc/iwu016]
  • van Balkom, H., Verhoeven, L., & van Weerdenburg, M. (2010). Conversational behaviour of children with developmental language delay and their caretakers. International Journal of Language & Communication Disorders, 45(3), 295-319. [https://doi.org/10.3109/13682820902994226]
  • Yarosh, S., Thompson, S., Watson, K., Chase, A., Senthilkumar, A., Yuan, Y., & Brush, A. B. (2018). Children asking questions: Speech interface reformulations and personification preferences. In Proceedings of the 17th ACM Conference on Interaction Design and Children, 300-312. [https://doi.org/10.1145/3202185.3202207]
  • Yim, D., Park, W., Cheon, S., Lee, Y. J., & Lee, J. (2015). Interaction skills via spontaneous speech sample analysis: 2-to 5-year-old children with and without language impairment. Communication Sciences & Disorders, 20(3), 364-373. [https://doi.org/10.12963/csd.15240]
  • Yuan, Y., Thompson, S., Watson, K., Chase, A., Senthilkumar, A., Brush, A. B., & Yarosh, S. (2019). Speech interface reformulations and voice assistant personification preferences of children and parents. International Journal of Child-Computer Interaction, 21, 77-88. [https://doi.org/10.1016/j.ijcci.2019.04.005]

참 고 문 헌

  • 김영태, 홍경훈, 김경희, 장혜성, 이주연 (2009). 수용ㆍ표현 어휘력 검사. 서울: 서울장애인종합복지관.
  • 김영태 (2002). 아동언어장애의 진단 및 치료, 서울: 학지사.
  • 임동선, 박원정, 천성혜, 이여진, 이지연 (2015). 자발화 분석을 통한 만 2-5세 아동의 상호작용 기술 특성 및 언어발달지체 아동 비교 연구. Communication Sciences & Disorders, 20(3), 364-373.
  • 중앙일보 (2017). https://news.joins.com/article/21918382
  • 홍정림, 최보름 (2020). 인공지능 스피커와 아동들의 상호작용: 유형별 성공/실패 사례 도출을 위한 현장 연구. 한국콘텐츠학회논문지, 20(7), 19-29.

Figure 1.

Figure 1.
Experimental setting

Figure 2.

Figure 2.
Samples in conversation by experimental conditions

Figure 3.

Figure 3.
Samples in the book reading interaction by language groups

Table 1.

Participants’ information

(n=8) M SD Z
Note. aREVT-e=Receptive and Expressive Vocabulary Test-expressive; bHigh=children with high levels of expressive language development; cLow=children with low levels of expressive language development.
*p<.05
Age
(month)
Highb 66.00 11.34 -.146*
Lowc 67.00 3.37
REVT-ea
(score)
Highb 78.25 12.09 -2.309*
Lowc 57.50 7.19

Table 2.

Comparison of the differences with or without using communication maintenance strategy on preschoolers’ mean length of utterance, the number of turn-takings, and story comprehension performance

M SD Z
Note. CB=communication breakdown; CM=communication maintenance.
*p<.05
Mean length of utterances in conversation CB 3.42 2.40 -.280
CM 3.56 1.27
The number of turn-takings in conversation CB 1.25 1.00 -2.527*
CM 4.19 .96
Mean length of utterances in book reading interaction CB 2.25 3.42 -1.185
CM 2.73 2.05
The number of turn-takings in book reading interaction CB .75 .95 -2.032*
CM 1.42 1.05
Story comprehension score CB 4.75 3.37 -1.604
CM 3.88 3.48

Table 3.

Group differences between the children with high and low levels of expressive language development on preschoolers’ mean length of utterance, the number of turn-takings, and story comprehension performance in the context of communication breakdown

M SD Z
*p<.05
Mean length of utterances in conversation High 3.73 2.92 -.145
Low 3.10 2.17
The number of turn-takings in conversation High 1.38 1.03 -.300
Low 1.13 1.11
Mean length of utterances in book reading interaction High 3.88 4.33 -1.384
Low .63 1.25
The number of turn-takings in book reading interaction High 1.00 .98 -1.076
Low .50 1.00
Story comprehension score High 6.50 3.42 -1.461
Low 3.00 2.58

Table 4.

Group differences between the children with high and low levels of expressive language development on preschoolers’ mean length of utterance, the number of turn-takings, and story comprehension performance in the context of using communication maintenance strategy

M SD Z
*p<.05
Mean length of utterances in conversation High 4.00 1.56 -1.016
Low 3.11 .92
The number of turn-takings in conversation High 4.13 .63 -.146
Low 4.25 1.32
Mean length of utterances in book reading interaction High 3.10 1.49 -.577
Low 2.36 2.69
The number of turn-takings in book reading interaction High 1.50 1.23 -.290
Low 1.33 1.03
Story comprehension score High 6.26 3.50 -1.999*
Low 1.50 1.00