Korean Speech-Language & Hearing Association(KSHA)
[ ORIGINAL ARTICLE ]
Journal of Speech-Language & Hearing Disorders - Vol. 27, No. 4, pp.61-68
ISSN: 1226-587X (Print)
Print publication date 31 Oct 2018
Received 31 Aug 2018 Revised 19 Oct 2018 Accepted 30 Oct 2018
DOI: https://doi.org/10.15724/jslhd.2018.27.4.061

초음파 혀 영상 분석을 통한 우리말 모음의 조음 특징 조사

김유경1, *
1순천제일대학교 언어치료과 교수
An Investigation of Korean Vowel Articulation Characteristics Using Ultrasonic Tongue Imaging
Kim Yu Kyung1, *
1Dept. of Speech-Language Pathology, Suncheon Jeil College, Professor

Correspondence to: Yu Kyung Kim, PhD E-mail : freekyk@hanmail.net

초록

목적:

본 연구는 초음파 혀 영상으로 우리말 모음의 조음 특징을 살펴보고자 하였다. 초음파 영상 분석으로 혀 곡선을 재현하여 모음을 조음할 때 나타나는 혀 형태를 알아보고, 정량적 분석으로 최고점의 x-좌표, y-좌표 그리고 LPTS, LAOS를 측정하여 모음의 조음 특징을 살펴보았다.

방법:

연구대상은 16세 이상의 정상 화자 10명(남성: 5명, 여성: 5명)으로 하였다. /아/, /이/, /우/ 연장발성 과업으로 혀 초음파 영상과 음성 데이터를 수집하였다. 혀 곡선을 재현한 뒤, 최고점의 x-좌표, y-좌표와 LPTS, LAOS를 측정하여 성별과 모음에 따른 차이를 이원분산분석으로 알아보았다. 그리고 F1과 F2를 분석하여 초음파 영상의 정량적 변수와의 상관을 알아보았다.

결과:

혀 곡선의 형태는 대상자 간 변이가 있으나 /아/는 상대적으로 평평한 혀 형태를 보였으며, /이/는 최고점이 전진되고 최고점까지 급격한 경사를 보였다. /u/는 혀등을 둥글게 올리는 경향을 보였으나, /아/와 매우 유사하게 평평한 형태도 있었다. 초음파 영상의 정량적 측정값인 x-좌표, y-좌표, LPTS, LAOS는 성별에 따라 유의미한 차이를 보이지 않았으나 모음에 따른 차이는 유의미하였다. 사후검정 결과 x-좌표는 /이/와 /아/, /우/ 간 차이가 유의미하였으며, y-좌표와 LPTS는 /아/와 /이/, /우/ 간 차이가 유의미하였다. LAOS는 모든 모음 간 차이가 통계적으로 유의미하였다. 마지막으로 F1은 y-좌표와 LPTS와 높은 상관을 보였으며, F2는 X-좌표, LAOS, LPTS 모두와 높은 상관을 보였다.

결론:

초음파 영상으로 화자가 모음을 산출하는 동안 입 안의 혀 형태를 시각적으로 볼 수 있으며, 혀 곡선을 재현하여 정량적 값으로도 모음 특성을 살펴볼 수 있다. 초음파 영상은 혀 형태의 변화를 실시간으로 보여줄 수 있기 때문에 모음 중재에 유용하게 사용될 수 있을 것으로 여겨진다.

Abstract

Purpose:

This study investigated Korean vowel articulation characteristics by an analysis of ultrasonic imaging of tongue shape while producing the vowels (/a/, /i/, /u/). To discover vowel articulation features, quantitative parameters of ultrasonic tongue imaging, x-coordinates and y-coordinates of tongue height, LPTS, and LAOS were analyzed.

Methods:

Ten healthy speakers (5 men, 5 women) over 16 years of age were enrolled. Ultrasonic tongue imaging and speech signals were collected in sustained vowels. x-coordinate and y-coordinate of tongue height, LPTS, and LAOS were measured after reproducing tongue contours. Then, differences according to gender and vowel were examined by two way ANOVA. We also investigated the correlation between F1 and F2 and quantitative parameters of ultrasonic images.

Results:

The shape of the tongue curve varied among subjects; /a/ showed a relatively flat tongue shape, while /i/ showed advancement tongue height and slope to the peak. /u/ tended to raise the tongue dorsum, but in some cases /u/ was very similar to /a/. Quantitative parameters of the ultrasonic images showed no significant difference according to gender. The differences according to vowels were statistically significant; in post-hoc results, the x-coordinates showed significant differences between /i/, /a/, and /u/. The y-coordinates and LPTS showed significant differences between /a/, /i/, and /u/. LAOS showed significant differences between vowels. Finally, F1 showed a correlation with y-coordinates and LPTS, while F2 showed a correlation with x-coordinates, LPTS, and LAOS.

Conclusion:

Ultrasonic imaging can be used to visualize the curves of the tongue. Specifically, ultrasonic imaging is a useful device that provides real-time visual feedback. Therefore, it is considered that it can be useful in vowel intervention.

Keywords:

Ultrasonic, vowel, articulation therapy, vowel intervention, tongue contour

키워드:

초음파, 모음, 조음치료, 모음중재, 혀 곡선

Ⅰ. 서 론

한국어의 말소리는 크게 모음과 자음으로 나뉜다. 모음은 구강과 인두강에 현저한 수축을 동반하지 않고 형성되며, 음절핵의 기능을 하는 말소리이다. 모음을 산출할 때는 자음과 달리 공기의 흐름을 특정 위치에서 특별한 방법으로 방해하지 않으며, 산출하는 동안 성도의 모습을 바꾸지 않는다(Shriberg & Kent, 2016; Shin, 2014). 현대인이 사용하는 한국어의 단모음은 7개이며, 이 모음들은 혀의 모양과 관련되어 바뀌는 성도의 형태로 분화된다(Han & Kim, 2014; Shin, 2014). 모음은 혀와 입천장의 거리가 가장 가까운 좁힘점의 상대적 위치와 입술의 원순성에 따라 고-저모음, 전-후모음, 원순-비원순모음으로 나눈다. 현재 우리말 모음 산출 특성에 대한 정보는 수많은 연구들로 충분하며, 언어치료사들은 모음 중재를 위해 이상의 지식들을 적용하고 있다.

그러나 충분한 정보에도 불구하고 모음 중재를 제공할 때 여전히 어려움은 존재한다. 대상자의 모음 산출 특징을 살펴보기 위해 육안으로 혀 모양을 보는 것은 어려운 일이다. 즉, 수많은 음성학 문헌에 제시된 모음 산출 시 나타나는 정중시상면의 혀 모양은 특별한 도구 없이 육안으로 볼 수 없다. 선행 연구들은 X-선 영상이나 MRI 등으로 혀의 모양을 연구하였다. 그러나 언어치료 현장에서는 이러한 기기를 사용하는 데 여러 어려움이 존재한다. 병원 현장이더라도 모음 중재를 위해 X-선이나 자기공명영상(magnetic resonance imaging: MRI, 이하 MRI)을 사용하는 것은 투자비용 대비 효율성 측면에서 적절하지 않다. 그리고 모음중재를 위해 영상을 사용할 때는 대상자가 말을 하는 동안 구강 내 혀 모양을 실시간 볼 수 있어야 하는데 두 기기 모두 실시간 혀 모양의 변화를 보는 데는 적절하지 않다.

최근 초음파 영상으로 혀 운동을 실시간 시각적으로 피드백하는 조음치료 방법이 근거기반 치료로 제안되고 있다(Bernhardt et al., 2010; Ruscello, 2011). 초음파 영상은 자기공명영상이나 비디오투시조영 검사에 비해 해상도는 낮으나 혀의 운동과 형태를 살펴보기에 충분하며, 자기장, 방사선 또는 조영제 등에 덜 노출되기 때문에 발달기 아동에게 적용하는 데 거부감도 적다(Bae et al., 2014; Boyce, 2015).

여러 선행연구에 따르면 초음파 영상을 시각적 피드백으로 제공하는 조음치료는 청각장애, 잔존오류가 있는 대상자, 발달성 말실행증 아동의 모음과 자음오류 개선에 효과가 있다(Bacsfalvi, 2007; Bernhardt et al., 2005; Bernhardt et al., 2010; Han & Kim, 2014; Preston et al., 2014; Preston et al., 2016). 초음파 영상은 시각적 피드백으로 제공되는 것이기 때문에 운동학적 치료가 적절한 대상자에게 타당하며, 화면으로 시상면과 관상면의 혀의 형태나 혀끝의 움직임을 보여주기 때문에 자음과 모음 치료 모두에 적용가능하다(Bernhardt et al., 2003; Bernhardt et al., 2005; Klein et al., 2013).

그러나 본 연구에서는 다음의 이유로 자음보다는 모음을 중점적으로 살펴보고자 한다. 첫째, 자음은 홀로 음절을 구성할 수 없어 모음과 함께 산출될 뿐 아니라 모음에 많은 영향을 받는다(Shriberg, & Kent, 2016). 따라서 자음 연구 이전에 초음파를 이용한 모음 산출 시 혀 형태에 대한 특성 연구가 선행되어야 한다. 둘째, 모음중재를 필요로 하는 대상자에 비해 국내에는 모음 중재에 대한 연구가 미비하다. 말소리장애 대상자들에게서 모음오류는 자음오류에 비해 덜 보고되지만 모음오류가 나타나는 경우는 보다 심한 조음음운 오류를 가지거나 기질적 장애를 가진 경우가 많다(Eom & Shin, 2018). 발달성 말실행증, 중도 이상의 청각장애와 발달성 마비말장애로 진단된 대상자들은 대부분 모음오류를 보이며 이는 자연 발달되지 않아 중재를 요구한다(Kang et al., 2009). 그러나 임상현장에서 모음중재를 위해 대상자에게 모음 조음 특성을 말로 설명하는 것은 결코 쉽지 않다. 대부분의 언어치료사들은 대상자의 정면에서 입과 구강 내 혀를 관찰하고, 청지각적 판단에 의존하여 모음 운동을 피드백 해주며 대상자가 정조음하는 순간을 만들기 위해 노력한다. 초음파 영상은 언어치료사 뿐 아니라 대상자에게 충분히 도움이 될 만한 시각적 피드백을 제공해 줄 수 있다.

초음파로 혀의 시상면을 촬영한 영상은 그림 1과 같이 혀 표면을 잘 보여준다. 흰색 선으로 나타나는 혀 표면을 분석하면 혀 곡선을 재현할 수 있으며, 이 곡선에서 혀의 최고점을 살펴볼 수 있다. 최고점의 상대적 위치와 모음의 분류는 밀접하게 관련되기 때문에 모음의 특성을 알아보는데 최고점의 전-후 위치 분석은 중요하다(Bernhardt et al., 2005).

Figure 1.

A sagittal ultrasonic image of tongue

Lee 등(2015)Wilson와 Gick(2014)은 혀 곡선의 최고점을 구강 내 공간 상 위치 좌표(x-좌표: 구강 내 최고점의 전후 위치, y-좌표: 구강 내 최고점의 상하 위치)로 살펴보았다. 그러나 모음 분류와 관련된 혀의 고저 및 전후 운동은 최고점의 구강내 좌표와 차이가 있다. 우리가 보편적으로 명명하는 고모음과 저모음은 최고점의 상대적인 위치로 분류된 것이기 때문에 혀 높이의 절대적인 값만으로 고저 운동을 살펴보는 것은 문제가 있다(Shriberg & Kent, 2016). 이러한 이유로 Lee 등(2015)은 혀의 고저 및 전후 운동과 관련된 정량적 값으로 후설피 길이(length of posterior tongue surface: LPTS, 이하 LPTS)와 전구강 길이(length of anterior oral cavity: LAOC, 이하 LAOC)를 제안하였으며, 혀 곡선에서 측정할 수 있는 여러 정량적 값들과 모음의 F1, F2와의 상관을 살펴보았다. 그 결과 F1, F2는 혀의 최고점 X-좌표, Y좌표 값보다 LPTS와 LAOC와 보다 높은 상관을 보였다(Lee et al., 2015).

따라서 본 연구는 초음파 혀 영상을 분석하여 모음의 산출 특성을 살펴보고자 다음과 같이 연구문제를 설정하였다. 첫째, 우리말 모음 /아, 이, 우/을 산출하는 동안 나타나는 혀 곡선은 어떠한가? 둘째, 성별과 모음에 따라 혀의 최고점 x-좌표, y-좌표, 그리고 LPTS, LAOC에 차이가 있는가? 셋째, x-좌표, y-좌표, LPTS, LAOC는 F1, F2와 어떠한 상관을 보이는가?


Ⅱ. 연구 방법

1. 연구 대상

연구 대상은 말과 언어에 문제가 없으며, 구강구조에 특이사항이 보고되지 않는 16세 이상의 남성 5명과 여성 5명으로 하였다. 16세 이상으로 선정한 이유는 하악골 성장이 16세 이후부터 현저하게 감소하여 안정기에 접기 들기 때문이다(Sung, 1995). 대상자의 평균연령은 18.2세이며 연령범위는 17~19세이다.

2. 자료 수집 및 분석

1) 자료 수집

대상자의 초음파 영상과 음성 수집은 방음실 또는 조용한 개별실에서 이루어졌다. 대상자는 의자에 앉아 마이크가 부착된 헤어벤드를 착용한 후, 정면을 바라보고 치료사의 지시에 따라 3초 이상 /아, 이, 우/ 모음을 연장발성을 2회 이상 실시하였다. 모음 연장발성 전에 설골의 움직임을 확인하기 위해 대상자에게 물을 한 모금 삼키게 하였으며, 삼킴과 모음 연장발성의 초음파 영상은 모두 동영상으로 녹화하였다. 초음파 영상 수집 시 초음파 기기(프로브)는 별도의 머리 고정장치를 사용하지 않고 검사자가 직접 손으로 잡아 턱밑에 수직으로 위치시킨 뒤 혀 표면이 잘 보이는 방향으로 프로브의 방향을 미세조정하였다. 검사자는 왼손으로 대상자의 머리 뒤쪽을 받쳐 머리를 고정하게 도와주면서 다른 손으로 프로브를 잡아 턱 아래 정중시상면에 고정하였다(그림 2).

Figure 2.

The scheme for the data collection

이는 Ménard 등(2012)의 연구결과, 프로브를 머리에 고정하는 장치를 사용하지 않고 검사자가 손을 사용하여 혀의 곡선을 살펴보았을 때 프로브의 회전이나 상하 및 전후 움직임이 혀의 곡률, 최고점과 혀의 기저로 이루어진 각도에 유의한 영향이 나타나지 않는다는 점에서 타당한 실험방법이 될 수 있다.

대상자가 말소리를 산출하는 동안 그림 2와 같이 SONON(초음파 기기), Tablet(영상출력), I-phone(음성녹음)으로 3가지의 자료(Tablet+SONON-초음파 영상, Tablet-저음질 음성+초음파 영상, I-phone-고음질 음성)를 수집하였다. 이와 같이 3가지의 자료를 수집한 이유는 본 연구에서 사용한 초음파 기기가 음성녹음을 지원하지 않기 때문에 특정 시점의 음향분석과 초음파 영상을 분석하는 후속작업을 위해 고음질 음성과 초음파 영상의 시점을 맞추기가 필요하기 때문이다.

초음파 기기는 보통의 목적으로 사용되는 휴대용 초음파 기기인 SONON(HEALCERION사, 300C – Convex, frequency: 3.5MHz, depth: 5㎝~20㎝, angle: 60°, frame rate: 자동조절로 평균 12~13)을 사용하였다. 초음파 영상은 개발사에서 제공하는 SONON APP을 SAMSUNG SM-T536 테블릿에서 구동하여 수집하였다.

초음파 영상은 B-mode에서 depth를 10cm로 조정(초점거리 6~8Cm 정도로 대상자의 최고점 형성 높이)하고 프레임 속도를 최고수준인 level 3으로 설정(필요에 따라 영상의 Gain과 DR을 미세조정하여 혀 곡선이 명료하게 보이게 함)하여 정중시상면 초음파 영상을 획득하여 mp4파일 형태로 저장하였다. 초음파 영상의 최대 녹화시간은 약 20초 정도였다. 대상자의 음성은 IK Multimedia에서 개발한 iRigMic Lav 전방향 마이크(주파수 범위: 30Hz-16KHz)를 i-phone에 연결하여 Voice record APP을 사용하여 mono 44.1kHz 표본화율로 수집하여 wav파일로 저장하였다. 수집 시 마이크는 헤드밴드에 연결하여 입과의 거리를 약 5㎝로 유지하였다(그림 2).

2) 자료 분석

(1) 자료처리

분석할 특정 시점의 SONON 초음파 영상과 고음질 음성을 도출하기 위해 수집한 3가지의 자료의 시점을 맞추었다. 시점 맞추기는 먼저 테블릿 화면 녹화 및 녹음을 기준으로 하여 PluraEyes 4를 사용하여 테블릿 영상과 고음질 음성의 시점을 맞추고(Time-line 추출 방법), Vegas Pro 14.0으로 SONON 영상을 수작업으로 테블릿 영상과 맞추어 결과적으로 3가지 자료의 시점을 모두 맞추었다. 그런 다음 테블릿의 화면과 SONON 화면을 동시에 볼 수 있게 편집한 후, 테블릿 음성을 삭제하고 고음질 음성만 남겼다(그림 3).

Figure 3.

The scheme for matching the timing of the three collected data

(2) 초음파 스틸 이미지 선정

음성파일을 살펴보면서 발성 시작 0.5초 이후 구간에서 포먼트의 변화가 거의 없는 1~2초의 구간을 선정하였다. 선정한 구간에 해당하는 초음파 영상 중 가장 명료한 혀 곡선이 나타나는 스틸 이미지를 Tablet의 SONON APP에서 살펴보며 선정하였다. 추출한 스틸 이미지는 그림 3과 같이 SONON APP에서 수작업으로 혀의 최고점(그림 4, 점 P)과 설골 음영(shadow of hyoid bone)의 구강쪽 선(그림 4, 선 HS)을 그은 후 jpeg 파일로 저장하였다. 이러한 이미지 분석 방법은 Lee 등(2015)의 연구를 참조하였다.

Figure 4.

A tongue peak(point P) and shadow of hyoid-bone(line HS) in sagittal ultrasonic image of /a/

(3) 혀 곡선의 재현

혀 곡선을 그래프로 제시하기 위해 AutoCAD 2018을 사용하여 그림 5의 스틸 이미지에서 혀 표면 좌표를 분석하였다. 먼저 AutoCAD에서 실제 길이가 측정될 수 있게 축척기능을 사용하여 이미지 크기를 조정한 후 모음 /아/를 기준으로 좌표의 원점을 설정하였다.

Figure 5.

Measures coordinates of x-coordinate and y-coordinate in tongue surface for tongue contours reproduction

그림 5와 같이 설골 음영이 생기는 시작점을 H로 표기하고 혀 뿌리 쪽 곡선의 끝점을 연결한 HS선(선 A)과 하악설골근(mylohyoid muscle) 수평선(선 B)이 교차되도록 그었다. 원점은 H의 위치보다 2㎝ 뒤쪽(posterior) 위치에 있는 ‘선 B’ 위의 점(점 C)으로 하고, 선 B를 x축로 하고 원점을 지나는 직교선을 y축을 하였다.

원점을 기준으로 혀 곡선의 좌표 추출을 위해서 혀 표면을 나타내는 흰색 선을 따라가며 수작업으로 동일한 선을 그렸다. 따라 그린 선은 다시 1㎜간격으로 등분하며 점을 찍어 x좌표와 y좌표를 측정한 후 엑셀로 산점도 그래프를 그려 혀 곡선을 재현하였다. 혀 곡선이 대상자에 따라 잘 나타나지 않는 경우는 전후에 영상을 살펴보며 잘 보이는 윤곽을 연결하는 방법으로 전체 혀 곡선을 도출하였다. 특히, 본 연구에서는 남성 화자가 /이/ 모음을 산출할 때 구강 뒤쪽의 혀 곡선이 희미하게 나타났다.

(4) 후설피 길이와 전구강 길이 측정

후설피 길이(LPTS)와 전구강 길이(LAOC)의 측정은 Lee 등(2015)의 측정방법을 따랐다. LPTS는 혀의 최고점에서 설골음영에 의해 가려진 경계까지의 곡선 길이로 하였으며, LAOC는 혀의 최고점에서 아랫니 끝까지의 직선거리로 하였다. 아랫니 끝지점은 하악음영 시작점에서 남성은 5㎝, 여성은 4㎝로 하였다(그림 6). 단, 원순모음 /우/는 입술의 돌출로 인한 성도 길이 증가를 고려하여 1㎝를 더하여 LAOC를 산출하였다. 길이 측정은 AutoCAD 2018을 사용하였다.

Figure 6.

Measures of LPTS and LAOC in ultrasonic image

(5) 모음의 F1과 F2 측정

Praat(version 6.0.42, Boersma & Weenink)을 사용하여 선정한 스틸 이미지 시점에서 ±0.5초 구간에 포함되는 음성의 F1과 F2를 분석하였다.

3. 결과 분석

초음파 영상으로 살펴볼 수 있는 모음 조음 특성을 알아보기 위해 그래프로 재현한 혀 곡선을 대상자별로 제시하여 비교분석하였다. 모음 조음과 관련된 혀 운동의 정량적 값인 x-좌표, y-좌표, LPTS, LAOC는 성별과 모음별로 기술통계 값을 제시하고 이원분산분석(two way ANOVA)으로 성별과 모음에 따른 차이를 분석하였다. 사후검증은 LSD로 하였다. 또한 혀 곡선에서 측정한 정량적 변수인 x-좌표, y-좌표, LPTS, LAOC의 타당성을 알아보고자 F1, F2 와의 상관을 알아보았다. 상관분석은 피어슨 상관분석(pearson correlation coefficient)로 검증하였으며 유의수준은 95%로 하였다. 모든 통계처리는 SPSS STATISTICS VERSION 18.0(SPSS Inc. Chicago, IL, USA)을 사용하였다.


Ⅲ. 연구 결과

1. 대상자별 모음 조음 시 혀 곡선

/아/, /이/, /우/ 모음 조음 시 초음파 영상의 혀 표면을 그래프로 재현한 결과는 그림 7과 같다. 좌측열(A~E)은 남성, 우측열(F~J)은 여성의 혀 곡선이다. /아/는 상대적으로 평평한 혀 곡선을 보였다. 그러나 A, F, H, I의 경우 설단경계에서 앞쪽 부분을 보다 수평으로 만들어 혀 곡선이 꺾이는 형태를 보였다. /이/는 최고점이 보다 앞쪽으로 전진되고 높게 나타나 50%의 대상자(F, B, G, H, G)에게서 가장 높은 최고점을 보였다. 그러나 다른 50% 대상자는 최고점이 /우/와 유사하거나 낮게 나타났다. 대부분의 대상자들은 /우/를 조음할 때 /아/에 비해 혀등을 둥글게 올려 산출하는 경향을 보였으나 A, F는 /아/와 /우/의 혀 곡선 형태와 최고점이 매우 유사하였다. 혀뿌리 부분의 혀곡선은 /이/는 설골 음영에 의해 거의 가려지지 않았으나 /아/와 /우/는 보다 많이 가려졌다. 특히 대상자 A의 혀 곡선은 설골 음영에 의해 가장 많이 가려져 하강형의 혀 곡선을 보였다.

Figure 7.

Tongue contours in all speakers, A~E: male, F~J: female

2. 성별과 모음에 따른 혀의 최고점 x-좌표, y-좌표, LPTS, LAOC의 차이

표 1에 /아/, /이/, /우/ 혀 곡선에서 측정한 최고점의 x-좌표, y-좌표 그리고 LPTS, LAOC의 평균과 표준편차를 성별과 모음별로 제시하였다. 그리고 표 2에 성별과 모음에 따른 혀 곡선의 정량적 변수들의 차이를 이원분산분석한 결과를 제시하였다. 분석결과 표 2와 같이 성별과 모음 간 상호작용은 타나나지 않았으며, 모든 종속변수는 성별에 따른 차이가 통계적으로 유의하지 않았다. 그러나 모음에 따른 차이는 통계적으로 유의하게 나타났다. 사후검증 결과 x-좌표, y-좌표 그리고 LPTS는 /이/와 /아/, /우/ 간에 차이를 보였으며, LAOC는 모든 모음 간 차이를 보였다.

Descriptive statistics of x-coordinate, y-coordinate, LPTS, LAOC, F1, and F2(scale: a = mm, b = Hz)

Result of the two way ANOVA by gender and vowels

3. x-좌표, y-좌표, LPTS, LAOC와 F1, F2 간 상관

표 1에 성별에 따른 /아/, /이/, /우/의 F1, F2의 음향분석 결과의 평균과 표준편차를 제시하였으며, 표 3에 혀 곡선의 정량적 변수와 F1, F2간의 상관분석 결과를 제시하였다. 표 3과 같이 F1은 y좌표와 통계적으로 유의한 부적상관을 보였다. F2는 통계적으로 유의하게 LAOC와 높은 부적상관을, LPTS와 높은 정적상관을 보였다.

Correlation analysis between quantitative variables derived from ultrasonic image and F1, F2


Ⅳ. 논의 및 결론

본 연구는 초음파 영상으로 우리말 모음의 조음 특성을 알아보고자 /아/, /이/, /우/ 조음 시 혀 곡선을 살펴보고, 혀 곡선과 관련된 정량적 변수인 x-좌표, y-좌표, LPTS, LAOC를 측정하여 성별과 모음에 따라 차이가 있는지를 알아보았다. 또한 정량적 변수와 F1, F2 간의 상관을 분석하여 초음파 영상 분석으로 도출한 정량적 변수들의 타당성을 알아보고자 하였다.

혀 초음파의 시상면 영상에서 도출한 혀 곡선은 모음을 조음하는 동안 나타나는 혀 형태와 최고점을 시각적으로 잘 보여주었다. Bernhardt 등(2005)Bressmann 등(2005)은 시상면 영상으로 혀의 전진 정도와 높이를 용이하게 볼 수 있으며, 관상면 영상으로 혀등의 융기, 홈 그리고 좌우 대칭성을 살펴볼 수 있다고 하였다. 본 연구결과에 따르면 /아/는 상대적으로 평평한 혀 형태를 보였는데, 혀등을 보다 올리며 혀의 앞쪽을 급격히 꺾어 설단을 수평하게 하여 조음하는 형태도 있었다. /이/는 최고점이 다른 모음에 비해 전진되고 높은 경향을 보여 혀뿌리에서 최고점까지 가파른 경사의 혀 곡선을 보였다. /우/는 혀등을 올린 형태로 조음하는 경향을 보였으며, 최고점의 전후 위치는 /이/에 비해 뒤쪽에 형성되었으며, 상하 위치는 /아/에 비해 높게 형성되는 경향을 보였다. 그러나 혀 곡선에서 /우/는 /아/와 비교할 때 전후 위치에서 대상자 간 차이를 보여 명확한 경향이 관찰되지 않으며, /이/와 비교할 때도 상하위치에 명확한 경향이 관찰되지 않았다. 이는 본 연구에서 살펴본 모음에 따른 최고점의 x-좌표와 y-좌표의 차이 분석 결과와도 동일하다. 최고점의 x-좌표와 y-좌표는 모음에 따른 차이가 통계적으로 유의하였으며, 사후검정 결과 x-좌표는 /이/와 /아/, /우/ 간 차이를 보였으며, y-좌표는 /아/와 /이/, /우/ 간 차이를 보였다. 두 좌표는 설골 음영 시작점에서 2㎝ 후위 지점을 원점으로 하여 최고점의 위치를 ㎜단위로 측정한 것이기 때문에 x-좌표는 최고점의 전후위치를 의미하며, y-좌표는 상하위치를 의미한다. 이상의 결과는 우리말 /아/, /이/, /우/를 고모음-저모음, 전설모음-후설모음으로 이분하여 분류한 것과 동일하였다. 즉, 혀 곡선과 통계 분석 결과에서 /이/의 최고점은 앞쪽의 높은 위치에서 형성되기 때문에 전설 고모음이라는 분류와 일치하며, /우/는 후설 고모음, /아/는 후설 저모음과 일치한다.

한편 우리말 /아/는 삼분법으로 분류할 때 중설에서 산출되며(Kang, 2003), Cho(2003)의 연구결과에 따르면 /아/는 남성이 여성에 비해 보다 후설에서 발음을 하는 경향이 있다고 한다. 그러나 표1의 모음 별 x-좌표 평균을 보면 남성의 최고점은 세 모음 간 다소 차이가 있지만 여성은 /아/와 /우/가 매우 유사하였다. 반면 최고점의 전후위치와 밀접하게 관련되는 F2 값(표 1)은 남성과 여성 모두 세 모음 간 차이가 보다 명확하며, /아/의 F2는 남성이 여성에 비해 수치적으로 낮게 나타났다. 즉 F1과 F2값에 기초하여 모음사각도를 그리면 남성이 여성에 비해 보다 /아/를 후설에서 발음한다는 선행연구와 동일한 결과이다.

그렇다면 혀 곡선에서 나타나는 최고점과 모음사각도의 차이는 무엇 때문일까? 초음파 영상의 최고점은 실제 혀의 형태에서 찾은 것이지만 모음사각도는 포먼트를 분석하여 이미지화 것이다. 모음사각도의 F1, F2는 성도를 통과한 말소리를 분석한 것이기 때문에 공명강의 위치와 관련되며, 모음의 분류기준과 밀접한 상관을 가지고 대응관계를 보인다. 그러나 초음파 영상은 구강 내 모습만을 보여주는 것이기 때문에 모음사각도와 차이가 있을 수 있다. 예를 들어 /우/의 경우 입술로 인해 연장된 성도의 특성은 혀 형태만 보여주는 초음파 영상에서는 나타나지 않지만 F1, F2에는 반영된다. 따라서 화자의 음향학적 특징을 분석하여 시각화한 모음사각도에서 말하는 혀의 최고점과 초음파 영상에서 나타나는 최고점은 일치하지 않을 수 있다. 이는 모음을 중재할 때 화자의 실제 조음 운동을 확인하고 특성에 맞게 보다 구체적으로 피드백해 줄 수 있는 수단이 필요함을 의미한다. 그리고 혀 형태를 보여주는 초음파 영상으로 이를 보완할 수 있을 것으로 여겨진다.

초음파 영상으로 도출한 혀 곡선은 실제 혀 운동을 잘 보여주지만 대상자 간 변이가 커서 경향성을 파악하기 어렵기 때문에 영상에서 분석할 수 있는 정량적 변수들을 함께 살펴볼 필요가 있다. x-좌표와 y-좌표는 구강 내 최고점의 절대적 위치를 정량적으로 나타내지만 다음의 문제를 가진다. 첫째, 모음 산출은 상대적 위치가 보다 중요하기 때문에 화자의 구강크기가 고려되어야 하는데 거리를 나태나는 좌표 값은 이를 고려하지 않고 있다. 둘째, 원순모음은 입술강 공명이 고려되어야 하는데 좌표는 입술강을 반영하지 않는다. 셋째, 좌표값은 혀등의 융기 형태를 구체적으로 보여주지 못한다. 이에 Ménard 등(2012)Zharkova(2013)은 혀 곡률이나 혀 곡률의 각도를 추가적으로 측정하였으며, Lee 등(2015)은 LAOC와 LPTS 등을 제안하였다. 본 연구는 x-좌표, y-좌표, LAOC, LPTS 모두를 살펴보았다. 그 결과 표 2와 같이 초음파 영상에서 측정한 종속 변수들은 모두 성별에 따른 차이가 유의미하지 않았으나 모음에 따른 차이는 유의미하였다. 또한 표 3과 같이 LPTS와 LAOC는 좌표 값 보다 F1, F2와 높은 상관을 보였다. LPTS는 최고점 뒤쪽의 혀 표면 길이를 측정한 것으로 최고점의 높이와 관련되기 때문에 y-좌표와 F2와 대응된다. 본 연구는 초음파 영상에서 추출한 정량적 변수들의 타당성을 제시하기 위해 LPTS, y-좌표와 F2의 상관만을 살펴보았다. 그 결과 F2는 y-좌표, LPTS 모두와 높은 상관을 보였으나 LPTS와의 상관이 보다 강하게 나타났다. F1 또한 x-좌표, LAOC 모두와 상관이 나타났으나 LAOC와의 상관이 보다 강하게 나타났다. 이러한 결과는 Lee 등(2015)의 연구결과와 일치하며, 모음의 분류 기준과 대응되는 정량적 값은 최고점의 좌표값 보다 LAOC와 LPTS로 볼 수 있겠다. 이는 표 2에서 LAOC의 사후검정 결과, /아/, /이/, /우/ 모음 모두에서 차이가 나타난 것과 동일한 맥락이다. 모음사각도에 기초한 혀의 전후위치는 LAOC가 x-좌표값 보다 민감하게 반응하며, 이는 /우/의 LAOC를 측정할 때 입술강을 고려하여 최고점에서 아랫니까지의 거리에다 1㎝를 더 더하였기 때문일 것이다.

결론적으로 초음파 영상으로 살펴본 모음 조음의 특성은 첫째, 화자 간 변이가 크지만 모음에 따라 특정 경향성을 보이는 혀 형태가 관찰되었다. 둘째, 최고점의 상대적 위치는 모음의 분류기준과 일치하였다. 셋째, 모음사각도에 기초한 모음의 조음 특성과 최고점의 상대적 위치는 차이가 있었다. 넷째, 초음파 영상에서 도출한 x-좌표, y-좌표, LAOC, LPTS는 모음의 음향학적 특성을 잘 반영하는 변수들이다. 특히, 좌표값 보다 LAOC, LPTS가 모음의 음향적 특징을 민감하게 반영한다. 본 연구 결과가 모음 중재를 위한 초음파 영상의 적용에 있어서 기초 자료로 활용될 수 있기를 희망하며 본 연구의 제한점과 중재 도구로의 적용을 위해 해결해야 할 것을 다음과 같이 제안하고자 한다.

첫째, 본 연구에서 선정한 초음파 장비는 향후 언어치료사가 충분히 사용할 수 있는 휴대가 용이하며 비용이 저렴한 국내 기기로 선정하였다. 선정한 장비는 초당 프래임률 12정도로 낮으며, 각도는 60。로 좁은 편이였다. 연장된 모음은 충분히 관찰할 수 있다고 여겨지나 조음 속도가 빠른 자음을 분석하는 데는 제약이 존재할 것으로 여겨져 추후 다양한 말소리 중재에 적용하기 위해서는 보다 언어치료에 최적화된 초음파 장비를 선정하여야 할 것으로 여겨진다.

둘째, 본 연구에서는 인터페이스를 구축하지 않고 프로그램으로 가능한 근접 시점의 영상과 음향을 분석하였다. 이는 음향녹음과 초음파 영상이 동시에 이루어지는 프로그램이 국내에 존재하지 않기 때문이지만, 시점 차이로 인한 오류가 존재할 것으로 여겨진다. 또한 초음파를 추후 중재에 적용하기 위해서는 영상과 음성이 동시에 출력되는 시스템이 필요할 것으로 여겨진다.

셋째, 본 연구에서는 초음파 영상을 모두 수작업으로 분석하였으나, 이는 많은 시간과 노력을 필요로 하며 CAD와 같은 프로그램을 다루는 것이 언어치료사에게는 낯설 수 있다. 따라서 혀 곡선과 정량적 변수들의 값을 자동 추출하는 스크립트의 개발 등으로 언어치료사가 보다 용이하게 초음파를 조음치료에 적용할 수 있는 방안이 모색되어야 할 것이다.

마지막으로, 본 연구는 대상자 수가 적어 말소리 산출에 영향을 미치는 변수를 다채롭게 고려하지 못하였으며, 모음 산출의 경향성 파악에 어려움이 있었다. 따라서 후속 연구로는 초음파 영상의 규준을 제시할 수 있는 대규모 연구가 필요할 것으로 여겨진다. 또한 초음파 영상을 조음치료에 적용하기 위해 말소리 산출에 어려움이 있는 대상자들의 초음파 영상 분석에 따른 조음 특성도 알아보는 후속연구가 이루어져야 할 것이다.

Acknowledgments

This work was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (NRF-2017 R1C1B5076651).

이 연구는 2017년 한국연구재단의 지원을 받아 수행되었음(NRF-2017R1C1B5076651).

References

  • Bacsfalvi, P., (2007), Visual feedback technology with a focus on ultrasound: The effects of speech habilitation for adolescents with sensorineural hearing loss, Doctoral dissertation, University of British Columbia, Vancouver.
  • Bae, Y., Perry, J. L., & Kuehn, D. P., (2014), Videofluoroscopic investigation of body position on articulatory positioning, Journal of Speech, Language, and Hearing Research, 57, p1135-1147. [https://doi.org/10.1044/2013_jslhr-s-12-0235]
  • Bernhardt, B., Gick, B., Bacsfalvi, P., & Adler-bock, M., (2005), Ultrasound in speech therapy with adolescents and adults, Clinical Linguistics & Phonetics, 19(6/7), p605-617. [https://doi.org/10.1080/02699200500114028]
  • Bernhardt, B., Gick, B., Bacsfalvi, P., & Ashdown, J., (2003), Speech habilitation of hard of hearing adolescents using electropalatography and ultrasound as evaluated by trained listeners, Clinical Linguistics & Phonetics, Clinical Linguistics & Phonetics(3), p199-216. [https://doi.org/10.1080/0269920031000071451]
  • Bernhardt, B., Stemberger, J. P., & Bacsfalvi, P., (2010), In A. L. Williams, Williams, S. McLeod, & R. J. McCauley (Eds.), Interventions for speech sound disorders in children, p537-555, Michigan, Paul H. Brookes.
  • Boyce, S. E., (2015), Articulatory phonetics for residual speech sound disorders: A focus on /r/, In Seminars in Speech and Language, 36(4), p257-270. [https://doi.org/10.1055/s-0035-1562909]
  • Bressmann, T., Thind, P., Uy, C., Bollig, C., Gilbert, R. W., & Irish, J. C., (2005), Quantitative three‐dimensional ultrasound analysis of tongue protrusion, grooving and symmetry: Data from 12 normal speakers and a partial glossectomee, Clinical Linguistics & Phonetics, 19(6/7), p573-588. [https://doi.org/10.1080/02699200500113947]
  • Cho, S. M., (2003), An acoustic study of Korean vowel system., Korean Language and Culture, 24, p427-441.
    조성문, (2003), 현대 국어의 모음 체계에 대한 음향음성학적인 연구, 한국언어문화, 24, p427-441.
  • Eom, S. H., & Shin, H. J., (2018), A study on vowel space area and speech intelligibility in children with articulation disorder, Journal of Speech-Language & Hearing Disorders, 27(1), p115-126.
    엄선화, 신혜정, (2018), 조음장애아동의 모음공간면적과 말명료도 연구, 27(1), p115-126.
  • Han, J. I., & Kim, J. Y., (2014), A phonetic investigation of Korean monophthongs in the early twentieth century, Phonetics and Speech Sciences, 6(1), p31-38.
    한정임, 김주연, (2014), 20세기 초 한국어 단모음의 음향음성학적 연구, 말소리와 음성과학, 6(1), p31-38.
  • Kang, O. M., (2003), Korean phonology, Seoul, Thaehaksa.
    강옥미, (2003), 한국어 음운론, 서울, 태학사.
  • Kang, Y. A., Park, S. H., & Seong, C. J., (2009), Articulation characteristics of patients with idiopathic Parkinson's disease and normal-aging group: Articulatory rate & acoustic vowel space, Journal of Speech-Language & Hearing Disorders, 18(3), p115-135.
    강영애, 박상희, 성철재, (2009), 파킨슨병 환자와 정상 노인의 조음 특성 연구: 조음 속도와 모음 음향 공간, 언어치료연구, 18(3), p115-135.
  • Klein, H. B., Byun, T. M., Davidson, L., & Grigos, M. I., (2013), A multidimensional investigation of children's /r/ productions: Perceptual, ultrasound, and acoustic measures, American Journal of Speech-Language Pathology, 22(3), p540-553.
  • Lee, S. H., Yu, J. F., Hsieh, Y. H., & Lee, G. S., (2015), Relationships between formant frequencies of sustained vowels and tongue contours measured by ultrasonography, American Journal of Speech-Language Pathology, 24, p739-749. [https://doi.org/10.1044/2015_AJSLP-14-0063]
  • Ménard, L., Aubin, J., Thibeault, M., & Richard, G., (2012), Measuring tongue shapes and positions with ultrasound imaging: A validation experiment using an articulatory model, Folia Phoniatrica et Logopaedica, 64, p64-72. [https://doi.org/10.1159/000331997]
  • Preston, J. L., Leece, M. C., & Maas, E., (2016), Intensive treatment with ultrasound visual feedback for speech sound errors in childhood apraxia, Frontiers in Human Neuroscience, 10, p440. [https://doi.org/10.3389/fnhum.2016.00440]
  • Preston, J. L., McCabe, P., Rivera-Campos, A., Whittle, J. L., Landry, E., & Mass, E., (2014), Ultrasound visual feedback treatment and practice variability for residual speech sound errors, Journal of Speech, Language, and Hearing Research, 57, p2102-2115. [https://doi.org/10.1044/2014_JSLHR-S-14-0031]
  • Ruscello, D. M., (2011), Treating articulation and phonological disorders in children, S. K. Kim, J. S. Han, S. A. Jang, & S. H. Park Trans, Seoul, Pakhaksa.
  • Shin, J. Y., (2014), Understanding speech sounds, 2nd ed, Seoul, Hankookmunhwasa.
    신지영, (2014), 말소리의 이해, 2판, 서울, 한국문화사.
  • Shriberg, L. D., & Kent, R. D., (2016), Clinical Phonetics, 4th ed, Y. J. Kim, E. Y. Kim, H. J. Yoo, S. J. Jang, & Y. L. Choi Trans, Seoul, Sigmapress.
  • Sung, J. H., (1995), A longitudinal cephal ometric study of the craniofacial growth changes of Korean aged from 16.5 to 18.5 years, Clinical Phonetics, 25(5), p557-566.
    성재현, (1995), 한국인 두개안면골 성장변화, 대한치과교정학회지, 25(5), p557-566.
  • Wilson, I., & Gick, B., (2014), Bilinguals use language-specific articulatory settings, Journal of Speech, Language, and Hearing Research, 57, p361-373. [https://doi.org/10.1044/2013_JSLHR-S-12-0345]
  • Zharkova, N., (2013), Using ultrasound to quantify tongue shape and movement characteristics, The Cleft Palate-craniofacial Journal, 50(1), p76-81. [https://doi.org/10.1597/11-196]

Figure 1.

Figure 1.
A sagittal ultrasonic image of tongue

Figure 2.

Figure 2.
The scheme for the data collection

Figure 3.

Figure 3.
The scheme for matching the timing of the three collected data

Figure 4.

Figure 4.
A tongue peak(point P) and shadow of hyoid-bone(line HS) in sagittal ultrasonic image of /a/

Figure 5.

Figure 5.
Measures coordinates of x-coordinate and y-coordinate in tongue surface for tongue contours reproduction

Figure 6.

Figure 6.
Measures of LPTS and LAOC in ultrasonic image

Figure 7.

Figure 7.
Tongue contours in all speakers, A~E: male, F~J: female

Table 1.

Descriptive statistics of x-coordinate, y-coordinate, LPTS, LAOC, F1, and F2(scale: a = mm, b = Hz)

Gender Vowel xa
M (SD)
Ya
M (SD)
LAOCa
M (SD)
LPTSa
M (SD)
F1b
M (SD)
F2b
M (SD)
Male
(N=5)
/a/ 43.20 (7.88) 50.38 (6.36) 50.27 (13.47) 37.32 (11.38) 648.53 (41.21) 1098.01 (46.82)
/i/ 57.75 (7.04) 59.73 (3.23) 34.25 (9.04) 59.90 (11.55) 276.42 (20.41) 2253.30 (151.12)
/u/ 36.37 (11.29) 56.36 (3.91) 59.71 (6.53) 38.96 (15.66) 352.96 (37.69) 818.29 (57.95)
Female
(N=5)
/a/ 39.28 (8.69) 47.30 (7.26) 43.47 (10.17) 36.74 (6.23) 834.03 (106.22) 1357.30 (210.77)
/i/ 55.45 (9.29) 57.27 (8.27) 37.35 (3.97) 59.80 (7.79) 356.74 (34.31) 2779.01 (200.27)
/u/ 38.23 (3.78) 53.20 (5.38) 67.47 (3.06) 35.79 (9.23) 401.68 (19.60) 830.90 (47.87)
Total
(N=10)
/a/ 41.24 (8.09) 48.84 (6.64) 46.87 (11.81) 37.03 (8.66) 741.28 (123.80) 1227.65 (198.48)
/i/ 56.60 (7.87) 58.50 (6.06) 35.80 (6.78) 59.85 (9.29) 316.58 (50.00) 2516.16 (323.64)
/u/ 37.30 (8.00) 54.81 (4.72) 63.59 (6.31) 37.38 (12.23) 377.32 (38.23) 824.60 (50.55)

Table 2.

Result of the two way ANOVA by gender and vowels

Type Ⅲ Sum of Squares df F p Post-
hoc
X Gender 15.856 1 .229 .637
Vowel 2080.044 2 15.007 .000 i>a, u
Gender×vowel 44.441 2 .321 .729
Y Gender 61.978 1 1.717 .202
Vowel 475.229 2 6.582 .005 a<i, u
Gender×vowel .639 2 .009 .991
LAOC Gender 13.777 1 .190 .667
Vowel 3914.031 2 27.002 .000 i<a<u
Gender×vowel 276.142 2 1.905 .171
LPTS Gender 12.339 1 .107 .747
Vowel 3420.145 2 14.794 .000 a, u<i
Gender×vowel 13.695 2 .059 .943

Table 3.

Correlation analysis between quantitative variables derived from ultrasonic image and F1, F2

X Y LAOC LPTS
*p<.05
**p<.01
F1
(p)
-.36
(.051)
-.57**
(.001)
.00
(.966)
-.46*
(.010)
F2
(p)
.65**
(.000)
.33
(.072)
-.71**
(.000)
.67**
(.000)