Wdrażanie głosowego interfejsu użytkownika w mikrokontrolerach MCU o ograniczonych zasobach

Inteligentne głośniki i inne połączone koncentratory połączone stanowią serce inteligentnego domu, umożliwiając użytkownikom sterowanie urządzeniami i uzyskiwanie dostępu do Internetu. W miarę rozpowszechniania się tych urządzeń widoczne są dwa trendy: użytkownicy wolą sterowanie głosowe bardziej niż naciskanie przycisków lub skomplikowane systemy menu oraz zauważalny jest rosnący dyskomfort związany z ciągłą łącznością z chmurą ze względu na obawy dotyczące prywatności.

Łukasz Jaeszke

2024-02-07

Uruchamianie głosowego interfejsu użytkownika (VUI) bez połączenia z chmurą przy ograniczonych zasobach

Wydajność oprogramowania Cyberon DSpotter pozwala na jego pracę z mikrokontrolerami MCU Arm Cortex-M z grup RA2, RA4 i RA6 firmy Renesas. Można je często spotkać w wielu zastosowaniach konsumenckich, przemysłowych i Internetu rzeczy (IoT). Są one też wspierane przez łatwe w użyciu narzędzia do projektowania, dzięki czemu zbudowanie prostego głosowego interfejsu użytkownika (VUI) jest stosunkowo proste bez dużego doświadczenia w kodowaniu lub wiedzy specjalistycznej.

Wybór konkretnej grupy RA mikrokontrolerów MCU zależy przede wszystkim od złożoności poleceń i dostępnej pamięci na bibliotekę Cyberon. Przełącznik oświetlenia inteligentnego, który do efektywnego działania wymaga niewielkiego zestawu poleceń i ograniczonej mocy obliczeniowej, może opierać się na urządzeniu R7FA4W1AD2CNG z grupy RA4. Omawiany mikrokontroler MCU posiada rdzeń Arm Cortex-M4 48MHz przystosowany do zasilania bateryjnego oraz 512kB pamięci flash i 96kB pamięci SRAM. Posiada kontroler segmentowego wyświetlacza ciekłokrystalicznego (LCD), pojemnościowy czujnik dotykowy, łączność bezprzewodową Bluetooth Low Energy (Bluetooth LE), USB 2.0 Full-Speed, 14-bitowy przetwornik analogowo-cyfrowy (ADC), 12-bitowy przetwornik cyfrowo-analogowy (DAC) oraz funkcje zabezpieczeń (ilustracja 5).

Diagram przedstawiający mikrokontroler MCU R7FA4W1AD2CNG firmy Renesas Ilustracja 5: Mikrokontroler MCU R7FA4W1AD2CNG zapewnia zasoby wystarczające do zbudowania głosowego interfejsu użytkownika (VUI) bez połączenia z chmurą, do takich zastosowań jak przełączniki oświetlenia inteligentnego. (Źródło ilustracji: Renesas)

Zastosowanie takie jak głośniki inteligentne wymagają bardziej rozbudowanej biblioteki oprogramowania Cyberon DSpotter i mocniejszego rdzenia. Odpowiednim kandydatem jest urządzenie R7FA6M4AF3CFM. Ten mikrokontroler MCU z grupy RA6 zawiera mocniejszy rdzeń Arm Cortex-M33 200MHz z 1MB pamięci flash i 256kB pamięci SRAM. Posiada magistralę CAN, Ethernet, I²C, magistralę LIN, pojemnościowy czujnik dotykowy oraz wiele innych interfejsów i urządzeń peryferyjnych.

Do obsługi urządzeń z grup RA4 i RA6 przewidziano płytki ewaluacyjne, RTK7EKA4W1S00000BJ i RTK7EKA6M4S00001BE, umożliwiające deweloperom wykorzystanie możliwości mikrokontrolerów MCU. Każda płytka ewaluacyjna posiada docelowy mikrokontroler MCU i wbudowany debugger.

Firma Renesas oferuje również zestaw rozwiązań głosowego interfejsu użytkownika (VUI) przyspieszający prace rozwojowe. Zestaw jest podobny do płytek ewaluacyjnych w tym, że zawiera urządzenie docelowe i debuggery. Płytka posiada również kilka interfejsów wejścia-wyjścia (I/O) i cztery mikrofony: dwa analogowe i dwa cyfrowe.

Dostęp do oprogramowania potrzebnego do prac rozwojowych przy użyciu zestawu rozwiązań głosowego interfejsu użytkownika (VUI) jest możliwy z poziomu witryny internetowej firmy Cyberon. W ramach niego otrzymujemy bezpłatny dostęp do narzędzia modelowania Cyberon DSpotter oraz projektu e2 studio z działającym zestaw poleceń głosowych (e2 studio jest opartym na platformie Eclipse zintegrowanym środowiskiem deweloperskim (IDE) dla mikrokontrolerów MCU firmy Renesas). Przykładowy zestaw poleceń można wykorzystać jako szablon do opracowywania niestandardowych sekwencji poleceń głosowych. Reakcje systemu można następnie monitorować za pomocą okna terminala. Utworzenie struktury głosowego interfejsu użytkownika (VUI) pokazanej na ilustracji 4 zwykle trwa około 15 minut.

Wsparcie w projektowaniu bardziej zaawansowanego oprogramowania aplikacyjnego dla pakietu Cyberon zapewnia elastyczny pakiet oprogramowania (FSP) firmy Renesas dla projektów systemów wbudowanych z wykorzystaniem grup RA. Elastyczny pakiet oprogramowania (FSP) bazuje na otwartym ekosystemie oprogramowania i obejmuje system operacyjny czasu rzeczywistego (RTOS) Azure lub FreeRTOS, starszy kod oraz ekosystemy innych firm. Może działać w kilku zintegrowanych środowiskach deweloperskich (IDE), w tym e2 studio.

Jak dobrze działa głosowy interfejs użytkownika (VUI)?

Jedna sprawa to, czy głosowy interfejs użytkownika (VUI) działa dobrze w cichym laboratorium, a druga, czy działa dokładnie przy znacznych szumach tła. W typowym środowisku pracy głośnika inteligentnego mamy do czynienia z telewizorem, radiem, rozmową, innym źródłem muzyki oraz ogólnym hałasem domowym lub wynikającym ze spotkania towarzyskiego. Co więcej, głosowy interfejs użytkownika (VUI) będzie musiał zmagać się z dialektami i niedoskonałą dykcją. Pomimo tych wyzwań, użytkownicy oczekują niemal bezbłędnego działania.

Aby poprawić parametry działania w trudnych warunkach akustycznych, oprogramowanie Cyberon DSpotter, działające na mikrokontrolerach MCU z grupy RA firmy Renesas zawiera funkcje odporności na zakłócenia, które wymagają minimalnych zasobów procesora. Aby zademonstrować jego skuteczność, przeprowadzono testy z użyciem symulatora głosowego interfejsu użytkownika (VUI) Cyberon DSpotter, który nasłuchuje poleceń w obecności różnych źródeł szumów tła w odległości 1,5 i 3m oraz przy stosunku sygnału do szumu (SNR) wynoszącym 0, 5 oraz 10dB. We wszystkich testach porównawczych głosowy interfejs użytkownika (VUI) przewyższył urządzenie Alexa firmy Amazon (tabela 1).

Tabela 1: wyniki pomyślnych testów poleceń dla głosowego interfejsu użytkownika (VUI) Cyberon przy różnych źródłach szumów w tle. We wszystkich przypadkach testów porównawczych, głosowy interfejs użytkownika (VUI) przewyższył urządzenie Alexa firmy Amazon. (Źródło ilustracji: Renesas)

Podsumowanie

Głosowe interfejsy użytkownika (VUI) szybko stają się preferowanym konsumenckim interfejsem sterowania dla produktów inteligentnych. Podejście do sterowania mową wykorzystujące fonemy jako podstawę poleceń i ścisłą strukturę poleceń może znacznie zmniejszyć wymagania dotyczące pamięci i mocy obliczeniowej, umożliwiając lokalne działanie technologii na małych mikrokontrolerach MCU o ograniczonych zasobach.

Źródło: Wdrażanie głosowego interfejsu użytkownika w mikrokontrolerach MCU o ograniczonych zasobach

Kontakt w Polsce: poland.support@digikey.pl

Autor: Rolf Horn

Rolf Horn, Applications Engineer at DigiKey, has been in the European Technical Support group since 2014 with primary responsibility for answering any Development and Engineering related questions from final customers in EMEA, as well as writing and proof-reading German articles and blogs on DK’s TechForum and maker.io platforms. Prior to DigiKey, he worked at several manufacturers in the semiconductor area with focus on embedded FPGA, Microcontroller and Processor systems for Industrial and Automotive Applications. Rolf holds a degree in electrical and electronics engineering from the university of applied sciences in Munich, Bavaria and started his professional career at a local Electronics Products Distributor as System-Solutions Architect to share his steadily growing knowledge and expertise as Trusted Advisor.

Hobbies: spending time with family + friends, travelling in our VW-California transporter and motorbiking on a 1988 BMW GS 100.

Zapraszamy na TEK.day Wrocław, 14 marca 2024. Zapisz się już dziś!