解释实现网站“朗读”的五种方法

2024/11/28

在当前所有网站都要求提供可访问性的情况下，网站朗读执行此功能和工具是可访问性适应和用户体验提升不可或缺的元素。

网站朗读功能不仅帮助包括视觉障碍者在内的多种用户平等地利用网络信息，还作为支持“多任务”的工具而备受关注。

朗读网站的典型方法有以下五种。

方法① 使用浏览器的朗读功能
方法② 使用屏幕阅读器
方法③ 内嵌插件
方法④ 使用语音合成API
方法⑤ 提供视频和音频内容

本文将介绍这五种典型的朗读方法，并详细阐述各自的特点、引入方法以及朗读功能所面临的挑战。

朗读网站的五种方法

首先介绍实施网站朗读的五种方法。以下表格是对各方法的比较总结。

◆网站朗读的五种方法比较表

方法	特点	适用范围	优点	缺点
① 使用浏览器的朗读功能	作为标准功能集成在Web浏览器中，可以通过设置使用	整个浏览器	・无引入成本可以使用・可以从浏览器设置中轻松启用，用户可以立即使用。	・较多情况使用单调的声音进行朗读。・仅能在特定浏览器或操作系统上使用。
② 使用屏幕阅读器	主要为视觉障碍者设计的辅助技术，可以在整个操作系统和应用程序中使用的工具。	整个系统或应用程序	・支持通用的可访问性在整个系统中可用・其中一些支持盲文输出	・需要设置和安装，对于正常人可能会感到繁琐。・也有付费工具。
③ 内嵌插件	通过在网站上嵌入脚本代码等，以朗读特定内容。	特定的网站或页面	・针对特定内容优化的形式工作・可以自定义	・实施耗时・功能范围依赖于引入的插件。
④ 使用语音合成API	能够生成高质量和更自然的声音，适用于需要语音的各种场景。	从网站和应用到IoT设备、内容制作、聊天机器人等多种领域。	・高级自定义可生成自然语音・多语言支持出色	・面向开发者，实施技术门槛较高・运营成本较高。
⑤ 提供视频或音频内容	作为音频或视频内容提供朗读信息。	仅限于特定内容（音频、视频）	・不仅有声音还可使用视觉或音乐可以・可以专注于特定内容	・内容制作较耗时。・缺乏实时性。

主要通过这种方法实现网站朗读。对于③、④、⑤，可以提供高精度的朗读，但网站运营者需要进行开发和制作。这是必要的。

另一方面，关于①和②，由于用户使用浏览器的设置和工具进行朗读，因此网站方无需特别开发，但要确保浏览器的朗读功能或屏幕阅读器正确工作，网站的结构及HTML等描述方式需符合WCAG等可访问性标准。这是必要的。

关于各方法，包括引入方式，下面将详细说明。

方法① 使用浏览器的朗读功能

利用在“Google Chrome”或“Safari”等网页浏览器中标准配置的朗读功能。无需安装特殊应用或软件就可使用，用户只需进行简单设置即可将文本转为语音供用户使用。这不仅对视觉障碍者有利，更可方便正常人进行信息提取时的“多任务”。

但需注意，仅能在浏览器上运行，并不像屏幕阅读器那样可以在整个系统中运行，因此对视觉障碍者来说功能有限。可以这样说。

◆ 代表性服务

・Microsoft Edge
・Safari（Mac）（Mac）
・谷歌浏览器

引入方法

可以在各浏览器的设置菜单中打开朗读功能。如果通过浏览器的附加扩展功能使用，需在浏览器上安装扩展后启用功能即可使用。例如在Chrome中，朗读等扩展功能可供使用。

方法② 使用屏幕阅读器

屏幕阅读器是为视觉障碍者设计的辅助技术，是将屏幕信息转换为语音或盲文的工具。不仅限于Web浏览器，而且能在操作系统和应用程序等整个系统中使用是其特点。

◆ 代表性工具

NVDA日语版
 讲述者
 PC-Talker
JAWS 2024日语版
 ZoomText 2024日语版

引入方法

不同的工具有不同的引入方法，但一般来说，可以从官方网站下载，或购买许可证后进行安装。此外，智能手机上也标准配置了屏幕阅读器，对于iOS设备，可以在设置的可访问性菜单中VoiceOver"打开，而在Android设备中，则是「TalkBack」开启此选项以启用朗读功能。

有关屏幕阅读器的内容，在以下文章中有详细解说，请结合本文章仔细阅读。。

相关链接：解释如何使用屏幕阅读器以及五种典型工具。

方法③ 内嵌插件

插件可轻松将朗读功能添加到网站。提供专门针对特定内容（例如：产品说明、文章、FAQ等）的朗读功能，这样，运营商就可以根据网站的目的灵活定制功能，并通过定制设置，例如指定朗读范围，设置语音的开始和停止按钮等，提供直观且易于使用的界面可为用户提供。

◆ 代表性插件

UniWeb
读取扬声器
 大声浏览

引入方法

一般的的引入方法是在服务网站上选择适当的插件，只需将提供方的脚本代码插入HTML头部即可实施。。可在管理界面中自定义文本范围和按钮设计。

方法④ 使用语音合成API

语音合成API是将输入文本实时转换为自然语言作为技术基础，用于在网站和应用程序中集成高级朗读功能。能够根据情感和上下文调节语音，并且在多语言支持方面表现优秀。是其特点。

◆ 代表性服务

Google Cloud文本转语音
 亚马逊波利
 IBM Watson文本转语音

引入方法

首先，在Google Cloud、Amazon AWS和IBM Watson等API提供商处创建帐户并启用API。将获取的API密钥集成到开发环境中，实现程序，通过将文本发送到API并播放生成的音频数据来实现。

方法⑤ 提供视频和音频内容

这是一种通过视频或音频内容提供网站内信息的声音方式。通过与视觉元素结合，可以多角度地传达信息。制作视频编辑等内容需要耗费时间和精力，但通过后期编辑，这也是传达想要表达内容最有效的方法。。

引入方法

首先，使用音频录制软件或视频编辑工具创建内容。将文件上传到服务器，可以直接将标签嵌入网站，或者将其上传到YouTube或SoundCloud并获取嵌入代码再嵌入到网站。此外，提供字幕和文本记录以增强无障碍性也是有益的。

这些方法都有助于提高用户的便利性和确保无障碍，但在实施和运营时需要注意一些注意事项和挑战。。接下来，介绍网站朗读功能面临的挑战。

网站朗读功能的五个挑战

读出功能对各种用户而言是非常有用的功能，但也面临一些挑战。这里将介绍五个主要挑战。

挑战① 声音质量和自然性的局限

近年来，通过利用AI语音等高级合成技术，生成更自然的声音已成为可能，但普遍使用的浏览器读出功能和屏幕阅读器大多是单调且机械的声音。。

当用户追求声音质量时，单调的声音和不自然的语调会成为问题，特别是当朗读对象为长文时，会感到疲惫。。

挑战② 存在无法正确识别的字符和符号

某些特殊字符、符号和缩写无法正确朗读。这种问题不仅使用户很难理解内容，而且也是降低整个网站无障碍性的原因。。

例如，程序代码、数学公式和化学式等专业书写可能并未按预期朗读，使用户感到混乱。此外，缩写（如NASA或HTML）在某些情况下发音不正确，也会使用户难以理解其含义。

此外，在装饰性符号或表情符号频繁使用的情况下，朗读引擎可能会朗读所有表情符号的名称，导致结果冗长且难以理解。（例如，😊被读作“微笑表情符号”）。

挑战③ 多语言支持的难度

在多语言网站上，如果没有适当地进行语言切换，就会出现错误的发音或不自然的朗读。还会出现。此外，如果缺少语言代码（如lang=

对语言代码的适当设置以及需要切换语音合成引擎的部分的响应在技术上较为复杂，增加了运营的人力成本。这是多语言支持网站面临的共同挑战。

挑战④ 动态内容的支持

评论区、聊天框和弹出窗口等动态内容之所以在实时更新信息时引起很大的效果，非常有用，但与网站朗读功能兼容性不佳。

在许多情况下，朗读功能或屏幕阅读器无法识别实时添加的信息，导致无法正确向用户传达信息，如“没有朗读全部内容”或“朗读内容重叠”等问题。这样的挑战导致新的信息被忽视，用户可能在不希望时再次听到旧的信息。

挑战⑤ 可访问性适应的成本和负担

为了使朗读功能正常工作，网站的HTML和结构必须按照无障碍标准进行适当编写。然而，实际上，由于HTML描述不准确、缺少替代文本或未设置ARIA属性，朗读功能常常无法按预期正常工作。

为了解决这些问题，必须对网站进行修改，但这需要财务成本和时间。这是一种负担，尤其是对预算和人员有限的小企业来说，负担会很大，往往会延迟对无障碍性的响应。这种情况在现实中时常发生。

这些挑战在引入和运营朗读功能时是无法避免的。然而，近年来，AI技术的发展为解决这些挑战提供了更多可能性。接下来，将介绍AI技术带来的网站朗读功能的发展。

AI技术带来的网站朗读功能的演变

近年来，通过AI技术的进步，网站朗读功能取得了飞跃性的进展。利用深度学习（从大量数据中自动学习特征的技术）的音频合成模型在从文本生成语音时，会根据情感和语境赋予语调，而不是传统的机械朗读，生成更自然、更具人性化的语音。。

此外，AI能够理解文本的上下文和单词之间的关系，例如，在新闻文章中使用正式口吻，在故事内容中使用富有感情的声音，从而实现对内容的适当朗读。

此外，多语言支持也通过AI得到了发展，像Google Cloud TTS这样的音频合成技术能够支持几十种语言，并能够在不同语言之间顺利切换。例如，在包含英语和日语的页面上，能够自动识别文本并为每种语言提供适当的发音和语调，或者在翻译文本的同时以目标语言朗读的功能。已经变得可能。

这些技术通过将其集成到浏览器、屏幕阅读器、插件等现有的朗读方法中，大大增强各自的功能，并有可能极大地改善用户体验。

参考：最新的语音合成技术及其应用：AI创造的未来声音 / 2024年最新！语音合成技术的进化及其惊人应用案例（Reinforz Insight）、实现不损失讲者音质的多语言合成语音，将跨语言合成技术应用于音频合成解决方案“FutureVoice Crayon”，在国内首次提供商业服务。（NTT TechnoCross）