Note
Artificial Intelligence (AI) – Trí tuệ nhân tạo: Hệ thống máy tính hoặc phần mềm được thiết kế để thực hiện các tác vụ mà thường cần đến trí tuệ con người, như học hỏi, nhận dạng hình ảnh, và ra quyết định.
Generative AI – AI tạo sinh: Một loại AI có khả năng tạo ra nội dung mới như văn bản, hình ảnh, hoặc âm thanh dựa trên dữ liệu đã học.
Speech Recognition – Nhận diện giọng nói: Công nghệ cho phép máy tính hoặc hệ thống tự động nhận diện và hiểu được lời nói của con người.
Natural Language Processing (NLP) – Xử lý ngôn ngữ tự nhiên: Một lĩnh vực trong AI nghiên cứu về cách máy tính hiểu và tương tác với ngôn ngữ con người.
Chatbot – Bot trò chuyện: Phần mềm AI được thiết kế để mô phỏng cuộc trò chuyện của con người thông qua giao diện văn bản hoặc giọng nói.
Data Bias – Thiên lệch dữ liệu: Sự thiếu công bằng trong dữ liệu được sử dụng để huấn luyện hệ thống AI, dẫn đến các kết quả không công bằng hoặc sai lệch.
Accent – Giọng nói: Cách phát âm của một ngôn ngữ, thường mang tính khu vực hoặc văn hóa.
Code-switching – Chuyển mã ngôn ngữ: Việc chuyển đổi giữa hai hoặc nhiều ngôn ngữ hoặc phương ngữ trong cùng một cuộc trò chuyện.
Probabilistic Guess – Dự đoán xác suất: Một phương pháp mà hệ thống AI sử dụng để đưa ra dự đoán dựa trên xác suất, thay vì hiểu chính xác từng chi tiết.
Linguistic Diversity – Đa dạng ngôn ngữ: Sự đa dạng trong cách thức sử dụng ngôn ngữ giữa các nhóm dân cư khác nhau, bao gồm các phương ngữ, giọng điệu, và cách diễn đạt.
Prescriptive Notions – Quan điểm quy chuẩn: Các quy định hoặc quan điểm về việc sử dụng ngôn ngữ “đúng” hoặc “chuẩn” theo một tiêu chuẩn nhất định.
Sociolinguistics – Ngôn ngữ học xã hội: Nghiên cứu về mối quan hệ giữa ngôn ngữ và xã hội, bao gồm các yếu tố như chủng tộc, giới tính và lớp xã hội ảnh hưởng đến ngôn ngữ.
Speech Impediment – Khiếm khuyết nói, rối loạn nói: Những vấn đề về phát âm hoặc khả năng nói khiến một người gặp khó khăn trong việc giao tiếp bằng lời nói.
Federal Law – Luật liên bang: Các bộ luật được ban hành bởi chính phủ liên bang, có ảnh hưởng đến tất cả các tiểu bang và khu vực.
Digital Footprint – Dấu ấn số: Dữ liệu mà một người để lại khi sử dụng các dịch vụ trực tuyến, bao gồm hành vi, tương tác và thông tin cá nhân.
Bias in AI – Thiên lệch trong AI: Sự thiên lệch xảy ra trong các hệ thống AI khi chúng phản ánh hoặc duy trì các định kiến hoặc bất công từ dữ liệu huấn luyện.
Sympathetic Listener – Người nghe cảm thông: Một người lắng nghe với sự thấu hiểu, đồng cảm, và không đánh giá.
The Article
The idea of a humanlike artificial intelligence assistant that you can speak with has been alive in many people’s imaginations since the release of “Her,” Spike Jonze’s 2013 film about a man who falls in love with a Siri-like AI named Samantha.Over the course of the film, the protagonist grapples with the ways in which Samantha, real as she may seem, is not and never will be human.
Ý tưởng về một trợ lý trí tuệ nhân tạo giống con người mà bạn có thể trò chuyện đã tồn tại trong trí tưởng tượng của nhiều người kể từ khi bộ phim Her của Spike Jonze ra mắt năm 2013 kể về nhân vật chính đem lòng yêu một AI có giọng nói giống Siri tên là Samantha.Trong suốt bộ phim, anh ta vật lộn với thực tế rằng, dù Samantha có vẻ rất thật, cô ấy không và sẽ không bao giờ là con người.
Twelve years on, this is no longer the stuff of science fiction.Generative AI tools like ChatGPT and digital assistants like Apple’s Siri and Amazon’s Alexa help people get driving directions, make grocery lists, and plenty else.But just like Samantha, automatic speech recognition systems still cannot do everything that a human listener can.
Mười hai năm sau, điều này không còn là chuyện khoa học viễn tưởng.Các công cụ AI tạo sinh như ChatGPT và trợ lý kỹ thuật số như Siri của Apple hay Alexa của Amazon đang giúp con người tìm đường, lập danh sách đi chợ, và còn nhiều việc khác nữa.Nhưng cũng giống như Samantha, các hệ thống nhận diện giọng nói tự động vẫn chưa thể làm được mọi điều mà một người nghe thực sự có thể.
You have probably had the frustrating experience of calling your bank or utility company and needing to repeat yourself so that the digital customer service bot on the other line can understand you.Maybe you’ve dictated a note on your phone, only to spend time editing garbled words.
Có lẽ bạn đã từng gặp phải trải nghiệm bực mình khi gọi đến ngân hàng hoặc công ty dịch vụ và phải lặp lại lời nói nhiều lần để bot chăm sóc khách hàng có thể hiểu.Hoặc khi bạn đọc một ghi chú trên điện thoại nhưng sau đó phải chỉnh sửa hàng loạt từ sai.
Linguistics and computer science researchers have shown that these systems work worse for some people than for others.They tend to make more errors if you have a non-native or a regional accent, are Black, speak in African American Vernacular English, code-switch, if you are a woman, are old, are too young or have a speech impediment.
Các nhà nghiên cứu ngôn ngữ học và khoa học máy tính đã chỉ ra rằng các hệ thống này hoạt động kém hiệu quả hơn đối với một số nhóm người.Chúng thường mắc lỗi nhiều hơn nếu bạn có giọng không chuẩn, giọng vùng miền, là người da đen, nói tiếng Anh theo phương ngữ người Mỹ gốc Phi, chuyển mã giữa các ngôn ngữ, là phụ nữ, người già, trẻ nhỏ hoặc có tật nói.
Tin ear
Không có khả năng cảm thông
Unlike you or me, automatic speech recognition systems are not what researchers call “sympathetic listeners.”Instead of trying to understand you by taking in other useful clues like intonation or facial gestures, they simply give up.Or they take a probabilistic guess, a move that can sometimes result in an error.
Khác với bạn và tôi, các hệ thống nhận diện giọng nói không phải là những “người nghe cảm thông” như cách các nhà nghiên cứu gọi.Thay vì cố gắng hiểu bạn bằng cách tiếp nhận các dấu hiệu hữu ích khác như ngữ điệu hay cử chỉ khuôn mặt, chúng đơn giản là bỏ cuộc.Hoặc chúng đưa ra một phỏng đoán mang tính xác suất, điều này đôi khi dẫn đến sai sót.
As companies and public agencies increasingly adopt automatic speech recognition tools in order to cut costs, people have little choice but to interact with them.But the more that these systems come into use in critical fields, ranging from emergency first responders and health care to education and law enforcement, the more likely there will be grave consequences when they fail to recognize what people say.
Khi các công ty và cơ quan công quyền ngày càng sử dụng các công cụ nhận diện giọng nói tự động để cắt giảm chi phí, con người gần như không có lựa chọn nào khác ngoài việc phải tương tác với chúng.Tuy nhiên, càng áp dụng nhiều trong các lĩnh vực quan trọng – từ ứng cứu khẩn cấp, chăm sóc sức khỏe đến giáo dục và thực thi pháp luật – thì hậu quả của việc hệ thống không hiểu đúng lời nói của con người càng trở nên nghiêm trọng.
Imagine sometime in the near future you’ve been hurt in a car crash.You dial 911 to call for help, but instead of being connected to a human dispatcher, you get a bot that’s designed to weed out nonemergency calls.It takes you several rounds to be understood, wasting time and raising your anxiety level at the worst moment.
Hãy tưởng tượng trong tương lai gần, bạn bị tai nạn giao thông.Bạn gọi 911 để cầu cứu.Nhưng thay vì gặp tổng đài viên, bạn lại gặp một bot được lập trình để lọc các cuộc gọi không khẩn cấp.Bạn phải lặp lại nhiều lần để được hiểu, mất thời gian và tăng thêm lo lắng trong thời khắc nguy cấp nhất.
What causes this kind of error to occur?Some of the inequalities that result from these systems are baked into the reams of linguistic data that developers use to build large language models.Developers train artificial intelligence systems to understand and mimic human language by feeding them vast quantities of text and audio files containing real human speech.But whose speech are they feeding them?
Nguyên nhân nào gây ra loại lỗi này?Một phần nguyên nhân nằm ở sự thiên lệch trong dữ liệu ngôn ngữ khổng lồ mà các nhà phát triển dùng để xây dựng các mô hình ngôn ngữ lớn.Các hệ thống AI được huấn luyện để hiểu và mô phỏng ngôn ngữ con người bằng cách “ăn” vô số văn bản và tệp âm thanh có tiếng nói thực.Nhưng đó là tiếng nói của ai?
If a system scores high accuracy rates when speaking with affluent white Americans in their mid-30s, it is reasonable to guess that it was trained using plenty of audio recordings of people who fit this profile.
Nếu một hệ thống có độ chính xác cao khi tương tác với người Mỹ da trắng có thu nhập khá, ở độ tuổi 30, thì có thể đoán rằng hệ thống đó đã được huấn luyện từ rất nhiều dữ liệu âm thanh của nhóm người này.
With rigorous data collection from a diverse range of sources, AI developers could reduce these errors.But to build AI systems that can understand the infinite variations in human speech arising from things like gender, age, race, first vs. second language, socioeconomic status, ability and plenty else, requires significant resources and time.
Việc thu thập dữ liệu từ nhiều nguồn đa dạng có thể giúp giảm thiểu sai sót.Tuy nhiên, để xây dựng được hệ thống AI có thể hiểu được vô số biến thể trong ngôn ngữ con người – xuất phát từ giới tính, độ tuổi, chủng tộc, ngôn ngữ mẹ đẻ hay học sau, địa vị xã hội, khả năng nói chuyện, v.v…– cần nguồn lực và thời gian rất lớn.
‘Proper’ English
Tiếng Anh “chuẩn”
For people who do not speak English – which is to say, most people around the world – the challenges are even greater.Most of the world’s largest generative AI systems were built in English, and they work far better in English than in any other language.On paper, AI has lots of civic potential for translation and increasing people’s access to information in different languages,but for now, most languages have a smaller digital footprint, making it difficult for them to power large language models.
Đối với những người không nói tiếng Anh – tức là phần lớn dân số thế giới – thách thức còn lớn hơn.Hầu hết các hệ thống AI tạo sinh lớn đều được xây dựng bằng tiếng Anh và hoạt động tốt nhất với tiếng Anh.Trên lý thuyết, AI có tiềm năng lớn trong việc dịch thuật và mở rộng khả năng tiếp cận thông tin bằng nhiều ngôn ngữ.Nhưng hiện tại, phần lớn các ngôn ngữ khác có dấu ấn số nhỏ hơn, khiến chúng khó có thể hỗ trợ các mô hình ngôn ngữ lớn.
Even within languages well-served by large language models, like English and Spanish, your experience varies depending on which dialect of the language you speak.
Ngay cả trong các ngôn ngữ được hỗ trợ tốt như tiếng Anh hay tiếng Tây Ban Nha, trải nghiệm của bạn vẫn sẽ khác nhau tùy vào phương ngữ bạn sử dụng.
Right now, most speech recognition systems and generative AI chatbots reflect the linguistic biases of the datasets they are trained on.They echo prescriptive, sometimes prejudiced notions of “correctness” in speech.
Hiện nay, hầu hết các hệ thống nhận diện giọng nói và chatbot AI tạo sinh đều phản ánh thiên lệch ngôn ngữ trong dữ liệu mà chúng được huấn luyện.Chúng tái hiện những định kiến mang tính quy chuẩn – đôi khi là thành kiến – về cái gọi là “nói đúng”.
In fact, AI has been proved to “flatten” linguistic diversity.There are now AI startup companies that offer to erase the accents of their users, drawing on the assumption that their primary clientele would be customer service providers with call centers in foreign countries like India or the Philippines.The offering perpetuates the notion that some accents are less valid than others.
Thực tế, AI đã được chứng minh là làm "phẳng" sự đa dạng ngôn ngữ.Hiện có một số công ty khởi nghiệp AI cung cấp dịch vụ xoá giọng địa phương của người dùng, dựa trên giả định rằng khách hàng chính của họ là các trung tâm chăm sóc khách hàng ở các nước như Ấn Độ hoặc Philippines.Điều này củng cố quan niệm rằng một số giọng nói kém giá trị hơn các giọng khác.
Human connection
Sự kết nối giữa con người
AI will presumably get better at processing language, accounting for variables like accents, code-switching and the like.In the U.S., public services are obligated under federal law to guarantee equitable access to services regardless of what language a person speaks.But it is not clear whether that alone will be enough incentive for the tech industry to move toward eliminating linguistic inequities.
AI rồi sẽ cải thiện khả năng xử lý ngôn ngữ, tính đến các biến thể như giọng địa phương, chuyển mã ngôn ngữ và những yếu tố tương tự.Tại Mỹ, luật liên bang yêu cầu các dịch vụ công phải đảm bảo tiếp cận công bằng bất kể người dùng nói ngôn ngữ nào.Nhưng chưa rõ liệu điều đó có đủ động lực để ngành công nghệ thực sự loại bỏ bất bình đẳng ngôn ngữ hay không.
Many people might prefer to talk to a real person when asking questions about a bill or medical issue, or at least to have the ability to opt out of interacting with automated systems when seeking key services.That is not to say that miscommunication never happens in interpersonal communication, but when you speak to a real person, they are primed to be a sympathetic listener.
Nhiều người vẫn thích được nói chuyện với người thật khi hỏi về hóa đơn hay vấn đề y tế – hoặc ít nhất là có quyền chọn không tương tác với hệ thống tự động khi cần dịch vụ quan trọng.Điều đó không có nghĩa là giao tiếp giữa người với người luôn hoàn hảo, nhưng ít ra khi bạn nói chuyện với một con người, họ có xu hướng trở thành người nghe cảm thông.
With AI, at least for now, it either works or it doesn’t.If the system can process what you say, you are good to go.If it cannot, the onus is on you to make yourself understood.
Với AI – ít nhất là ở thời điểm hiện tại – hoặc nó hoạt động, hoặc không.Nếu hệ thống hiểu được bạn, bạn ổn.Nếu không, bạn phải tự xoay xở để khiến AI hiểu được mình.
Quiz
Select the correct answer for each question.
Question 1/6
1. What is the primary function of generative AI tools like ChatGPT and Siri?
2. Why do automatic speech recognition systems often make errors?
3. What is a major limitation of current AI speech recognition systems?
4. What is the main cause of linguistic bias in AI systems?
5. Why might people prefer to talk to a human rather than an AI assistant?
6. What is a possible consequence of using AI speech recognition in critical fields?