Google AI Edge Eloquent — Ứng dụng ghi chép giọng nói thông minh, xử lý ngoại tuyến trên thiết bị
Nguyễn Thị Hương
20 tháng 10, 2024

Google AI Edge Eloquent — Ứng dụng ghi chép giọng nói thông minh, xử lý ngoại tuyến trên thiết bị
Google vừa tung ra Google AI Edge Eloquent — một ứng dụng nhập liệu bằng giọng nói mới trên iOS, tập trung vào xử lý hoàn toàn ngoại tuyến và chỉnh sửa văn bản bằng AI. Ứng dụng sử dụng mô hình nhận dạng giọng nói dựa trên Gemma, cho phép người dùng chuyển lời nói tự nhiên thành văn bản sẵn sàng sử dụng mà không cần kết nối internet.
Xử lý hoàn toàn trên thiết bị, không phụ thuộc mạng
Google AI Edge Eloquent được cung cấp miễn phí trên App Store. Sau khi tải các mô hình nhận dạng giọng nói dựa trên Gemma, người dùng có thể sử dụng ứng dụng hoàn toàn offline, không cần bất kỳ kết nối internet nào. Toàn bộ quá trình xử lý diễn ra trực tiếp trên thiết bị, từ nhận dạng giọng nói cho đến xử lý văn bản đầu ra.

Cách tiếp cận này mang lại nhiều lợi ích thực tế. Người dùng có thể ghi chép thông tin nhạy cảm mà không lo dữ liệu được gửi đến server bên ngoài. Điều này đặc biệt quan trọng trong các cuộc họp, thảo luận cơ mật, hoặc khi làm việc với các tài liệu chứa thông tin bảo mật. Ngoài ra, khả năng hoạt động offline cũng tỏ ra hữu ích khi mạng không ổn định, kém hoặc khi người dùng ở các khu vực có độ phủ sóng hạn chế.
Ứng dụng hiển thị nội dung theo thời gian thực trong quá trình ghi âm. Khi người dùng tạm dừng, hệ thống tự động loại bỏ các từ đệm như "um", "ah" hoặc những giật lại vô thức mà chúng ta thường phát ra khi nói. Nhờ vậy, đoạn văn trở nên mạch lạc hơn mà không cần phải chỉnh sửa thủ công từng câu.
Chỉnh sửa thông minh tức thời
Google AI Edge Eloquent không chỉ dừng lại ở việc chuyển giọng nói thành văn bản. Ứng dụng cung cấp các công cụ chỉnh sửa thông minh để tối ưu hóa nội dung ngay sau khi ghi âm xong. Người dùng có thể yêu cầu ứng dụng tóm tắt ý chính, chuyển sang văn phong trang trọng, rút gọn nội dung hoặc mở rộng chi tiết.

Giao diện chỉnh sửa nhanh với các tùy chọn tóm tắt, chuyển văn phong, rút gọn mở rộng nội dung
Khả năng này giảm đáng kể thời gian hậu kỳ, vì người dùng không phải dành nhiều công sức để chỉnh sửa thủ công. Thay vì phải ngồi đọc lại từng dòng, sửa lỗi chữ, điều chỉnh ngữ pháp, họ chỉ cần cho ứng dụng biết muốn văn bản theo phong cách nào và AI sẽ xử lý phần còn lại. Điều này đặc biệt hữu ích cho những người phải soạn thảo nhiều tài liệu, viết báo cáo, ghi chú họp hoặc tạo nội dung mà không muốn bị ràng buộc bởi bàn phím.
Linh hoạt giữa riêng tư tuyệt đối và tối ưu hóa cloud
Google cho phép người dùng tắt hoàn toàn xử lý đám mây nếu muốn bảo vệ dữ liệu trên thiết bị. Khi chế độ cloud được bật, ứng dụng sử dụng các mô hình Gemini để tối ưu hóa văn bản tốt hơn, đồng thời vẫn cân bằng giữa hiệu năng xử lý và quyền riêng tư người dùng.

Tùy chọn cân bằng giữa xử lý cục bộ và đám mây trong cài đặt ứng dụng
Ngoài việc chọn lựa nơi xử lý dữ liệu, Google AI Edge Eloquent còn hỗ trợ tính năng nhập từ khóa, tên riêng hoặc thuật ngữ chuyên ngành từ Gmail nếu người dùng cho phép. Cách này giúp ứng dụng nhận dạng tên người, công ty, hoặc các thuật ngữ đặc biệt chính xác hơn. Người dùng cũng có thể thêm từ vựng riêng vào từ điển của ứng dụng, cải thiện độ chính xác khi ghi âm những công việc chuyên sâu hoặc lĩnh vực niche.
Theo dõi hiệu suất và quản lý lịch sử ghi âm
Google AI Edge Eloquent lưu lại lịch sử từng phiên ghi âm và hỗ trợ tìm kiếm nhanh. Người dùng có thể xem lại nội dung gần nhất, theo dõi tốc độ nói theo số từ mỗi phút và xem tổng số từ đã ghi trong một phiên làm việc.

Bảng điều khiển hiển thị lịch sử phiên, tốc độ nói, và thống kê từ vựng ghi lại
Các chỉ số này có ích cho những người muốn cải thiện kỹ năng ghi chép bằng giọng nói hoặc theo dõi năng suất soạn thảo. Một số người có thể sử dụng ứng dụng để ghi chép ghi chú bài giảng, phỏng vấn, hoặc brainstorming session, và việc có thể xem lại đúng những gì đã nói giúp họ không bỏ sót thông tin quan trọng. Tính năng lịch sử cũng cho phép tìm kiếm nhanh một câu hoặc một ý nào đó mà người dùng nhớ đã ghi lại trước đó.
Tập trung vào chất lượng đầu ra thay vì ghi nguyên bản
Google AI Edge Eloquent được thiết kế với một triết lý khác biệt so với các ứng dụng chuyển giọng nói thành văn bản khác. Thay vì ghi lại đầy đủ mọi lỗi ngập ngừng, câu nói khập khễ hay các từ chào hàng vô nghĩa, hệ thống sử dụng AI để nắm bắt ý chính, loại bỏ phần dư và chỉnh sửa ngay trong quá trình xử lý.
Điều này có nghĩa là bạn sẽ nhận được văn bản sẵn sàng sử dụng ngay khi kết thúc phiên ghi âm, thay vì phải dành thời gian sửa lỗi sau. Ứng dụng hiểu ngữ cảnh và có khả năng diễn giải lại những gì người dùng muốn nói, chứ không chỉ chuyển đổi từ ngữ một cách cơ học. Đây là bước tiến lớn trong công nghệ chuyển giọng nói thành văn bản, vì nó loại bỏ khoảng cách giữa những gì bạn nói và những gì bạn muốn viết.
Kế hoạch mở rộng nền tảng Android sắp tới
Hiện tại, Google AI Edge Eloquent chỉ khả dụng trên iOS, nhưng Google đã công bố kế hoạch mở rộng sang nền tảng Android. Trên Android, Eloquent dự kiến được đặt làm ứng dụng bàn phím mặc định trên toàn hệ thống, cho phép người dùng sử dụng chức năng ghi âm trên bất kỳ ứng dụng nhắn tin, soạn thảo hay email nào.

Concept Android keyboard integration với nút nổi ghi âm nhanh
Ngoài ra, phiên bản Android sẽ hỗ trợ nút nổi giúp người dùng truy cập nhanh tính năng ghi âm mà không cần mở ứng dụng. Điều này sẽ làm cho trải nghiệm ghi chép bằng giọng nói trở nên liền mạch hơn, vì bạn có thể bắt đầu ghi âm chỉ với một cú chạm từ bất kỳ màn hình nào. Sự tích hợp sâu vào hệ điều hành sẽ là một bước tiếp theo tự nhiên trong quá trình phát triển của ứng dụng.
Câu hỏi thường gặp
Google AI Edge Eloquent có cần kết nối Internet để hoạt động không?
Không, ứng dụng hoạt động hoàn toàn offline sau khi tải các mô hình Gemma. Toàn bộ xử lý giọng nói thành văn bản diễn ra trên thiết bị của bạn, không cần gửi dữ liệu đến server bên ngoài trừ khi bạn chủ động bật chế độ cloud.
Ứng dụng này có khả dụng trên Android chưa?
Hiện tại chỉ có phiên bản iOS. Google đã công bố kế hoạch mở rộng sang Android, sẽ hỗ trợ tích hợp bàn phím mặc định và nút nổi truy cập nhanh, nhưng chưa có lịch trình cụ thể.
Tôi có thể tùy chỉnh từ vựng để nhận dạng chính xác hơn không?
Có, bạn có thể thêm từ vựng riêng vào ứng dụng và cho phép nó truy cập từ khóa từ Gmail để cải thiện độ chính xác nhận dạng các tên riêng, thuật ngữ chuyên ngành.
Chẩn lượng văn bản đầu ra so với ứng dụng ghi âm thông thường như thế nào?
Google AI Edge Eloquent tập trung vào chất lượng thay vì ghi nguyên bản. Nó tự động loại bỏ từ đệm, chỉnh sửa ngữ pháp và nắm bắt ý chính, cho bạn văn bản sẵn sàng sử dụng ngay, thay vì chỉ ghi lại đầy đủ những gì được nói.
Dữ liệu ghi âm của tôi được lưu trữ ở đâu?
Mặc định, tất cả dữ liệu được lưu trữ trên thiết bị của bạn. Nếu bạn bật chế độ cloud, ứng dụng sẽ gửi dữ liệu đến Google's servers, nhưng bạn có toàn quyền tắt tính năng này trong cài đặt.
Khám Phá
iPhone 17 Pro Max chính thức được NASA chứng thực: Công cụ chuyên dụng cho sứ mệnh vũ trụ Artemis II
Bài viết liên quan
Công nghệ AI trên camera, công nghệ chụp hình hiện đại nhất hiện nay.
Công nghệ AI là ứng dụng chụp ảnh thông minh hiện đang rất phổ biến trên camera của các dòng smartphone ngày nay. Vậy công nghệ AI trên camera là gì? Nó có những ưu...
Truy cập AI trên laptop ASUS: Tính năng nổi bật và khi nào nên nâng cấp
Khám phá laptop ASUS AI với NPU chuyên biệt, phân tích các dòng VivoBook S 15, Zenbook DUO và Zenbook 14 OLED cùng tiêu chí chọn mua phù hợp nhu cầu.
Trải nghiệm nhân viên thông minh với AI trong thời đại 5.0
Trong thời đại công nghệ số, trí tuệ nhân tạo (AI) đã trở thành một yếu tố quan trọng giúp các doanh nghiệp nâng cao hiệu suất làm việc và cải thiện trải nghiệm nhân...
Các phần mềm chỉnh thon gọn đỉnh nhất phải thử
Ở thời đại công nghệ phát triển hiện nay, khi mà trí tuệ nhân tạo AI còn được tích hợp vào trong các dòng smartphone. Những tấm tấm hình chụp bị lỗi góc chẳng hạn...
vivo vietnam gia nhập cuộc chiến camera Al như thế nào?
Trong khoa học máy tính, trí tuệ nhân tạo hay AI còn được gọi là trí thông minh nhân tạo máy móc . Trái với trí thông minh tự nhiên được con người thể hiện,...
ConceptD 7 Ezel, cấu hình máy tính đồ họa 3D tốt nhất năm 2021
Sự phát triển của công nghệ, dẫn đến nhu cầu sử dụng máy tính để bàn để làm việc, tìm tòi và học hỏi của người dùng. Đặc biệt, khi mà ngành nghề graphics design...
Hệ thống đào tạo trực tuyến elearning đóng vai trò gì trong việc chuẩn bị cho thế hệ AI-first?
Hệ thống đào tạo trực tuyến elearning không chỉ là xu hướng mà còn là công cụ chiến lược trong thời đại AI-first, nơi công nghệ thay đổi cách chúng ta sống và làm việc....
Làm việc thông minh - chìa khóa thành công trong thời đại mới
Trong thời đại công nghệ phát triển như vũ bão hiện nay, nơi mà trí tuệ nhân tạo và tự động hóa đang dần thay thế con người trong nhiều công việc, làm việc thông...








