Apple đã chậm hơn một chút trong lĩnh vực AI tổng hợp, trừ một số tính năng nhỏ được thêm vào iOS 17. Điều đó cho thấy, năm 2024 đang hình thành là năm AI lớn của Apple. Mọi con mắt đều đổ dồn vào iOS 18, phiên bản này sẽ được tích hợp nhiều tính năng AI, bao gồm cả Siri được nâng cấp.
Trước bản phát hành đó, các nhà nghiên cứu của Apple, hợp tác với Đại học California, Santa Barbara, đã tiết lộ một mô hình AI nguồn mở có thể hiểu được các hướng dẫn ngôn ngữ tự nhiên. Nói tóm lại, bạn yêu cầu AI làm điều gì đó để thay đổi bức ảnh và nó sẽ làm như vậy.
Trình chỉnh sửa hình ảnh MGIE AI của Apple là gì?
Mô hình AI mới này, có tên là “MGIE” (Chỉnh sửa hình ảnh có hướng dẫn MLLM), nhận các lệnh tiêu chuẩn từ người dùng để đạt được ba mục tiêu chỉnh sửa khác nhau: “Sửa đổi kiểu Photoshop, tối ưu hóa ảnh toàn cầu và chỉnh sửa cục bộ”.
Sửa đổi theo phong cách Photoshop bao gồm các hành động như cắt xén, xoay và thay đổi hình nền; tối ưu hóa ảnh toàn cục bao gồm điều chỉnh các hiệu ứng cho toàn bộ ảnh, bao gồm độ sáng, độ tương phản hoặc độ sắc nét của ảnh; trong khi chỉnh sửa cục bộ ảnh hưởng đến các vùng cụ thể của hình ảnh, chẳng hạn như hình dạng, kích thước và màu sắc.
MGIE chủ yếu được hỗ trợ bởi MLLM (mô hình ngôn ngữ lớn đa phương thức), đây là một loại LLM có khả năng diễn giải hình ảnh và âm thanh ngoài văn bản. Trong trường hợp này, MLLM được sử dụng để nhận lệnh của người dùng và diễn giải chúng theo hướng chỉnh sửa phù hợp. Bài viết nghiên cứu của MGIE giải thích đây là một nhiệm vụ truyền thống khó khăn như thế nào, vì các lệnh của người dùng thường có thể quá mơ hồ để hệ thống có thể hiểu đúng nếu không có ngữ cảnh bổ sung. (Chương trình nghĩ “làm cho chiếc bánh pizza trông khỏe mạnh hơn” nghĩa là gì?) Nhưng các nhà nghiên cứu cho biết các MLLM như MGIE có hiệu quả ở đây.
Dựa trên tài liệu nghiên cứu, MGIE có khả năng thực hiện nhiều kiểu chỉnh sửa hình ảnh khác nhau. Bạn có thể yêu cầu nó thêm tia sét vào hình ảnh của nước và làm cho nước phản chiếu tia sét đó; xóa đối tượng ở nền của hình ảnh, chẳng hạn như một người vô tình ném bom ảnh; biến mọi thứ thành những thứ khác, chẳng hạn như một đĩa bánh rán thành một chiếc bánh pizza; tăng độ tập trung vào chủ thể bị mờ; xóa văn bản khỏi một bức ảnh đẹp, trong số nhiều khả năng khác.
Bạn có thể hiểu được cách thức hoạt động của công nghệ này bằng cách xem qua tài liệu nghiên cứu hoàn chỉnh, trong đó bao gồm các ví dụ về hoạt động của trình soạn thảo; nó có sẵn ở đây.
Tất nhiên, đây không phải là ứng dụng đầu tiên của AI trong chỉnh sửa ảnh. Photoshop hiện đã có rất nhiều công cụ chỉnh sửa AI, bao gồm cả những công cụ được tạo từ lời nhắc của người dùng. Nhưng MGIE có thể là tầm nhìn hiện thực nhất về trình chỉnh sửa hình ảnh AI dựa trên các lệnh.
Cách tự mình dùng thử trình chỉnh sửa hình ảnh MGIE của Apple
Vì mô hình này là nguồn mở nên bất kỳ ai cũng có thể tải xuống và tích hợp nó với các công cụ của riêng họ. Tuy nhiên, nếu bạn giống tôi và không biết bắt đầu từ đâu, bạn có thể thử bản demo này do một trong những nhà nghiên cứu của dự án tổ chức. Bạn có thể tải lên hình ảnh bạn muốn chỉnh sửa, nhập lệnh, sau đó xử lý nó.
Tuy nhiên, tại thời điểm này, bản demo có khá nhiều yêu cầu được sao lưu. Tôi hiện là một trong số 237 người mà tôi tưởng tượng có thể tiếp tục phát triển khi có nhiều người muốn thử mô hình này.
Không rõ liệu Apple có tích hợp MGIE vào nền tảng riêng của mình hay không và bằng cách nào. Nhưng nếu có một năm để công ty làm được điều đó thì chắc chắn sẽ là năm 2024.