Giảm phát và bong bóng - Sự phát triển của AI sau 3 năm

Như mọi người đã biết, vào tháng 3 năm 2023, một triệu token của GPT-4 có giá ba mươi đô la Mỹ đầu vào, sáu mươi đô đầu ra, bằng với một bữa tối tử tế cho hai người ở một quán không quá sang trọng, và sau 3 năm, hôm nay, cũng mức trí tuệ đó chạy dưới một xu. Không phải rẻ hơn vài chục phần trăm, không phải rẻ hơn vài lần, mà hơn vài ngàn lần, chỉ trong vòng ba mươi chín tháng.

Tôi để con số đó nằm đó một lúc, vì nó là cánh cửa vào mọi thứ tôi muốn nói. Trong lịch sử công nghệ chưa có thứ gì rớt giá nhanh như vậy. Không phải bóng bán dẫn thời cách mạng PC, không phải băng thông thời dotcom. Và đây là chỗ làm tôi ngồi nghĩ mãi mấy tháng nay: cái công ty bán món đang rẻ đi nhanh nhất lịch sử đó lại đang lỗ nhiều hơn bao giờ hết. OpenAI năm 2025 đốt khoảng tám tới chín tỷ đô tiền mặt, năm 2026 dự kiến đốt hai mươi bảy tỷ, và theo chính tài liệu nội bộ rò rỉ ra báo chí thì họ không kỳ vọng dương dòng tiền trước năm 2030. Một cái máy in ra trí tuệ giá gần như bằng không, mà bản thân nó thì in ra lỗ.

Hai chuyện đó nghe có vẻ như mâu thuẫn nhau. Thật ra chúng là cùng một câu chuyện, và hiểu được mối liên hệ giữa chúng là hiểu gần hết những gì đáng hiểu về cuộc chơi này. Bài này tôi viết cho những người thích góc nhìn kinh tế hơn là công nghệ, nên tôi cố tình không đi sâu vào AI qua benchmark hay mấy clip demo trên Twitter. Tôi nhìn nó qua tiền: qua dòng tiền, qua capex, qua định giá, qua giá mỗi triệu token, qua hóa đơn điện của một cái data center. Vì cuối cùng, cái quyết định AI có thay đổi công ty của tôi và của bạn hay không, không nằm ở chỗ nó thông minh tới đâu. Nó nằm ở chỗ ai trả tiền cho sự thông minh đó, trả bao nhiêu, và ai là người được cắt cho phần lời. Luận điểm của tôi gói trong một hình ảnh: một cây kéo. Có hai lưỡi đang tách ra ngược chiều nhau. Lưỡi thứ nhất là chi phí để dùng trí tuệ, đang rơi tự do. Lưỡi thứ hai là chi phí để tạo ra trí tuệ ở biên giới, đang phóng lên trời. Toàn bộ rủi ro tài chính của làn sóng AI nằm ở lưỡi thứ hai, còn gần như toàn bộ lợi ích nằm ở lưỡi thứ nhất. Người khôn ngoan không đứng làm cái lưỡi nào cả. Họ ngồi đúng vào chỗ giao nhau, ở ghế người mua, và để hai lưỡi kéo tự cắt cho mình phần ngon.

Lúc mọi thứ nóng lên

Ngày 30 tháng 11 năm 2022, OpenAI thả ChatGPT ra gần như tình cờ, dưới dạng một bản demo nghiên cứu mà chính họ cũng không kỳ vọng nhiều. Năm ngày sau đó nó có một triệu người dùng. Hai tháng sau, một trăm triệu. Cú sốc tăng trưởng khủng nhất trong lịch sử phần mềm tiêu dùng, vượt TikTok và Instagram không phải bằng một cái đầu mà bằng nhiều lần. Tới tháng 2 năm 2026, ChatGPT có chín trăm triệu người dùng mỗi tuần, và tới tháng 5 thì chạm một tỷ người dùng app mỗi tháng. Nhiều hơn dân số Mỹ cộng châu Âu, mở ra mỗi bảy ngày.

Điều đáng nói là công nghệ bên dưới ChatGPT không mới. Mô hình ngôn ngữ lớn đã có từ trước, nó khác với hầu hết mọi người vẫn cho rằng ChatGPT là mô hình AI đầu tiên, GPT-3 ra năm 2020 và gần như không ai ngoài giới kỹ thuật quan tâm. Cái thay đổi cục diện chỉ là một lớp vỏ: giao diện chat, cộng với một kỹ thuật huấn luyện tên RLHF, học từ phản hồi của con người, để biến cái năng lực thô vốn khó xài thành thứ một người bình thường gõ vào là dùng được ngay. Bài học đầu tiên của cả câu chuyện nằm ở đó. Năng lực thô không tạo ra thị trường. Cái tạo ra thị trường là khoảnh khắc năng lực đó trở nên dễ dùng tới mức một người không biết gì cũng thấy nó có ích. Điều đó cho thấy rằng việc tiếp cận là một mắc xích rất quan trọng, công nghệ phải đủ đơn giản thì mới đại chúng được.

GPT-4 ra mắt tháng 3 năm 2023 mới là cái mốc tiền bạc thật sự. Trước nó, AI tạo sinh vẫn còn là thứ để chơi. Sau nó, mọi tập đoàn lớn trên thế giới đều thấy mình buộc phải có một chiến lược AI, dù chưa biết chiến lược đó là gì. Và một khi nỗi sợ bị bỏ lại phía sau đã lan tới phòng họp hội đồng quản trị, tiền bắt đầu chảy, cuộc đua vũ trang bắt đầu. Doanh thu OpenAI minh họa rõ tốc độ này: khoảng mười triệu đô năm 2022, theo Reuters, rồi tới đầu năm 2026 thì doanh thu annualized vượt hai mươi lăm tỷ. Trong hơn ba năm, một công ty đi từ doanh thu bằng một doanh nghiệp cỡ nhỏ thành doanh thu ngang một tập đoàn công nghiệp. Tốc độ đó chưa từng có. Vấn đề, như tôi sẽ chỉ ra, là chi phí của họ tăng còn nhanh hơn cả doanh thu.

Và một khi tiền đã đổ vào ở quy mô như vậy, cuộc chơi thôi còn là chuyện công nghệ. Nó thành chuyện tài chính thuần túy. Và để hiểu tài chính của nó, phải tách bạch hai lưỡi kéo mà gần như mọi người gộp làm một.

Vì sao trí tuệ thông minh lại rẻ đi nhanh đến vô lý?

Lưỡi kéo thứ nhất, lưỡi đi xuống, là chi phí để dùng một mức trí tuệ cố định. Quỹ a16z đặt cho hiện tượng này cái tên LLMflation, và đo được mức giảm khoảng mười lần mỗi năm cho một model có năng lực tương đương. Epoch AI, nhóm chuyên đo lường nghiêm túc nhất ngành, tính kỹ hơn trên nhiều benchmark và thấy con số còn dữ hơn: trung vị khoảng năm mươi lần mỗi năm, có những mốc năng lực mà giá rơi tới chín trăm lần một năm. Cái giá để đạt điểm GPT-4 trên bộ câu hỏi khoa học trình độ tiến sĩ đã rơi khoảng bốn mươi lần mỗi năm. Để dễ hình dung, cái dịch vụ mà ba năm trước tốn năm chục nghìn đô, nếu xu hướng giữ nguyên thì một năm sau còn năm nghìn, hai năm sau còn năm trăm.

Câu hỏi là tại sao? Vì hiểu nguyên nhân thì mới đoán được nó còn rẻ tiếp hay sắp chững. Có ba lực kéo giá xuống, và may cho người mua là cả ba đều chưa có dấu hiệu hết hơi.

Thứ nhất là tiến bộ thuật toán. Người ta liên tục tìm ra cách làm model nhỏ hơn mà giỏi ngang model lớn cũ: chưng cất kiến thức từ model to sang model nhỏ, kiến trúc mixture-of-experts chỉ kích hoạt một phần mạng cho mỗi token, lượng tử hóa để chạy nhẹ hơn. Riêng phần tiến bộ thuật toán này, Epoch ước tính đóng góp khoảng ba lần giảm giá mỗi năm, độc lập với phần cứng. Thứ hai là phần cứng, mỗi thế hệ GPU mới cho nhiều phép tính hơn trên mỗi đồng. Thứ ba, và mạnh nhất, là cạnh tranh. Khi có nhiều hãng cùng làm được một mức năng lực, không ai giữ được giá cao. Đây là chỗ Trung Quốc bước vào, và tôi sẽ quay lại sau, vì họ chính là cái máy ép giá hung hãn nhất trên thị trường.

Sự giảm phát này có thật, có cấu trúc, và nó là tin tốt nhất mà người làm kinh doanh nhận được trong cả câu chuyện. Nó nghĩa là bất cứ thứ gì tôi xây trên AI hôm nay, sang năm sẽ chạy với chi phí bằng một phần mười, mà tôi không phải làm gì cả. Cái pipeline tự động hóa cho năm cái site của tôi, mỗi năm tự rẻ đi một bậc độ lớn. Đó là một thứ giảm phát mà người mua được hưởng miễn phí. Nhưng giảm phát của người mua chính là cơn ác mộng của người bán, và đó là lúc phải nhìn sang lưỡi kéo còn lại.

Vì sao chi phí cho trí tuệ nhân tạo đắt lên tới mức điên rồ?

Lưỡi kéo thứ hai, lưỡi đi lên, là chi phí để tạo ra trí tuệ ở biên giới. Cái này không rơi như giá bán. Nó phóng lên thẳng đứng.

Một lần train một model frontier như GPT-5 hay Claude thế hệ mới tốn đâu đó từ năm mươi triệu tới năm trăm triệu đô, tùy quy mô và giá compute lúc đó. Nhưng tiền train chỉ là phần nổi của tảng băng. Phần chìm là hạ tầng để phục vụ hàng tỷ lượt gọi mỗi ngày. Bốn ông lớn Amazon, Microsoft, Google, Meta chi cho capex khoảng một trăm sáu mươi tỷ đô năm 2023. Năm 2025 con số đó thành gần ba trăm chín mươi tỷ. Guidance cho năm 2026, công bố trong các buổi báo cáo earnings đầu năm, là khoảng sáu trăm ba mươi tới bảy trăm tỷ đô. Riêng Amazon dự chi hai trăm tỷ một mình. Google một trăm bảy lăm tới một trăm tám lăm tỷ. Khoảng ba phần tư số tiền đó, tầm bốn trăm năm mươi tỷ, đổ thẳng vào hạ tầng AI.

Con số này lớn tới mức nó phá vỡ chính mô hình tài chính của các ông lớn. Capex giờ chiếm bốn mươi lăm tới năm mươi bảy phần trăm doanh thu của họ, một tỷ lệ mà trước đây không công ty phần mềm nào dám nghĩ tới. Để tài trợ, năm 2025 các hyperscaler vay nợ một trăm lẻ tám tỷ đô, biến những bảng cân đối kế toán xưa nay sạch tiền mặt thành những bảng có đòn bẩy. Goldman Sachs ước tính tổng capex của bốn ông này từ năm tài chính 2025 tới 2030 sẽ là năm nghìn ba trăm tỷ đô. Năm nghìn tỷ. Đó là con số của ngân sách một quốc gia lớn, không phải của một ngành.

Người hưởng lợi rõ nhất từ cơn mưa tiền này là Nvidia, ông bán cuốc xẻng trong cơn sốt vàng. Doanh thu mảng data center của họ đi từ mười lăm tỷ đô năm tài chính 2023 lên một trăm mười lăm tỷ năm tài chính 2025. Riêng một quý cuối đã là ba mươi lăm tỷ. Mỗi con H100 bán ra tầm ba mươi tới bốn mươi ngàn đô. Cho tới giờ, ông bán cuốc xẻng vẫn giàu hơn gần hết đám đi đào, vẫn nguyên tắc thở xưa, khá buồn cười. Nhưng đây mới là phần điên đầu nhất, và là phần tôi nghĩ quan trọng nhất để đoán tương lai: cái lưỡi kéo đi lên này đang đâm vào một bức tường vật lý, và bức tường đó tên là điện.

Một data center một gigawatt ngốn khoảng tám phẩy bảy tỷ kilowatt-giờ điện mỗi năm, tương đương sản lượng của một lò phản ứng hạt nhân cỡ lớn, hay lượng điện của tám trăm ngàn hộ gia đình sống tại Hoa Kỳ. Cơ quan Năng lượng Quốc tế dự báo tổng lượng điện data center toàn cầu hơn gấp đôi, từ khoảng bốn trăm mười lăm tỷ kilowatt-giờ năm 2024 lên gần chín trăm bốn lăm tỷ năm 2030, với Mỹ và Trung Quốc chiếm gần tám mươi phần trăm phần tăng thêm. Ở Mỹ, tải điện của data center có thể đi từ tám mươi gigawatt năm 2025 lên một trăm năm mươi gigawatt năm 2028, và chiếm tới mười hai phần trăm tổng điện năng cả nước vào 2030, gấp ba lần mức hiện tại. Cái trần không nằm ở chỗ có đủ điện để sản xuất hay không. Nó nằm ở chỗ có đưa được điện tới đúng nơi hay không. Thời gian chờ một cái máy biến áp cao thế trước năm 2020 là hai mươi bốn tới ba mươi tháng, giờ kéo dài tới năm năm. Thiết bị điện chiếm chưa tới mười phần trăm chi phí một data center, nhưng nó là một trăm phần trăm cái nút thắt. Một phân tích của Sightline Climate đếm được mười hai gigawatt công suất data center Mỹ được công bố cho năm 2026 trên một trăm bốn mươi dự án, nhưng chỉ năm gigawatt thực sự đang xây. Mười một gigawatt còn lại nằm im ở giai đoạn “đã công bố”, không nhúc nhích, dù thời gian xây thông thường chỉ mười hai tới mười tám tháng. Nvidia thì vẫn giao chip đều. Cái kẹt là máy biến áp, là tủ điện, là hàng đợi đấu nối vào lưới kéo dài hàng năm trời.

Và cái hóa đơn đó đang đổ một phần lên đầu người dân. Ở những vùng gần các cụm data center lớn tại Virginia, Texas, Georgia, giá điện sinh hoạt đã tăng tám tới mười lăm phần trăm. Các hãng phản ứng bằng cách tự xây nguồn điện riêng, quay sang điện hạt nhân, lò phản ứng module nhỏ, đặt data center ở những nơi dư điện như UAE. Khi một ngành công nghệ phải đi xây lò phản ứng hạt nhân để có đủ điện chạy, bạn biết nó không còn là chuyện của phần mềm nữa.

Giờ ghép hai lưỡi kéo lại để thấy cái thế kẹt. Người tạo ra trí tuệ phải đổ hàng trăm tỷ đô vào train, vào GPU, vào điện, vào máy biến áp chờ năm năm. Cùng lúc, cái giá họ bán trí tuệ rơi mười lần mỗi năm vì cạnh tranh. Biên lợi nhuận gộp của OpenAI quanh ba mươi ba phần trăm, mỏng tới mức chỉ cần đà giảm chi phí inference chững lại một chút là họ kẹt cứng. Họ ở trong cái thế trớ trêu nhất: càng đông khách, càng lỗ nặng, vì mỗi khách dùng nhiều hơn mà giá thì giữ không nổi. Đó là cái máy in tiền lỗ, một lần nữa tôi phải nói lại câu này.

Tiền ở đâu ra, và đây có phải bong bóng không?

Nếu đốt tiền dữ vậy mà vẫn sống, thì tiền ở đâu ra. Câu trả lời là từ những vòng gọi vốn có quy mô đọc như nợ công của một quốc gia nhỏ. OpenAI chốt vòng một trăm hai mươi hai tỷ đô vào tháng 3 năm 2026, định giá tám trăm năm mươi hai tỷ. Anthropic, công ty làm ra Claude, chốt Series H sáu mươi lăm tỷ vào cuối tháng 5 năm 2026 ở định giá chín trăm sáu mươi lăm tỷ, có lúc thành công ty tư nhân giá trị nhất thế giới. Hai công ty này gộp lại đã gọi khoảng ba trăm tỷ đô vốn trong vài năm. xAI của Musk bị SpaceX mua lại trong thương vụ định giá hai trăm năm mươi tỷ, mà ở một thời khác đã là tin lớn nhất năm, ở đây nó chỉ đứng hạng ba và gần như không ai thèm nhớ đến.

Cái làm giới tài chính nghi nhất là cấu trúc dòng tiền vòng tròn. Nvidia cam kết đầu tư tới ba mươi tỷ đô vào OpenAI, mà một phần là Nvidia giao GPU trả chậm rồi chuyển khoản phải thu đó thành cổ phần OpenAI. Nói cho dễ hiểu: Nvidia bán chip cho khách, lấy chính tiền bán chip đó mua cổ phần của khách, để khách có tiền mua thêm chip của mình. Tiền chạy một vòng quay về chỗ cũ, nhưng trên sổ sách thì cả hai bên đều ghi nhận tăng trưởng đẹp. Dự án Stargate, liên doanh OpenAI với Oracle và SoftBank công bố tháng 1 năm 2025, có con số tiêu đề năm trăm tỷ đô để xây mười gigawatt data center trong bốn năm. Cộng dồn các cam kết compute của riêng OpenAI qua Microsoft, Oracle, AWS thì vượt sáu trăm tỷ. FTC, SEC và Ủy ban châu Âu đều đã bắt đầu săm soi cấu trúc các thương vụ kiểu này.

Câu hỏi treo lơ lửng trên tất cả: đây có phải bong bóng không? Tôi không trả lời thay thị trường được, nhưng tôi nghĩ lịch sử đã cho chúng ta một cái khung tốt để có thể suy nghĩ. Thập niên 1840 nước Anh có cơn sốt đường sắt, dân đổ tiền vào cổ phiếu hỏa xa tới mức vỡ, vô số nhà đầu tư mất sạch. Nhưng cái đường ray họ xây thì còn lại, và nó thành xương sống của nền công nghiệp Anh suốt nửa thế kỷ sau. Thời dotcom cũng vậy, các công ty viễn thông chôn hàng triệu cây số cáp quang rồi phá sản hàng loạt năm 2001, nhưng những sợi cáp quang đó vẫn còn nằm dưới đất, và một thập kỷ sau nó gánh cả YouTube, Netflix, cả cái internet mà chúng ta đang sống trong đó. Bài học là bong bóng tài chính và giá trị hạ tầng là hai chuyện khác nhau. Cổ đông có thể mất sạch trong khi cái hạ tầng họ trả tiền xây vẫn phục vụ thế hệ sau. Tôi nghiêng về chỗ ở giữa cho làn sóng AI: định giá có thể đang căng quá mức, nhiều cam kết compute sẽ không thành hiện thực, một số nhà đầu tư sẽ đau đớn lắm, khả năng rất lớn là vậy. Nhưng GPU, data center, đường điện, cái đó sẽ còn lại và sẽ rẻ đi cho người tiêu dùng. Có một chi tiết tôi để mắt: tháng 3 năm 2026, Oracle và OpenAI đã bỏ kế hoạch mở rộng cụm Stargate chủ lực ở Abilene. Đó là lần đầu một phần của cam kết năm trăm tỷ bị thu lại trong thực tế. Khi những con số bắt đầu được điều chỉnh xuống một cách lặng lẽ, đó thường là tín hiệu đáng tin hơn mọi thông cáo báo chí kêu gào bằng đao to búa lớn.

Dù bong bóng hay không, có một điều chắc chắn về mặt cơ học mà người làm kinh doanh như bạn và tôi cần khắc vào đầu: phần lớn rủi ro tài chính của làn sóng này nằm ở người xây AI, không ở người dùng AI. Các lab vay nợ, cột nhau bằng dòng tiền vòng tròn, có thể lỗ tới 2030. Tôi và bạn, ngồi ở phía dùng, chỉ việc hưởng cái giảm phát mười lần mỗi năm mà không gánh một đồng capex nào, không lo một cái máy biến áp nào. Đó là vị trí ngon nhất trong cả cuộc chơi, và phần lớn người ta không nhận ra mình đang được ngồi ở đó, và hầu hết không tận dụng được nó.

Trung Quốc, và sự vô dụng của hầu hết lệnh cấm vận

Cái máy ép giá hung hãn nhất trong cuộc chơi, cái lực thứ ba kéo lưỡi kéo đi xuống nhanh hơn, đến từ một nơi mà Hoa Kỳ tưởng đã chặn được với đủ chiêu cách ly, cấm vận.

Tháng 1 năm 2025, một công ty Trung Quốc tên DeepSeek thả model V3 ra, kèm một bài báo nói họ train nó với chi phí dưới sáu phẩy sáu triệu đô, trên những con chip H800 vốn là bản bị bóp của Nvidia để lách lệnh cấm. Ngày 27 tháng 1, thị trường phản ứng ngay lập tức. Cổ phiếu Nvidia rớt mười bảy phần trăm trong một phiên, thổi bay gần sáu trăm tỷ đô vốn hóa, cú mất giá trong một ngày lớn nhất của bất kỳ công ty nào trong lịch sử Phố Wall. Cả ngành công nghệ Mỹ bốc hơi khoảng một nghìn tỷ trong vài ngày. Điều này thực sự khủng khiếp. Và thì con số sáu phẩy sáu triệu sau đó bị nghi ngờ, đúng ra là phải nghi, vì nó không tính chi phí nghiên cứu, kiến trúc, dữ liệu, và vì DeepSeek dùng kỹ thuật distillation (hay còn gọi là chưng cất model) học lại từ model mở Llama của Meta. Chi phí thật cao hơn nhiều. Nhưng dù là gì đi nữa thì cú sốc thật sự không nằm ở con số có chính xác hay không, sự thật nằm ở chỗ một team nhỏ xíu ở Hàng Châu, dùng chip hạng hai, làm ra thứ gần ngang frontier của Mỹ. Cái niềm tin rằng cứ nhiều tiền và nhiều chip là đủ để dẫn đầu đã bị lung lay trong đúng một phiên giao dịch.

Điều mỉa mai nhất, và là bài học chính trị lớn nhất ở đây, là lệnh cấm vận của Mỹ vốn để kìm hãm Trung Quốc lại đang ép Trung Quốc tự xây một hệ sinh thái phần cứng riêng. Mỹ chặn H100, A100, cả H800 lẫn A800, rồi B200. Bắc Kinh đáp lại bằng cách chặn luôn cả H20, con chip mà Nvidia được phép bán sang Trung Quốc, để buộc doanh nghiệp trong nước dùng hàng nội địa. Bị dồn vào chân tường từ cả hai phía, các công ty Trung Quốc quay sang Huawei. Con Ascend 910C của Huawei đạt khoảng sáu mươi phần trăm hiệu năng H100 cho tác vụ inference, mà inference giờ chiếm tám tới chín mươi phần trăm tải compute của ngành. Con mới hơn, Ascend 950PR, được cho là ngang H200 và mạnh gấp ba lần con H20 mà Mỹ vừa cho phép xuất khẩu một năm trước.

Tháng 4 năm 2026, DeepSeek ra V4 và lần này tối ưu thẳng cho chip Huawei thay vì Nvidia. ByteDance, Tencent, Alibaba lập tức tranh nhau đặt hàng Ascend. Huawei đã có đơn đặt gần tám trăm nghìn con 950PR cho năm 2026, khoảng một phần tư sản lượng GPU data center hàng năm của Nvidia. Doanh thu năm 2025 của Huawei là một trăm hai mươi bảy phẩy tám tỷ đô. Theo một ước tính, lệnh cấm vận đang chuyển khoảng sáu mươi tỷ đô doanh thu từ các hãng AI Mỹ sang các hãng chip Trung Quốc, chủ yếu là Huawei, và Huawei dùng chính số tiền đó để xây một stack AI thuần nội địa, không phụ thuộc vào Mỹ một dòng code. Lệnh cấm, được thiết kế để làm chậm Trung Quốc, đang vô tình tài trợ cho việc Trung Quốc trở nên tự chủ. Đó là cái giá của một chính sách nhìn ngắn hạn, như ta vẫn thường hay thấy, đây là một điểm yếu khá kinh điển của các nước tư bản.

Và ở tầng model, Trung Quốc chọn một nước đi chiến lược khác hẳn Mỹ: họ mở. Qwen của Alibaba đã sinh ra hơn một trăm nghìn model phái sinh trên Hugging Face, hệ sinh thái open-weight lớn nhất nền tảng này, vượt cả Llama của Meta. Qwen có hơn một trăm triệu người dùng hằng tháng, Doubao của ByteDance có một trăm năm mươi lăm triệu người dùng mỗi tuần. Ngay cả các công ty Mỹ cũng bắt đầu xài chúng, Airbnb dùng Qwen cho chatbot vì năng lực tương đương mà rẻ hơn. Tính toán chiến lược ở đây sắc lạnh: thôi đua làm model thông minh nhất, dồn sức làm cái nền rẻ nhất, dễ tiếp cận nhất, để phần lớn thế giới cần tiết kiệm chi phí xây trên đó. Singapore, Indonesia, Malaysia đã có ngân hàng và hệ thống chạy trên DeepSeek, Qwen, Huawei. Mỗi nước còn nghèo lựa chọn build trên stack từ Trung Quốc là một nước khó dứt ra sau này, và đây mới là một chiến lược dài hạn, và tôi không còn câu nào khác hay hơn mà người Việt mình vẫn thường hay nói, đó là “Thâm như Tàu”, đây là một lời khen chứ không phải sự mỉa mai, họ đã làm thực sự tốt.

Với người mua như tôi và bạn, sự trỗi dậy của Trung Quốc không phải mối đe dọa. Nó là cái sàn giá. Mỗi lần DeepSeek hay Qwen ra một model gần frontier với giá bằng một phần mười, các lab Mỹ buộc phải hạ giá theo, dù muốn dù không. Trung Quốc đang ép cái lưỡi kéo giảm phát đi xuống nhanh hơn nữa. Có một nghịch lý cũ tên Jevons giải thích vì sao chuyện này còn làm Nvidia hưởng lợi về dài hạn: khi một thứ rẻ đi, người ta dùng nó nhiều hơn, và tổng tiêu thụ tăng chứ không giảm. Trí tuệ nhân tạo rẻ đi không làm người ta dùng ít nó, nó làm người ta nhét AI vào mọi ngóc ngách. Tin tốt cho cái ví người dùng. Cơn ác mộng chỉ cho những người đang ôm bảy trăm tỷ đô GPU mỗi năm với hy vọng giá giữ được.

Khi nhà nước ngồi vào bàn

Suốt mấy năm, câu chuyện cấm vận chỉ chạy một chiều: Mỹ chặn chip chảy sang Đông. Nhưng cấm vận là con dao hai lưỡi, và năm 2026 cái lưỡi còn lại quay về phía chính nước Mỹ, theo một cách mà tôi nghĩ sẽ định hình cả thập kỷ tới.

Ngày 12 tháng 6 năm 2026, một chiều thứ Sáu, Bộ Thương mại Mỹ gửi cho Dario Amodei, CEO Anthropic, một chỉ thị kiểm soát xuất khẩu khẩn. Nội dung: đình chỉ mọi quyền truy cập vào hai model mới nhất của hãng, Fable 5 và Mythos 5, đối với bất kỳ công dân nước ngoài nào, ở trong hay ngoài lãnh thổ Mỹ, kể cả nhân viên người nước ngoài của chính Anthropic. Vì không thể tuân thủ kiểu chọn lọc khi nhân viên và khách trải khắp thế giới, Anthropic chọn cách tắt thẳng cả hai model cho toàn bộ người dùng. Họ nhận chỉ thị lúc năm giờ hai mươi mốt phút chiều giờ miền Đông, và bức thư không nêu cụ thể mối lo an ninh quốc gia là gì. Các model Claude còn lại không bị ảnh hưởng.

Cái cớ, theo những gì rò rỉ, là do một kỹ thuật jailbreak Fable 5, cụ thể là bảo model đọc một codebase rồi sửa các lỗ hổng phần mềm trong đó. Mythos vốn đặc biệt giỏi tìm lỗ hổng, có những lỗ tồn tại hàng chục năm chưa ai thấy, và chính phủ cùng vài công ty đã dùng nó để vá hệ thống của mình. Mối lo ngại là cái năng lực đó rơi vào tay xấu thì thành vũ khí mạng. Anthropic phản bác thẳng: mấy lỗ hổng đó nhỏ và đã biết từ trước, các model công khai khác kể cả GPT-5.5 cũng tìm ra được, và sau hàng nghìn giờ red-team cùng chính phủ Mỹ lẫn Viện An ninh AI của Anh, chưa ai tìm ra một universal jailbreak nào. Lập luận của họ sắc: nếu lấy chuẩn này áp cho cả ngành thì sẽ không model frontier nào được phép ra mắt nữa.

Tôi thì không quan tâm lắm chuyện bên nào đúng về kỹ thuật bằng cái vấn đề dịch chuyển lớn hơn đằng sau nó. Frontier AI giờ được Washington đối xử như một tài sản an ninh quốc gia, ngang với vũ khí lưỡng dụng. Tạp chí Fortune gọi đúng bản chất cách làm này: một cơ chế cấp phép trá hình, tùy hứng và mờ ám, tức là nhà nước đang nắm quyền kiểm soát trên thực tế đối với việc model nào được sống, model nào phải chết, mà không qua một quy trình luật pháp minh bạch nào, điều khác lạ của các nước phương Tây từ trước đến giờ. Đây không phải lần đầu Anthropic va với chính quyền. Đầu năm nay Bộ Quốc phòng Mỹ đã gán cho họ nhãn “rủi ro chuỗi cung ứng”, cái nhãn xưa nay chỉ dành cho đối thủ nước ngoài, sau khi đàm phán giữa hai bên đổ vỡ, và vụ kiện Anthropic nộp để phản đối vẫn đang treo. Ở chiều ngược lại, từ tháng 9 năm 2025 Anthropic đã tự ngừng bán sản phẩm cho các nhóm do thực thể Trung Quốc, Nga, Iran, Triều Tiên sở hữu đa số.

Ghép tất cả lại thì bức tranh chính trị hiện ra rõ ràng và lạnh nhạt. Một bên, Mỹ chặn chip để Trung Quốc không train được model mạnh. Bên kia, Mỹ chặn luôn cả model mạnh của chính mình để nó không lọt ra ngoài. Trung Quốc đáp lại bằng cách tự xây chip, tự mở model, biến cấm vận thành nhiên liệu cho tự cường. Cái từng là một thị trường công nghệ toàn cầu duy nhất đang bị xé làm hai khối, mỗi khối một stack phần cứng, một họ model, một bộ luật chơi riêng. Đây là chuyện cái công cụ tôi xài hôm nay có thể bị tắt vào một chiều thứ Sáu vì một bức thư từ một bộ ở Washington, và cái model rẻ nhất cho thị trường này có thể là model bị cấm ở thị trường bên cạnh. Rủi ro địa chính trị giờ là một dòng trong bài toán chọn nhà cung cấp, ngang hàng với giá và với chất lượng. Ai xây hệ thống mà chỉ cột vào một model duy nhất, một nhà cung cấp duy nhất, một quốc gia duy nhất, là đang xây trên một nền có thể rung lắc bất cứ lúc nào vì những lý do chẳng dính dáng gì tới công nghệ.

Bảng giá – cùng một công việc, chênh nhau đến sáu trăm lần

Gác lại vấn đề chính trị, quay lại giá cả, để thấy cuộc chiến giá tàn khốc cỡ nào, và để biến toàn bộ phần lý thuyết trên thành quyết định thực tế, phải nhìn vào giá mỗi triệu token. Đây là mức tham khảo giữa năm 2026, giá API tiêu chuẩn, chưa tính batch hay cache. Con số dịch chuyển liên tục nên coi đây như một lát cắt thời điểm, không phải bảng giá đóng đinh.

Khoảng cách giá đầu ra (output) trong bảng này là hơn sáu trăm lần, từ hai mươi tám xu của DeepSeek tới một trăm tám mươi đô của GPT-5.4 Pro. Cùng một việc viết ra một đoạn văn, tùy chọn model mà chi phí lệch nhau ba bậc độ lớn. Đây là lý do câu hỏi đúng không bao giờ là model nào thông minh nhất, mà là model nào đủ tốt cho việc này với giá rẻ nhất. Về thông minh thuần túy thì bảng xếp hạng Intelligence Index của Artificial Analysis giữa năm 2026 để Claude Opus 4.8 đứng đầu nhóm phổ thông, kế đó là GPT-5.5, còn model open-weight mạnh nhất là GLM-5.2 của Trung Quốc. Nhưng khoảng cách giữa model đóng tốt nhất và model mở tốt nhất giờ chỉ còn vài điểm, và nó hẹp lại mỗi quý. Trả giá frontier cho một việc mà model rẻ làm được chín mươi phần trăm chất lượng là một quyết định tài chính tồi.

Có ba cái bẫy chi phí mà tôi thấy nhiều người dính, kể cả người giỏi. Thứ nhất là reasoning token. Mấy model biết suy luận như o3 hay GPT-5 Pro sinh ra một đống token suy nghĩ ẩn, tính tiền theo giá đầu ra, mà người dùng không hề thấy. Một cú gọi có thể đốt năm mươi ngàn token suy nghĩ trước khi nhả ra một đoạn trả lời ngắn. Ở giá sáu mươi đô mỗi triệu token đầu ra, đó là ba đô một câu hỏi, không đáng kể khi test, chết người khi chạy mười nghìn lần một ngày. Thứ hai là quên cap max output token và quên dùng batch, mà batch API của cả OpenAI lẫn Anthropic giảm thẳng năm mươi phần trăm. Thứ ba là bỏ qua prompt caching. Với Claude Sonnet, nếu tỷ lệ cache hit trên sáu mươi phần trăm thì giá đầu vào hiệu dụng rớt còn ba mươi xu mỗi triệu token, rẻ hơn cả phần lớn model mở.

Lời khuyên của tôi cho bất cứ ai xây sản phẩm trên LLM, tất nhiên là chỉ dành cho ai là người mới: đặt một model router rẻ ở phía trước, phân loại độ khó của yêu cầu, đẩy bảy mươi phần trăm việc đơn giản xuống model giá một xu, chỉ leo lên frontier cho mười tới hai mươi phần trăm việc thật sự cần. Cách này cắt sáu mươi tới tám mươi phần trăm hóa đơn mà chất lượng gần như không đổi. Trung thành với một lab duy nhất là một sai lầm tài chính trong một thị trường mà giá rơi mười lần mỗi năm và một model có thể bị tắt vào chiều thứ Sáu.

Cái bẫy của năng suất, và chỗ AI thật sự tạo ra tiền

Đây là phần dễ làm người ta khó hiểu nhất, nên tôi nói đơn giản. Phần lớn doanh nghiệp đổ tiền vào AI đang không thu lại được gì đong đếm được.

Tháng 7 năm 2025, một nghiên cứu của MIT, dự án NANDA, công bố một con số làm cả ngành im lặng. Khảo sát hơn ba trăm vụ triển khai AI tạo sinh ở doanh nghiệp, họ thấy chín mươi lăm phần trăm không tạo ra tác động đo được nào lên lợi nhuận. Chín mươi lăm. Trong khi tổng chi của doanh nghiệp cho AI tạo sinh đã là ba mươi tới bốn mươi tỷ đô. Chỉ năm phần trăm rút ra được giá trị thật. Họ gọi hiện tượng này là GenAI Divide, sự chia rẽ giữa số ít làm được và số đông mắc kẹt. Tới năm 2025 đã có bốn mươi hai phần trăm công ty bỏ dở phần lớn sáng kiến AI, tăng vọt từ mười bảy phần trăm năm 2024. Cái đáng giá nhất trong nghiên cứu đó là chẩn đoán nguyên nhân. Vấn đề ở tổ chức, ở chỗ MIT gọi là learning gap, sự bất lực trong việc nhét AI vào đúng quy trình, đúng cấu trúc, đúng văn hóa làm việc. “Deploy một model” và “tạo ra giá trị kinh doanh từ một model” bị tưởng là cùng một việc, mà chúng cách nhau xa lắm. Có thêm hai phát hiện đáng tiền. Một, tiền đang đổ sai chỗ: hơn một nửa ngân sách AI dồn vào công cụ sales và marketing, trong khi ROI cao nhất lại nằm ở tự động hóa back-office, cắt chi phí thuê ngoài, dọn quy trình. Hai, cách triển khai quyết định thành bại: mua từ nhà cung cấp chuyên và làm đối tác thì thành công khoảng sáu mươi bảy phần trăm số lần, còn tự xây trong nhà chỉ thành công bằng một phần ba con số đó.

Với một đội nhỏ như tôi, mấy con số này không làm tôi nản, nó làm tôi tỉnh ngộ. Cái đòn bẩy thật sự của AI cho một công ty hai người không nằm ở chỗ nó viết hay hơn người. Nó nằm ở chỗ nó làm được những việc dài, lặp, ngốn thời gian mà trước đây buộc phải thuê thêm người. Theo đo lường của METR, độ dài công việc mà model tự hoàn thành với độ tin cậy năm mươi phần trăm đã đi từ vài phút thời GPT-4 lên tầm mười hai giờ với model frontier đầu năm 2026, và nhịp tăng đang rút ngắn. Với tôi đó là khả năng giao cho một con agent việc rà đơn hàng, dựng báo cáo, viết bản nháp listing, dọn dữ liệu trong cái Airtable mấy ngàn dòng của tôi, những thứ trước đây ngốn nửa ngày của một con người mệt mỏi. Lợi ích không phải sa thải ai. Lợi ích là không phải tuyển thêm người để làm những việc mà một cái máy giá một xu mỗi triệu token làm xong.

Nhưng có một cái bẫy chi phí mà MIT không nhấn nhưng tôi thấy rõ trong hóa đơn của mình. Đơn giá token ngày càng thấp, nhưng tổng tiền cho AI của doanh nghiệp lại tăng. Lý do là kiến trúc agentic. Một chatbot thường gọi model một lần cho một câu hỏi. Một quy trình agentic, nơi AI tự chia nhỏ việc, gọi công cụ, kiểm tra kết quả, tự sửa, có thể gọi model mười tới hai mươi lần cho một tác vụ. Đó là vì sao có công ty xài AI lời, có công ty xài AI lỗ, dù trả cùng một giá token. Cái quyết định ở đây không phải giá, mà là bạn có biết mình đang để con agent gọi model bao nhiêu lần cho mỗi đồng giá trị nó tạo ra hay không. Và đây là phần tôi nghĩ khá là hay ho, vì nó khác với cái hype của mọi người: AI thay thế công sức, không thay thế phán đoán. Nó dở nhất đúng ở những việc lộn xộn, thiếu cấu trúc, mà phần lớn việc thật của một doanh nghiệp lại lộn xộn. Benchmark đo coding đẹp như mơ, nhưng coding là thứ các lab dồn sức tối ưu nhất, và việc của bạn không phải coding. Việc của bạn là biết khi nào tin con agent, khi nào đọc lại bằng mắt mình, khi nào cái bản nháp nó viết ra là vàng và khi nào là rác được trình bày đẹp. Một công ty thắng trong giai đoạn này không phải công ty xài AI nhiều nhất, mà phải là một công ty biết chính xác chỗ nào AI tạo ra giá trị và chỗ nào nó chỉ tạo ra ảo giác năng suất, cái mà tôi gọi là diễn năng suất, làm ra một đống output trông bận rộn mà không dịch chuyển một đồng nào trên P&L.

Vì sao Claude lại thành công cụ hiệu quả như bây giờ

Trong cái rừng model đó, đáng dừng lại hỏi vì sao một công cụ cụ thể lại hiệu quả, vì câu trả lời nói nhiều về cách trích giá trị hơn bất kỳ bảng benchmark nào. Tôi lấy Claude làm ví dụ vì tôi xài nó hằng ngày, và vì câu chuyện vì sao nó lại hiệu quả là một bài học về kỷ luật, đúng cái kỷ luật mà người mua cần.

Anthropic ra đời năm 2021, do bảy người rời OpenAI lập ra, đứng đầu là hai anh em Dario và Daniela Amodei. Họ đi vì một bất đồng về cách làm AI cho an toàn. Cái bất đồng đó, hóa ra, lại là nền móng cho gần như mọi thứ khiến Claude khác biệt về sau, và nó là ví dụ đẹp cho chuyện một lựa chọn nhìn như đạo đức lại trở thành lợi thế kinh doanh.

Nguyên nhân thứ nhất nằm ở cách Claude được dạy. Thay vì chỉ nhồi cho model hàng triệu ví dụ về câu trả lời đúng, Anthropic dạy nó bằng một bản hiến pháp, một văn bản mô tả các nguyên tắc và cả lý do đằng sau từng nguyên tắc. Cách này gọi là Constitutional AI. Bản hiến pháp đầu năm 2023 dài hai ngàn bảy trăm chữ, bản 2026 đã thành hai mươi ba ngàn chữ. Nghe trừu tượng, nhưng kết quả rất cụ thể: research của chính Anthropic cho thấy dạy model hiểu tại sao một hành động tốt hơn hành động khác thì hiệu quả hơn nhiều so với chỉ cho nó xem hành động đúng, có trường hợp đạt cùng kết quả với lượng dữ liệu ít hơn gần ba mươi lần. Một model hiểu nguyên tắc thì xử lý được tình huống lạ chưa từng gặp lúc train. Đó là gốc rễ của cái cảm giác Claude biết điều hơn khi gặp một yêu cầu mơ hồ, thay vì làm máy móc đến vô duyên.

Nguyên nhân thứ hai là cái ban đầu nhiều người tưởng là điểm yếu: sự thận trọng. Claude được thiết kế an toàn trước, và ở thị trường tiêu dùng thì điều đó từng bị chê là nhạt, hay từ chối. Nhưng với doanh nghiệp lớn, nhất là ngành bị quản chặt như ngân hàng, dược, kiểm toán, cái thận trọng đó đúng là thứ họ cần để dám đặt AI vào quy trình thật. Deloitte triển khai Claude cho hơn bốn trăm bảy mươi ngàn nhân viên. Tata Consultancy đưa Claude tới năm mươi ngàn người ở năm mươi sáu nước. Tám mươi phần trăm doanh thu Anthropic đến từ doanh nghiệp, loại doanh thu dính chặt và ít rời bỏ. Cái mà thị trường tiêu dùng coi là nhược điểm lại hóa thành cái hào sâu kinh tế ở thị trường doanh nghiệp. Và nhớ lại phát hiện của MIT, rằng ROI nằm ở chỗ tích hợp được vào quy trình bị quản chặt, thì sẽ thấy vì sao một model dám tin được lại thắng một model chỉ ghi điểm cao trên benchmark.

Nguyên nhân thứ ba, và theo tôi là then chốt cho chữ công cụ, là Claude Code. Ra mắt dạng preview rồi chính thức vào tháng 5 năm 2025, nó biến Claude từ con chatbot trả lời câu hỏi thành một con agent tự làm việc trong terminal: đọc cả codebase, sửa file, chạy lệnh. Doanh thu Claude Code tăng năm phẩy năm lần chỉ trong vài tháng. Tới mùa đông 2025 sang 2026 nó viral, kể cả với người không biết lập trình, cái cộng đồng gọi là vibe coding. Theo một thống kê, nó chiếm tới bốn mươi mốt phần trăm thị phần công cụ loại này và hơn hai tỷ rưỡi đô doanh thu trong chưa đầy một năm. Khoảnh khắc một công cụ AI đi từ gợi ý từng dòng sang viết chín mươi tới một trăm phần trăm code, và doanh nghiệp ship trong vài tuần thứ trước mất nhiều quý làm việc, đó là lúc nó thôi là món đồ chơi và thành công cụ thật sự.

Nguyên nhân thứ tư là MCP, Model Context Protocol. Anthropic phát minh ra nó, mở mã nguồn vào cuối năm 2024, rồi tháng 12 năm 2025 hiến nó cho Linux Foundation để không công ty nào độc quyền được giao thức. Giờ nó là tiêu chuẩn của ngành, gần trăm triệu lượt tải SDK mỗi tháng, mọi nền tảng AI lớn đều xài. MCP là cái dây thần kinh nối model với phần còn lại của thế giới: Slack, Google Drive, CRM, hệ thống tài chính, cái Airtable đèn pin của tôi, cả cái Craft chứa một đống ghi chép hỗn độn. Một model giỏi tới đâu mà không chạm được dữ liệu thật của bạn thì vẫn chỉ là bộ não trong lọ. MCP là thứ cho nó tay chân để với ra ngoài, và vì giao thức sinh ra ở Anthropic nên Claude tích hợp nó sâu nhất.

Nguyên nhân cuối là tiền, hay đúng hơn là kỷ luật về tiền. Anthropic train model tốn ít hơn OpenAI nhiều lần cho cùng một mức năng lực, một phần nhờ các quyết định kiến trúc, một phần nhờ thỏa thuận dùng tới một triệu con TPU của Google thay vì phụ thuộc hoàn toàn vào GPU Nvidia đắt đỏ. Kỷ luật compute đó cho phép họ vừa để giá Opus rớt còn một nửa so với năm trước, vừa nhắm dương dòng tiền vào năm 2027, sớm hơn đối thủ ba năm. Một công ty càng hiệu quả trên mỗi đồng compute thì càng có dư địa vừa hạ giá vừa cải tiến. Đó là một vòng lặp tự củng cố, và nó là lý do sâu xa nhất khiến Claude vừa giỏi lên vừa rẻ đi cùng lúc.

Gom lại, Claude hiệu quả không nhờ một cú đột phá đơn lẻ. Nó là tích của năm thứ chồng lên nhau: một cách dạy model hiểu nguyên tắc, một sự thận trọng hóa thành niềm tin của doanh nghiệp, một công cụ coding thay đổi cách người ta viết phần mềm, một giao thức biến model thành thứ có tay chân, và một kỷ luật tài chính cho phép nó vừa rẻ đi vừa giỏi lên. Để ý kỹ thì cả năm cái đều là biến thể của một đức tính: kỷ luật. Và đó cũng đúng là đức tính mà người mua cần. Với một người vận hành doanh nghiệp như tôi, hệ quả thực tế gói vào vài việc: đẩy việc khó và việc dài vào Claude Code, nối nó vào dữ liệu thật của mình qua MCP, viết sẵn skill để nó hiểu cách mình làm, để dành Opus cho việc thật sự cần đầu và route phần còn lại xuống model rẻ. Cái công cụ chỉ mạnh bằng đúng phần ngữ cảnh và kỷ luật mà bạn chịu khó đưa cho nó.

Tóm lại

Quay lại con số ở đầu bài. Một triệu token GPT-4 từng tốn bằng một bữa tối, giờ tốn chưa bằng một viên kẹo sing gôm. Trong cùng ba năm đó, các công ty làm ra nó đi từ doanh thu mười triệu lên định giá gần một ngàn tỷ Đô la, mà phần lớn vẫn chưa biết bao giờ có lời, và đang phải đi xây lò phản ứng hạt nhân để có đủ điện. Một bên là thứ rẻ đi nhanh nhất lịch sử công nghệ. Một bên là canh bạc hạ tầng đắt nhất lịch sử công nghệ. Chúng là cùng một cây kéo, và hai lưỡi đang mở rộng ra mỗi quý.

Người ngồi giữa hai lưỡi kéo đó được cắt cho phần ngon nhất, và đó không phải các lab đốt tiền hay Nvidia bán cuốc xẻng, mà là người làm kinh doanh biết mua đúng món với giá đúng, biết AI tạo giá trị ở back-office chứ không ở mấy cái slide marketing hay những báo cáo đơn giản, biết khi nào tin con agent và khi nào đọc lại bằng mắt mình. Câu hỏi tôi để lại không phải AI có thay đổi doanh nghiệp hay không. Nó đã và đang thay đổi rồi, mỗi ngày, trong cái hóa đơn token của tôi. Câu hỏi là ba năm nữa, khi giá lại rơi thêm một ngàn lần, năng lực lại nhân lên vài chục lần, lưới điện đã chạm trần và cái bản đồ công nghệ đã vỡ làm hai khối với hai bộ luật chơi, ai sẽ là người còn đứng vững trên cái sàn mà Trung Quốc đang ép xuống, ai sẽ là người ôm bảy trăm tỷ đô GPU đã lỗi thời, và ai sẽ là người sáng thứ Hai mở máy lên thì thấy công cụ mình đang dựa cả công ty vào đó đã bị một bức thư từ Washington tắt mất từ hồi chiều thứ Sáu.

Các nguồn bài viết đã tham khảo:

Welcome to LLMflation — a16z, Guido Appenzeller; nguồn cho con số giá inference giảm ≈10 lần mỗi năm.
Epoch AI — research về giá/hiệu năng và algorithmic efficiency của LLM — trung vị giảm ≈50 lần/năm, biên 9–900 lần; phần thuật toán đóng góp ≈3 lần/năm.
Reuters — tường thuật tài chính OpenAI — doanh thu ≈10 triệu đô (2022) lên annualized ≈25 tỷ (đầu 2026).
The Information — báo cáo dòng tiền OpenAI — đốt ≈8–9 tỷ (2025), ≈27 tỷ (2026), chưa dương dòng tiền trước 2030; biên gộp ≈33%.
Earnings reports: Amazon, Microsoft, Google, Meta (2023–2026) — capex hợp nhất từ ≈160 tỷ (2023) lên guidance ≈630–700 tỷ (2026); ≈75% cho hạ tầng AI.
Gen AI: Too Much Spend, Too Little Benefit? — Goldman Sachs; kèm ước tính ≈5.300 tỷ đô capex lũy kế 2025–2030.
Nvidia — financial reports (FY23–FY25) — doanh thu data center từ 15 tỷ lên 115 tỷ; cú rớt 17% ngày 27/1/2025.
Energy and AI — IEA, 2025; điện data center toàn cầu ≈415 TWh (2024) lên ≈945 TWh (2030); Mỹ + Trung Quốc ≈80% phần tăng.
Sightline Climate (CTVC) — phân tích buildout data center và nút thắt lưới điện — 12 GW công bố cho 2026 nhưng chỉ 5 GW đang xây; máy biến áp chờ tới 5 năm.
DeepSeek-V3 Technical Report — tuyên bố chi phí train dưới 6,6 triệu đô trên chip H800; con số đang bị tranh luận.
Reuters / SCMP — tường thuật Huawei Ascend và bán dẫn Trung Quốc — 910C ≈60% H100 (inference); 950PR ≈H200; doanh thu Huawei 2025 ≈127,8 tỷ đô.
Hugging Face / Alibaba — hệ sinh thái Qwen — hơn 100.000 model phái sinh, vượt Llama; trên 100 triệu người dùng/tháng.
Artificial Analysis — Intelligence Index và bảng giá model — xếp hạng năng lực và giá API dùng cho biểu đồ chênh 640 lần.
The GenAI Divide: State of AI in Business 2025 — MIT Project NANDA; 95% pilot GenAI doanh nghiệp không tạo P&L đo được; nguyên nhân là tổ chức, không phải công nghệ; mua thắng tự xây.
Stargate project announcement — OpenAI / Oracle / SoftBank, 1/2025; 500 tỷ đô, 10 GW, 4 năm; cụm Abilene bị thu hẹp tháng 3/2026.
Constitutional AI: Harmlessness from AI Feedback — Anthropic; nền tảng cách huấn luyện theo hiến pháp; hiến pháp mở rộng từ ≈2.700 lên ≈23.000 chữ.
Anthropic — Series H announcement và Claude Code / Model Context Protocol — định giá ≈965 tỷ (5/2026); MCP hiến cho Linux Foundation (12/2025).
Fortune — bình luận về export-control directive cho Fable 5 / Mythos 5 (6/2026) — gọi đây là cơ chế cấp phép trá hình, nhà nước kiểm soát frontier AI trên thực tế.
U.S. Department of Commerce directive & phản hồi của Anthropic (12/6/2026)

Giảm phát và bong bóng – Sự phát triển của AI sau 3 năm