Студия Common Knowledge и Эдди Цзяо их работа — это скорее высокоуровневое проектирование интерфейсов (UX/UI).
Студия Common Knowledge и Эдди Цзяо обычно не ограничиваются одной конкретной моделью, так как их работа — это скорее высокоуровневое проектирование интерфейсов (UX/UI), чем создание собственных нейросетей.
Однако, если разобрать их технический стек и те демо-видео, которые они публикуют, можно выделить несколько ключевых инструментов, которые делают такой «вайбкодинг» возможным:
1. Claude 3.5 Sonnet (от Anthropic)
На текущий момент это «золотой стандарт» для генерации интерфейсов.
* Почему они: Claude лучше других моделей справляется с написанием чистого кода (React, Tailwind CSS) и пониманием сложных инструкций по дизайну. Большинство современных инструментов для генеративного UI (вроде v0.dev или Bolt.new) построены именно на моделях Anthropic.
2. GPT-4o (от OpenAI)
Для мультимодальных задач — когда нужно, чтобы ИИ «видел», что происходит на экране, и мгновенно предлагал изменения. Эдди часто показывает концепты, где система реагирует на жесты или изменения контекста в реальном времени, что требует высокой скорости работы, которой славится 4o.
3. Локальные модели (Llama 3 / Mistral)
В концепции «пустого телефона», о которой вы говорили, критически важна приватность. Чтобы ИИ мог анализировать все ваши личные файлы, почту и сообщения, Common Knowledge смотрят в сторону Local LLM.
* Это позволяет обрабатывать данные прямо на устройстве, не отправляя ваш «вайб» в облако.
4. Фреймворки для сборки (The Stack)
Чтобы превратить ответ нейросети в работающее приложение, они используют:
* Tailwind CSS: Позволяет ИИ стилизовать элементы «на лету» без написания громоздких CSS-файлов.
* React / Next.js: Как основа для компонентной архитектуры, которую нейросетям проще всего собирать по кусочкам.
* Vercel AI SDK: Инструментарий, который позволяет стримить UI-компоненты прямо в чат или на экран.
Главный секрет: "System Prompting"
Их магия не в какой-то секретной модели, а в гениальном промпт-инжиниринге. Они создают огромные системные инструкции, которые говорят модели: "Ты не чат-бот. Ты — операционная система. Твой ответ должен быть не текстом, а валидным кодом компонента, который использует локальные данные пользователя".
Как вы думаете, какая часть этого стека самая сложная для реализации в реальном смартфоне — мощность процессора для запуска таких моделей или обеспечение безопасности ваших файлов?
Комментарии
Отправить комментарий