Czołem, tu Bogusz

Ostatnie miesiące spędzam w zasadzie w 100% pracując nad Zanfią 2.0.

Zaczęło się od mojego powrotu do programowania, przebudowy modelu danych (ogromna praca włączenie z migracją wszystkich danych), a teraz pracuję już nad całkowicie odświeżoną wersją aplikacji.

I cały czas jestem w szoku, jak wiele fajnych rzeczy można zbudować w dość prosty sposób.

Ale dziś chciałbym się skupić na szansie dla Ciebie, na to, co można budować.

AI-FIRST, VOICE-FIRST

Trzy rzeczy, które najbardziej zmieniły mój sposób pracy, to:

  1. LLMy - modele konwersacyjne, z którymi możesz porozmawiać o wszystkim.

  2. Agenci AI - narzędzia AI oparte o LLMy z dostępem do narzędzi (np. przez CLI / API / MCP).

  3. Interfejsy głosowe - gdzie , zamiast pisać, po prostu mówię.

Pomijając osoby, które zupełnie nigdy nie skorzystały nawet ze słynnego Chata GPT, to większość osób, która cokolwiek robi z AI, jest na poziomie pierwszym, czyli zwykła rozmowa z modelem w oknie przeglądarki.

Swoją drogą, jest wiele osób, które nigdy nie skorzystały nawet z takiej rozmowy z modelem i wręcz robią to celowo. Zwyczajnie tego nie chcą (mam trochę takich znajomych).

Trzy punkty, które wymieniłem, są opcją do implementacji w zasadzie w każdej aplikacji, która istnieje na rynku. Szczególnie B2B.

I bardzo mocno wierzę w to, że taka właśnie będzie bliska przyszłość software'u. (co będzie za 20 lat to nawet nie śmiem sobie wyobrażać).

A jak to wykorzystać?

Istnieją dziś setki tysięcy aplikacji w ogromnej liczbie nisz. Jednak większość z nich zwyczajnie nie dogoni ery AI.

Duzi gracze świata SaaS próbują gonić, ale nie jest to proste do zrobienia w dużej skali.

To otwiera ogromne możliwości dla małych startupów.

Recepta: weź aplikację, która już istnieje, ma klientów i rozwiązuje realny problem, i przerób ją na wersję AI-first, voice-first.

Co przez to rozumiem?

Musisz zbudować dwa filary:

  1. Agenta, który ma dostęp do narzędzi, a tymi narzędziami są funkcje w Twojej aplikacji

  2. Interfejs głosowy, gdzie klient po prostu wchodzi i rozmawia z aplikacją za pomocą mikrofonu.

Agent, który otrzyma dostęp do narzędzi (odpowiednio opisanych), jest z pudełka na tyle mądry, że wie, jak z nich korzystać, które użyć w którym momencie. A jeżeli brakuje mu jakiejś informacji, to po prostu Cię o nie zapyta.

Czyli, jeżeli budowałbym na przykład nową wersję Polisy w Chmurze w taki sposób, to narzędziami mogłyby być:

  • dodaj-polise
  • lista-polis
  • dodaj-klienta
  • ustaw-przypomnienie-o-wygasajacej-polisie

I teraz klient, który wchodzi do aplikacji ze swojego laptopa, klika tylko w ikonkę mikrofonu i zaczyna mówić:

User:
Był u mnie Jan Kowalski i kupił polisę "taką i taką" na rok. Dodaj go do systemu i ustaw przypomnienie o odnowieniu polisy na przyszły rok."

AI:
Jasne, nie ma sprawy. Masz jakieś szczegóły tej polisy i klienta? Może wypełnił formularz?

User:
Tak, wrzucam zdjęcie.

AI:
Dzięki! Dodaje polisę, klienta i ustawiam przypomnienie sms dla niego za rok, że ma odnowić.

Klient powiedział 2 zdania, cały proces zajął 60 sekund.

Mówi sam do siebie: "ale sztos" (czyli wie za co Ci płaci).

Tak według mnie powinny wyglądać interakcje z oprogramowaniem w 2026.

Agent dostarcza dodatkowej abstrakcji, w której Ty używasz zwykłego, potocznego języka, a on pod spodem decyduje, jakie narzędzia i funkcje ma użyć.

Wie, które narzędzia do czego służą, jakich danych potrzebują i co zwracają.

Po prostu przejmuje za Ciebie całe technikalia - jak kiedyś pracownik.

A wisienką na torcie jest interfejs głosowy (opcjonalny), dzięki któremu input jest po prostu pięć razy szybszy, a człowiek jest w stanie dokładnie opisać to, co chce zrobić.

I najlepsze jest to, że dla ludzi to jest po prostu naturalna interakcja.

Masz w głowie, co chcesz zrobić i po prostu to mówisz. Tak działa świat odkąd powstał język!

Nie ma znaczenia, że pod spodem leży zaawansowana technologia, LLMy, agenci z narzędziami, Voice to Text, streaming i tak dalej. Klienta ostatecznie interesuje efekt, który osiągnie.

Jeden problem, jaki widzę z inputem głosowym, to oczywiście praca wielu osób w jednym pomieszczeniu, gdzie często, po pierwsze, nie chcemy przeszkadzać innym, a po drugie, nie chcemy, żeby słyszeli to, co my mówimy.

Tutaj jedynym sposobem, jaki widzę na przyspieszenie inputu, będzie po prostu brain-computer interface, gdzie będziemy bezpośrednio przekazywać nasze myśli do komputera.

Ale to jeszcze trochę.

Natomiast już dziś, w każdej branży, bez większego problemu można zbudować aplikacje na miarę ery AI.

Powodzenia.
Bogusz








Wysłałem do Ciebie tę wiadomość ponieważ zapisałeś się na mój newsletter Startup My Way lub webinar Akademii SaaS. Wszystkie informacje odnośnie przetwarzania Twoich danych znajdziesz w naszej polityce prywatności.