Helpers Calling: Simplifique a Vida com Funções Helper

Published 9 months ago • 2 min read

Olá, Reader!

Bem-vindo(a) de volta à nossa jornada de exploração quantitativa!

Na Edição #2 vimos como acessar um dataset utilizando a função template_dataset(), vimos que essa função tem um argumento layer que define qual camada de dados a ser utilizada, input ou staging, e vimos também que a camada staging é a camada indicada para o acesso aos dados.

Posto isso, para simplificar o acesso aos dados e para trazer um pouco de semântica para a utilização do pacote, foram criados algumas funções helpers para tornar a vida dos usuários menos miserável.

Pra mim é inconveniente acessar diretamente o dataset e me preocupar em definir qual camada de dados deve ser utilizada. Com isso em mente, eu criei algumas funções que entregam de forma mais direta os dados que eu quero obter.

Abaixo está uma tabela que associa alguns templates com suas respectivas funções helper:

Todas as funções helper retornam um objeto Arrow que representa o dataset. Por exemplo, vamos ver o objeto retornado pela função futures_get().

Este objeto pode ser usado com os verbos do dplyr para a realização de operações de filtragem, seleção de colunas, agrupamentos, ordenação e outras mais.
Abaixo temos um código onde se aplica um filtro na coluna commodity para obter apenas os contratos futuros de taxa DI (DI1) e referentes à data 10/10/2025.

Na saída do código fica evidente que o objeto Arrow retornado gerado representa uma query que tem 4 colunas na saída. As colunas de saída são definidas pelo comando select(). A listagem traz ainda uma descrição do filtro aplicado, mostrando como o filtro foi definido utilizando as colunas commodity e refdate. A coluna refdate apresenta uma sintaxe extensa por representar um tipo Date no R (e um tipo date32 no Arrow).

Essa operação ainda não carrega os dados na memória; é um exemplo da lazy evaluation utilizada pelo engine do Arrow.

Para executar essa consulta e obter um dataset com todos preços de ajuste dos contratos futuros de DI1 para a data 10/10/2025 podemos utiliza as funções:

as.data.frame() que é do pacote base do R e retorna um data.frame.
collect() que é do pacote dplyr e retorna um objeto tibble, que é um data.frame com esteróides do mundo tidyverse.

Vamos utilizar a função collect()

Uma vantagem da utilização de objetos tibble é que a visualização destes objetos é mais agradável. Objetos data.frame raiz imprimem todas as linhas na tela, o que pode gerar um scroll infinito.

Ao conectar templates a funções helper, o rb3 entrega um caminho mais direto entre “o que existe” e “o que você precisa analisar”. Em vez de navegar pelas camadas e schemas manualmente, você opera em uma API semântica — futures_get(), cotahist_get(), indexes_*_get() e yc_get() — que já devolve datasets do Arrow preparados para filtros, seleções e joins com o dplyr, explorando lazy evaluation. O resultado prático é código mais enxuto, consultas mais rápidas e um pipeline mais reprodutível.

Os padrões mostrados aqui formam um “contrato” simples e eficiente: filtrar e projetar o mínimo necessário no lado do dataset; e coletar só na borda, quando for realmente preciso materializar resultados. Isso preserva performance, reduz acoplamento com detalhes de ingestão e mantém o foco onde importa: decisão quantitativa.

Na próxima edição, vamos utilizar este dataset de contratos futuros para obter a estrutura a termo de taxas de juros implícitas nos preços de ajuste dos contratos futuros.

A partir daqui você verá como seu data lake local vira um motor de pesquisa financeira: previsível, escalável e pronto para experimentação.

Share this page

Wilson Freitas

Helpers Calling: Simplifique a Vida com Funções Helper

Wilson Freitas