Leandro is available for hire

Leandro Roser

Verified Expert in Engineering

数据科学家和机器学习开发人员

Location

Buenos Aires, Argentina

Toptal Member Since

September 15, 2021

Leandro是一名机器学习工程师和通才数据专家，在数据工程和应用机器学习方面拥有强大的背景. 他使用Docker等技术, TensorFlow, Spark, cloud environments, relational, graph, and vectorial databases, APIs, Python, and Rust stacks. 作为一个多面手，他可以把想法变成可靠的、端到端的产品. Leandro为不同的公司设计、开发和部署了真实世界的数据应用程序.

Data Mining Data Visualization 统计数据分析 Data Engineering Machine Learning Big Data 人工智能(AI)Deep Learning Azure Data Lake Linux R Bash Regex Python Pandas

Portfolio

Le Wagon

Python, Scikit-learn, Pandas, TensorFlow, Docker，数据可视化

Grego-AI

Boto 3，亚马逊网络服务(AWS)， api，机器学习操作(MLOps)...

Toptal Client

GraphDB, Linux，自然语言处理(NLP)， RDBMS，自动化测试...

Experience

Linux - 13 years Python - 7 years 机器学习- 6年 Docker - 6 years 机器学习操作(MLOps) - 5年 APIs - 5 years 亚马逊网络服务(AWS)——4年 Azure - 3 years

Availability

Part-time

Preferred Environment

Linux、Windows、Visual Studio、Slack、Python、Azure、亚马逊网络服务(AWS)、Git

The most amazing...

...我开发的项目是一个基于GPT-3的会话推荐系统.

Work Experience

数据科学指导员(训练营)

2022 - PRESENT

Le Wagon

讲授从入门到更高级主题的数据科学实践课程, 例如ML工程和MLOps任务.
为我的课程生成自定义内容，重点关注实际行业问题.
指导学生通过数据科学工作流程的良好软件工程实践.

技术:Python, Scikit-learn, Pandas, TensorFlow, Docker，数据可视化

MLOps工程师|云架构师

2023 - 2023

Grego-AI

使用LangChain开发了一个基于语义搜索的会话推荐引擎, Python, PostgreSQL, Amazon S3, and GPT-3.5/4.
使用FastAPI、Amazon S3、PostgreSQL和Docker生成后端.
在AWS中为平台开发了第一个架构, configuring VPC, 公共和私有子网, EC2 instances, autoscaling groups, load balancers, S3 buckets, and RDS. 配置安全组和acl.
为已开发的基础设施开发了CI/CD管道. 使用此解决方案自动化了90%的部署过程.
为前端和后端部署了一个容器化的解决方案. 连接前端、后端及其他业务，如Amazon S3、RDS等.
部署前端，配置反向代理(NGINX).
使用Terraform自动化架构的第一个版本.
开发了一个RAG管道来使用定制的基础设施解析自然语言查询. 使用混合专家改进了管道.
开发lambda函数，提供定制的通知系统.

Technologies: Boto 3，亚马逊网络服务(AWS)， api，机器学习操作(MLOps), Machine Learning, Docker, Data Architecture, Python, Bash, Linux, SQLAlchemy, Git, CI/CD Pipelines, NGINX, Amazon EC2, Load Balancers, Autoscaling Groups, Amazon S3 (AWS S3), Amazon RDS, 亚马逊虚拟私有云(VPC), Amazon Elastic Container Registry (ECR), Terraform, Chatbots, Language Models, 大型语言模型(llm), OpenAI GPT-3 API

Graph Data Scientist

2022 - 2022

Toptal Client

使用Spacy等库从文档中开发信息提取管道, regular expressions, 和其他NLP算法.
在最终方法之前测试了几种无监督文档挖掘方法.
将提取的信息整合到图形数据库中. 为数据生成适当的模式.
在解决方案中添加了定制的GSQL查询，并为模式调整了寻路算法.
开发了一个码头化的解决方案，使整个过程自动化.
将CI添加到流程中，以自动构建、测试和提取请求.

Technologies: GraphDB, Linux，自然语言处理(NLP)， RDBMS，自动化测试, Finance, TigerGraph, Docker, CI/CD Pipelines, Language Models, Data Visualization

高级机器学习工程师|电子商务| FT

2022 - 2022

PROFASEE INC

基于AWS SageMaker开发MLOps详细计划, 包括所有架构组件以及与基础架构的其他组件的交互.
开发了一个定制的Shiny应用程序，用于ML建模结果的指标可视化和使用交互式图表监控指标. 该应用程序通过Docker进行容器化，并通过ECS作为内部服务部署.
根据应用程序的选择开发自动Markdown报告.
使用FastAPI生成一个API，用于查询应用程序的数据. 将应用程序与API集成.
开发生产级管道，用于从ML模型的输出生成所需的应用程序输入，并使用AWS S3连接输入和输出. 将管道与API集成.
开发通过FastAPI和PostgreSQL与外部数据源交互的基本代码.
使用SQLAlchemy和适配器生成PostgreSQL模式，用于应用层和外部数据源交互层的Pydantic和SQLAlchemy模型之间的交互.

Technologies: Python, 机器学习操作(MLOps), Machine Learning, Data Engineering, R, Pandas, APIs, REST APIs, 亚马逊网络服务(AWS), ETL, Data Pipelines, Data Visualization

Data Science Engineer

2022 - 2022

BCG

使用FastAPI开发后端, PostgreSQL, 与客户数据交互，并在仪表板上显示信息. 使用Docker Compose将整个应用程序容器化.
翻译数据工程R代码写的数据.table to Python (Pandas), 生成一个能够在不同步骤检查输出一致性的包.
为内部部署数据堆栈生成不同的配置元素, such as Makefiles, unit tests, 和一个输入数据检查包.
写了一个scikit-learn机器学习管道用于数据输入, encoding, 以及异常值检测步骤.

Technologies: APIs, Python, R, PostgreSQL, REST, Pandas, Docker, Docker Compose, Pipelines, REST APIs, ETL, Data Visualization

数据工程师|数据科学家

2021 - 2022

Toptal Client

从头开始开发了三个Neo4j图形数据库. 定义的节点、边和属性. 使用Pandas进行数据准备.
自动生成数据库，并提供docker容器，以便从原始数据创建数据库，并在单个点中包含所有所需的基础设施. Docker容器包括基础设施、Neo4j、数据库和UI.
Docker应用程序中用于执行查询和使用交互式前端可视化知识图的端口. 添加了使用GitHub操作的CI，以确保应用程序的构建没有错误.
执行无监督分析，如node2vec，以了解知识图结构. 生成具有散景效果的交互式图表，以探索结果. 使用JavaScript库提供了知识图的替代可视化.
测试了多种方法，如Louvain算法和使用DBSCAN分析node2vec结果的集群.

Technologies: Python, Neo4j, Docker, 持续集成(CI), Pandas, Unsupervised Learning, Knowledge Graphs, ETL, Julia

Data Science Instructor

2020 - 2022

Digital House

讲授从入门到更高级主题的数据科学实践课程.
为类生成自定义内容，以提高对特定主题的理解.
成功讲授两门课程，学员约40人.

Technologies: Python, Scikit-learn, 自然语言工具包(NLTK), Random Forests, SQL, APIs, Optimization, Applied Mathematics, 自然语言处理(NLP), 生成预训练变压器(GPT), GPT, Statistics, Pipelines, Unsupervised Learning, Supervised Learning, Gradient Boosting, Bootstrap, Ensemble Methods, 统计数据分析, REST APIs, BigQuery, Data Visualization

Data Scientist

2021 - 2021

DataArt

对从移动应用程序的多个部分和外部数据源收集的时间分布指标进行分析.
基于数据湖等组件为移动应用程序生成数据基础设施, BigQuery, Databricks, Spark, 和Azure Synapse Analytics.
使用存储在数据湖和Azure Cosmos DB中的收集信息提供自定义指标.

Technologies: Python, Azure, Databricks, SQL, Google BigQuery, PySpark, Azure Data Factory, Azure Synapse, Azure Data Lake, Data Science, Scikit-learn, Pandas, Dask, Git, 人工智能(AI), 敏捷软件开发, Spark, TensorFlow, Keras, Machine Learning, Azure Cosmos DB, Data Engineering, Data Mining, Deep Learning, Time Series Analysis, Azure DevOps, Forecasting, ETL, Data Pipelines, BigQuery, Apache Spark, Deep Neural Networks, Data Visualization

数据科学家|机器学习工程师

2020 - 2021

Self-employed

使用Neo4j (Cypher)开发图形数据库，并使用Node2Vec生成后续分析和节点嵌入. 从文档中执行实体提取以填充数据库.
在一个机器学习项目中合作，预测食品企业的最佳机会. 使用地理和时间分布特征进行分析.
使用Flask和MongoDB等组件开发一个仪表板.
使用1D cnn对Twitter数据进行情感分析.

Technologies: Python, R, Spark, Spark ML, Neo4j, TensorFlow, Dask, Data Science, GPT, 生成预训练变压器(GPT), 自然语言处理(NLP), 自然语言工具包(NLTK), Scikit-learn, Pandas, SQL, SpaCy, Spatial Analysis, Git, 人工智能(AI), 敏捷软件开发, Gensim, Hugging Face, Keras, Machine Learning, MongoDB, Flask, Data Mining, Image Processing, Deep Learning, Neural Networks, H20, Amazon SageMaker, Amazon EC2, PostgreSQL, REST APIs, 亚马逊网络服务(AWS), Data Pipelines, Language Models, Data Visualization

Data Scientist

2020 - 2020

Intellignos

使用Spark和Spark ML开发基于协同过滤的推荐系统，向数百万用户推荐产品.
开发了一个PySpark管道作为推荐系统解决方案的一部分.
使用Spark为推荐系统生成端到端的数据工程管道.
使用弹性网络回归进行统计分析和数据建模，为项目找到最佳的在线投资机会.
执行机器学习工程任务，例如生成包. 使用MLflow进行模型编排和模型跟踪.

Technologies: Python, R, Azure, Databricks, Spark, Spark ML, Azure Data Factory, Azure Data Lake, Data Science, 大规模分布式系统, Scikit-learn, Pandas, SQL, Spark NLP, Git, 人工智能(AI), 敏捷软件开发, 自然语言处理(NLP), 生成预训练变压器(GPT), GPT, Docker, Machine Learning, Data Engineering, Data Mining, Statistics, 统计数据分析, Deep Learning, Big Data, Recommendation Systems, ETL, Large Data Sets, BigQuery, Apache Spark, 机器学习操作(MLOps), Language Models

数据科学家|机器学习工程师

2019 - 2020

Softtek

开发端到端机器学习项目，用于物联网设备近实时数据的异常检测和时间序列预测, 使用自动编码器和贝叶斯建模.
开发数据工程管道，用于分析plc的数据.
生成从文档中提取实体的工作流.
使用Doc2Vec对文档进行无监督分类.
使用不平衡数据集和XGboost开发了一个用于员工离职预测的机器学习项目.
执行机器学习工程任务, 比如生成包, 使用MLflow进行模型编排和模型跟踪.

技术:Python, R, Azure, Databricks, TensorFlow，贝叶斯推理 & Modeling, Azure Data Factory, Data Science, 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, Spark NLP, 自然语言工具包(NLTK), Scikit-learn, Pandas, SQL, Bayesian Statistics, PyMC3, Dask, Git, 人工智能(AI), 敏捷软件开发, Spark, Docker, Gensim, Keras, Machine Learning, Data Engineering, Data Mining, Statistics, 统计数据分析, Image Processing, Deep Learning, Neural Networks, H20, Internet of Things (IoT), Time Series Analysis, Forecasting, Big Data, ETL, Large Data Sets, Azure Machine Learning, Data Pipelines, Apache Spark, 机器学习操作(MLOps), Language Models, Deep Neural Networks, Data Visualization

Postdoctoral Researcher

2018 - 2019

华盛顿州立大学

为精准医疗开发软件(全基因组测序和转录组学).
为使用Slurm在HPC集群上并行处理的tb级数据集生成Python和R包和管道.
合作撰写研究论文并参加会议.

Technologies: R, Python, Bash, Data Science, 大规模分布式系统, Scikit-learn, Pandas, SQL, C++, Git, Docker, Machine Learning, Data Mining, Slurm Workload Manager, 高性能计算, Big Data, Bioinformatics, Genomics, Biology, Computational Biology, Molecular Biology, Large Data Sets, Data Pipelines, Data Visualization

Postdoctoral Researcher

2016 - 2018

IIB-INTECH UNSAM

用R和Python为精准医疗开发软件(表观基因组学和转录组学).
使用R Shiny生成接口，为包提供无代码的方法，以使软件能够被广泛的用户访问.
合作撰写研究论文并参加会议.

Technologies: R, Python, Bash, Data Science, Scikit-learn, Pandas, Git, Data Mining, Bioinformatics, Genomics, Biology, Computational Biology, Molecular Biology, Data Visualization

Experience

机器学习在时间序列预测和异常检测中的应用

用于项目的预测部分, 开发了贝叶斯模型来解释预测估计的不确定性. 在异常检测的情况下，该模型基于自编码器.

基于协同过滤的推荐系统

该项目的目标是为零售公司的客户提供最佳的产品推荐. 为了便于扩展，使用PySpark、Spark ML和ALS算法开发模型.

预测一个SKU缺货所需的天数

http://github.com/leandroroser/meli_data_challenge_2021

这个项目的目标是预测某种商品的库存需要多长时间才能卖完. 取值范围为1 ~ 30. 使用PySpark对数据进行预处理，并用XGBoost对数据进行建模.

Prettyparser

http://pypi.org/project/prettyparser/

Prettyparser是一个Python库，用于解析PDF/TXT和Python对象, 列表)使用正则表达式. 对于PDF文件，包使用pdfplumber读取内容. 然后，它执行一系列数据操作以生成更高质量的输出, 删除读取/处理/写入具有多个页面的多个文件的内容所需的样板代码. 还允许使用pdfplumber的自定义处理函数来获取页面并返回处理后的文本. 可以通过自定义正则表达式添加额外的数据处理步骤，这些正则表达式被编译以提高速度.

Tensorflow语音识别挑战

http://www.kaggle.com/leangab/tensorflow-speech-recognition-challenge

In this Kaggle notebook, 我开发了一个模型，使用Librosa和TensorFlow对短音频片段进行分类. 这个例子展示了批处理、mfc和conv2d架构的使用. 该模型达到了90%的准确率.

NLP Analysis of the E. A. 爱伦坡的短篇小说集

http://www.kaggle.com/leangab/poe-short-stories-corpus-analysis

在这个Kaggle笔记本中，我使用了E的整个短篇小说语料库进行了分析. A. Poe. 它展示了不同库(如NLTK)的实现, Spacy, Gensim以及word2vec和潜在狄利克雷分配(LDA)等方法.

FastqCleaner

http://github.com/leandroroser/FastqCleaner

一个闪亮的web应用程序，用于转录组学数据的预处理. 该应用程序包含c++代码，用于优化代码的瓶颈部分，并通过JavaScript和CSS自定义应用程序的行为和外观.

出版:http://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2961-8

生态遗传学:景观遗传学的R软件包

http://github.com/cran/EcoGenetics

一个用于遗传和表型数据空间分析的R包. 它包括一些特性，比如广泛的单元测试, 在R中使用OOP的最佳实践(S4类), 以及与R生态系统的整合.

Citation: http://mran.microsoft.com/snapshot/2018-08-31/web/packages/EcoGenetics/citation.html

ChunkR

http://github.com/leandroroser/chunkR

这个包允许在R中读取大块的文本表，使用快速的c++后端. 文本文件可以导入为数据帧(带有自动列类型检测选项)或矩阵. 该程序的设计是简单和用户友好的.

在这个图书馆被开发的时候, R中没有太多资源来解决中型本地数据问题，比如R数据帧被完全分配到内存中, as Pandas does in Python. 最近的Vaex Python库就是使用这种方法的一个很好的例子(但是使用了内存映射和延迟加载). 在存储库的src子文件夹中可以获得与R接口的c++代码.

Publication

Python vs. R: Syntactic Sugar Magic

http://pnqd.ngskmc-eis.net/python/python-vs-r-syntactic-sugar-magic

Skills

Languages

Python, R, Bash, Regex, SQL, c++， c++ 11, JavaScript, CSS, Julia, Rust

Frameworks

Spark, Flask, Bootstrap, Apache Spark

Libraries/APIs

Scikit-learn, Pandas, Keras, XGBoost, REST APIs, PySpark, TensorFlow, Spark ML, SpaCy, 自然语言工具包(NLTK), Dask, PyTorch, SQLAlchemy

Paradigms

敏捷软件开发, Data Science, 高性能计算, 持续集成(CI), ETL, Azure DevOps, REST, Automated Testing

Platforms

Linux、Databricks、Docker、Azure、H20、Amazon EC2、亚马逊网络服务(AWS)、Kubernetes、AWS IoT

Storage

Neo4j, Data Pipelines, PostgreSQL, Azure Cosmos DB, MongoDB, Google Cloud, RDBMS, Elasticsearch, Amazon S3 (AWS S3)

Industry Expertise

Bioinformatics

Other

统计学，机器学习，PyMC3，贝叶斯推理 & Modeling, Spatial Analysis, Azure Data Factory, Azure Data Lake, 人工智能(AI), Time Series Analysis, Data Engineering, Random Forests, Optimization, Applied Mathematics, Pipelines, Unsupervised Learning, Supervised Learning, Gradient Boosting, Data Mining, 统计数据分析, Deep Learning, Slurm Workload Manager, Forecasting, Big Data, Genomics, Biology, Computational Biology, Molecular Biology, Large Data Sets, OpenAI GPT-3 API, Data Visualization, 大规模分布式系统, Bayesian Statistics, Spark NLP, Hugging Face, Google BigQuery, Azure Synapse, 自然语言处理(NLP), Internet of Things (IoT), APIs, Ensemble Methods, Image Processing, Neural Networks, 机器学习操作(MLOps), Recommendation Systems, Geospatial Data, 生成预训练变压器(GPT), Language Models, 大型语言模型(llm), Deep Neural Networks, Knowledge Graphs, GraphDB, Finance, TigerGraph, GPT, Data Architecture, CI/CD Pipelines, Load Balancers, Autoscaling Groups, Amazon RDS, Chatbots

Tools

Gensim, Git, Amazon SageMaker, GIS, Azure Machine Learning, BigQuery, Docker Compose, Boto 3, NGINX, 亚马逊虚拟私有云(VPC), Amazon Elastic Container Registry (ECR), Terraform

Education

2010 - 2015

生物科学博士

布宜诺斯艾利斯大学-布宜诺斯艾利斯，阿根廷

2003 - 2010

生物科学学士和硕士学位

布宜诺斯艾利斯大学-布宜诺斯艾利斯，阿根廷

Certifications

2023年10月- 2026年10月

AWS认证开发人员-助理

亚马逊网络服务培训和认证

DECEMBER 2021 - PRESENT

Julia Programming 2021

Udemy

DECEMBER 2021 - PRESENT

MLOps基础:ML的CI/CD/CT管道与Azure演示

Udemy

FEBRUARY 2021 - PRESENT

谷歌云:使用BigQuery分析数据

Coursera

NOVEMBER 2020 - PRESENT

开始使用Google Kubernetes引擎

Coursera

OCTOBER 2020 - PRESENT

Pytorch的深度神经网络

Coursera

有效的合作

How to Work with Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring