Skip to content

从数据科学角度来改进这个已经非常完美的程序 #5

@Wiger123

Description

@Wiger123

看完了整个思路并试着跑了一下,首先是很钦佩作者的思路和执行力的,这里提几个可以优化的点,我也正在试着去优化。

数据获取

  1. Twitter 真实粉丝数据: 一些成熟的工具已经给出了真实粉丝的占比, 这个可以快速筛选过滤一些人为制作的账号;
  2. 关注者列表权重: 一般来说一个账户的粉丝中, 如果出现了 10k - 1M 粉丝量的大 KOL, 又或者存在特定领域的名人, 可以爬虫获取并增加权重;
  3. 交互数据: 常见的数据包含平均推文的互动数, 发推文的频率;
  4. 跨链金额/链上资产: 这个非常有趣, 我试着跑了一下, 将所有单次跨到 base 链上资产超过 1eth, 且 base 总资产 >= 5eth 的用户过滤后, 收益会有极显著的提升, 可以理解为这些人一般都会去购买自己的 share;
  5. mempool 数据: MEV 模式的套利模型需要从交易池中稳定获取数据

处理方式

  1. 统计学: 直接手动设置参数, 很有效, 至少我目前就是这么做的;
  2. light gbm 模型: 对于 twitter 号质量的基础分类器在 GitHub 上有很多, 账号的权重很容易求得;
  3. white list: 其实我看到代码里已经有一部分这方面的内容, 不过还有一种思路是, 将关联用户也添加到 white list 中, 比如 A 和 B 都属于高权重用户, 二者在 twitter 上互关, 那么 white list 更新就可以将更多人一次性加入, 类似于聚类

暂时就想到这些, 还是要感谢一下作者!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions