news-api

Sleeping

App Files Files Community

radames commited on Mar 19

Commit

8f4b172

•

1 Parent(s): e4ea573

first

Browse files

Files changed (10) hide show

.gitattributes +1 -0
.gitignore +4 -0
Dockerfile +15 -0
app.py +52 -0
cache.db +3 -0
db.py +82 -0
news_data.py +186 -0
requirements.txt +5 -0
schema.sql +13 -0
templates/index.j2 +19 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.db filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,4 @@

+venv
+gradio_cached_examples
+__pycache__/
+cache/

Dockerfile ADDED Viewed

	@@ -0,0 +1,15 @@

+FROM python:3.10.13
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH \
+    PYTHONPATH=$HOME/app \
+    PYTHONUNBUFFERED=1 \
+    SYSTEM=spaces
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+CMD ["python", "app.py"]

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+import os
+import uvicorn
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.templating import Jinja2Templates
+import logging
+from fastapi.responses import HTMLResponse
+from fastapi import FastAPI, Request, HTTPException
+from pathlib import Path
+from dateutil import parser
+from db import Database
+database = Database(Path("./"))
+logging.basicConfig(level=os.environ.get("LOGLEVEL", "INFO"))
+app = FastAPI()
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+def format_date(value):
+    format = "%A, %d %B %Y"
+    # Use dateutil's parser to automatically handle different date formats
+    try:
+        date = parser.parse(value)
+        return date.strftime(format)
+    except Exception as e:
+        logging.error(e)
+        return value
+templates = Jinja2Templates(directory="templates")
+templates.env.filters["formatdate"] = format_date
+@app.get("/", response_class=HTMLResponse)
+async def main(request: Request):
+    data = database.filter("world")
+    return templates.TemplateResponse(
+        request=request, name="index.j2", context={"data": data}
+    )
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=7860)

cache.db ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61b9c38672deb60e6ccf7426699dc087558391d8d518d7a90c45b1184c4dcf96
+size 10891264

db.py ADDED Viewed

	@@ -0,0 +1,82 @@

+import sqlite3
+from pathlib import Path
+from typing import List, Tuple
+import json
+class Database:
+    def __init__(self, db_path=None):
+        if db_path is None:
+            raise ValueError("db_path must be provided")
+        self.db_path = db_path
+        self.db_file = self.db_path / "cache.db"
+        if not self.db_file.exists():
+            print("Creating database")
+            print("DB_FILE", self.db_file)
+            db = sqlite3.connect(self.db_file)
+            with open(Path("schema.sql"), "r") as f:
+                db.executescript(f.read())
+            db.commit()
+            db.close()
+    def get_db(self):
+        db = sqlite3.connect(self.db_file, check_same_thread=False)
+        db.row_factory = sqlite3.Row
+        return db
+    def __enter__(self):
+        self.db = self.get_db()
+        return self.db
+    def __exit__(self, exc_type, exc_value, traceback):
+        self.db.close()
+    def __call__(self):
+        return self
+    def insert(self, data: List[Tuple[str, str, str]]):
+        with self() as db:
+            cursor = db.cursor()
+            try:
+                for entry in data:
+                    url, title, entries = entry
+                    cursor.execute(
+                        "INSERT INTO cache (url, title, entries) VALUES (?, ?, ?)",
+                        (url, title, entries),
+                    )
+            except Exception as e:
+                print(e)
+            db.commit()
+    def filter(self, category: str):
+        with self() as db:
+            entries = db.execute("SELECT url, title, entries FROM cache").fetchall()
+            out = []
+            for row in entries:
+                # parse json
+                data = json.loads(row["entries"])
+                try:
+                    data = [
+                        {
+                            "title": entry["title"],
+                            "link": entry["link"],
+                            "published": entry["published"]
+                            if "published" in entry
+                            else entry["pubDate"]
+                            if "pubDate" in entry
+                            else "",
+                            "summary": entry["summary"] if "summary" in entry else "",
+                        }
+                        for entry in data["entries"]
+                    ]
+                    if len(data) > 0:
+                        out.append(
+                            {
+                                "entries": data,
+                                "url": row["url"],
+                                "title": row["title"],
+                            }
+                        )
+                except Exception as e:
+                    print(f"Errro on {row['url']}: {e}")
+            return out

news_data.py ADDED Viewed

	@@ -0,0 +1,186 @@

+import feedparser
+from pathlib import Path
+import json
+from db import Database
+database = Database(Path("./"))
+def get_feed(feed_url):
+    feed = feedparser.parse(feed_url)
+    return {"entries": feed["entries"]}
+def cache_news():
+    data = []
+    for feed in TOP_NEWS_FEEDS:
+        url = feed["url"]
+        label = feed["label"]
+        print(f"Fetching {label} from {url}")
+        try:
+            feed = get_feed(url)
+            data.append((url, label, json.dumps(feed)))
+        except Exception as e:
+            print(f"Failed to fetch {label} from {url}: {e}")
+    with open("data.json", "w") as f:
+        f.write(json.dumps(data))
+    database.insert(data)
+TOP_NEWS_FEEDS = [
+    {"label": "BBC World News", "url": "http://feeds.bbci.co.uk/news/world/rss.xml"},
+    {
+        "label": "Reddit World News",
+        "url": "https://www.reddit.com/r/worldnews/top/.rss",
+    },
+    {"label": "Vox", "url": "http://www.vox.com/rss/index.xml"},
+    {"label": "CBS News", "url": "https://www.cbsnews.com/latest/rss/main"},
+    {"label": "ABC News", "url": "http://abcnews.go.com/abcnews/topstories"},
+    {"label": "CNN Top Stories", "url": "http://rss.cnn.com/rss/cnn_topstories.rss"},
+    {"label": "CNN World News", "url": "http://rss.cnn.com/rss/cnn_world.rss"},
+    {
+        "label": "The New York Times",
+        "url": "http://www.nytimes.com/services/xml/rss/nyt/HomePage.xml",
+    },
+    {
+        "label": "The Economist",
+        "url": "http://www.economist.com/sections/business-finance/rss.xml",
+    },
+    {"label": "The Guardian", "url": "https://www.theguardian.com/international/rss"},
+    {"label": "NPR", "url": "http://www.npr.org/rss/rss.php?id=1001"},
+    {"label": "Al Jazeera", "url": "https://www.aljazeera.com/xml/rss/all.xml"},
+    {
+        "label": "The Guardian World News",
+        "url": "https://www.theguardian.com/world/rss",
+    },
+    {"label": "The Atlantic", "url": "https://www.theatlantic.com/feed/all/"},
+    {"label": "Vice", "url": "http://www.vice.com/rss"},
+    {
+        "label": "The New York Times",
+        "url": "https://rss.nytimes.com/services/xml/rss/nyt/HomePage.xml",
+    },
+    {
+        "label": "The New Yorker",
+        "url": "http://www.newyorker.com/services/rss/feeds/everything.xml",
+    },
+    {"label": "Pew Research Center", "url": "http://www.pewresearch.org/feed/"},
+    {"label": "Fox News", "url": "http://feeds.feedburner.com/foxnews/latest"},
+    {
+        "label": "The Washington Post",
+        "url": "http://feeds.washingtonpost.com/rss/world",
+    },
+    {"label": "The Guardian UK", "url": "https://www.theguardian.com/uk/rss"},
+    {"label": "TIME", "url": "http://rss.time.com/web/time/rss/top/index.xml"},
+    {
+        "label": "The New York Times",
+        "url": "http://rss.nytimes.com/services/xml/rss/nyt/HomePage.xml",
+    },
+    {"label": "NPR", "url": "https://feeds.npr.org/1001/rss.xml"},
+    {"label": "Fortune", "url": "http://fortune.com/feed/"},
+    {"label": "Fox News", "url": "http://feeds.foxnews.com/foxnews/latest"},
+    {
+        "label": "BBC World News",
+        "url": "http://newsrss.bbc.co.uk/rss/newsonline_world_edition/front_page/rss.xml",
+    },
+    {"label": "Al Jazeera", "url": "http://www.aljazeera.com/xml/rss/all.xml"},
+    {"label": "Le Monde", "url": "https://www.lemonde.fr/rss/une.xml"},
+    {"label": "Vox", "url": "https://www.vox.com/rss/index.xml"},
+    {
+        "label": "The New York Times",
+        "url": "http://rss.nytimes.com/services/xml/rss/nyt/World.xml",
+    },
+    {"label": "The Guardian US", "url": "https://www.theguardian.com/us/rss"},
+    {"label": "ProPublica", "url": "http://feeds.propublica.org/propublica/main"},
+    {"label": "The Washington Post", "url": "https://feedx.net/rss/washingtonpost.xml"},
+    {"label": "Axios", "url": "https://api.axios.com/feed/top/"},
+    {"label": "RT", "url": "https://www.rt.com/rss/"},
+    {"label": "ABC News US", "url": "http://feeds.abcnews.com/abcnews/usheadlines"},
+    {"label": "CNN US", "url": "http://rss.cnn.com/rss/cnn_topstories.rss"},
+    {"label": "CBS News", "url": "http://www.cbsnews.com/latest/rss/main"},
+    {
+        "label": "The Wall Street Journal",
+        "url": "http://online.wsj.com/xml/rss/3_7085.xml",
+    },
+    {
+        "label": "USA Today",
+        "url": "http://content.usatoday.com/marketing/rss/rsstrans.aspx?feedId=news2",
+    },
+    {
+        "label": "The Christian Science Monitor",
+        "url": "http://rss.csmonitor.com/feeds/usa",
+    },
+    {
+        "label": "NBC News Top Stories",
+        "url": "http://feeds.nbcnews.com/feeds/topstories",
+    },
+    {"label": "NBC News World News", "url": "http://feeds.nbcnews.com/feeds/worldnews"},
+    {
+        "label": "Reuters World News",
+        "url": "http://feeds.reuters.com/Reuters/worldNews",
+    },
+    {
+        "label": "Reuters US News",
+        "url": "http://feeds.reuters.com/Reuters/domesticNews",
+    },
+    {
+        "label": "Associated Press US Headlines",
+        "url": "http://hosted.ap.org/lineups/USHEADS.rss",
+    },
+    {
+        "label": "Associated Press World Headlines",
+        "url": "http://hosted.ap.org/lineups/WORLDHEADS.rss",
+    },
+    {
+        "label": "HuffPost World News",
+        "url": "http://www.huffingtonpost.com/feeds/verticals/world/index.xml",
+    },
+    {
+        "label": "BBC News US and Canada",
+        "url": "http://feeds.bbci.co.uk/news/world/us_and_canada/rss.xml",
+    },
+    {"label": "Yahoo News US", "url": "http://news.yahoo.com/rss/us"},
+    {"label": "Yahoo News World", "url": "http://rss.news.yahoo.com/rss/world"},
+    {"label": "Newsweek", "url": "http://www.newsweek.com/rss"},
+    {
+        "label": "The Daily Beast",
+        "url": "http://feeds.feedburner.com/thedailybeast/articles",
+    },
+    {"label": "Quartz", "url": "http://qz.com/feed"},
+    {"label": "The Guardian USA", "url": "http://www.theguardian.com/world/usa/rss"},
+    {"label": "Politico", "url": "http://www.politico.com/rss/politicopicks.xml"},
+    {"label": "The New Yorker News", "url": "http://www.newyorker.com/feed/news"},
+    {"label": "PBS NewsHour", "url": "http://feeds.feedburner.com/NationPBSNewsHour"},
+    {"label": "PBS NewsHour World", "url": "http://feeds.feedburner.com/NewshourWorld"},
+    {"label": "NPR Politics", "url": "http://www.npr.org/rss/rss.php?id=1003"},
+    {"label": "NPR World", "url": "http://www.npr.org/rss/rss.php?id=1004"},
+    {
+        "label": "The Atlantic National",
+        "url": "http://feeds.feedburner.com/AtlanticNational",
+    },
+    {
+        "label": "The Atlantic Wire",
+        "url": "http://feeds.feedburner.com/TheAtlanticWire",
+    },
+    {
+        "label": "Los Angeles Times US",
+        "url": "http://www.latimes.com/nation/rss2.0.xml",
+    },
+    {
+        "label": "Los Angeles Times World",
+        "url": "http://www.latimes.com/world/rss2.0.xml",
+    },
+    {
+        "label": "Breaking News",
+        "url": "http://api.breakingnews.com/api/v1/item/?format=rss",
+    },
+    {"label": "VICE News", "url": "https://news.vice.com/rss"},
+    {
+        "label": "Talking Points Memo",
+        "url": "http://talkingpointsmemo.com/feed/livewire",
+    },
+    {"label": "TIME Newsfeed", "url": "http://time.com/newsfeed/feed/"},
+    {"label": "Fox News", "url": "http://feeds.foxnews.com/foxnews/latest?format=xml"},
+    {"label": "Mashable US & World", "url": "http://mashable.com/us-world/rss/"},
+]

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+fastapi
+uvicorn
+feedparser
+Jinja2
+python-dateutil

schema.sql ADDED Viewed

	@@ -0,0 +1,13 @@

+PRAGMA foreign_keys = OFF;
+BEGIN TRANSACTION;
+CREATE TABLE cache (
+    id INTEGER PRIMARY KEY AUTOINCREMENT,
+    url TEXT NOT NULL,
+    title TEXT NOT NULL,
+    entries json,
+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP NOT NULL
+);
+COMMIT;

templates/index.j2 ADDED Viewed

	@@ -0,0 +1,19 @@

+<html>
+  <head>
+    <title>Item Details</title>
+  </head>
+  <body>
+    <div>
+      {% for item in data %}
+        <h1>{{ item.title }}</h1>
+        {% for entry in item['entries'] %}
+          <a href="{{ entry.link }}" target="_blank" rel="noopener noreferrer">
+          <h2>{{ entry.title }}</h2></a>
+          <h3>{{ entry.published|formatdate }}</h3>
+          <p>{{ entry.summary }}</p>
+        {% endfor %}
+      {% endfor %}
+    </div>
+  </body>
+</html>